314 lines
9.2 KiB
TeX
314 lines
9.2 KiB
TeX
\documentclass[10pt,aspectratio=43,mathserif,table]{beamer}
|
||
%设置为 Beamer 文档类型,设置字体为 10pt,长宽比为16:9,数学字体为 serif 风格
|
||
\batchmode
|
||
|
||
\usepackage{graphicx}
|
||
\usepackage{animate}
|
||
\usepackage{hyperref}
|
||
|
||
%导入一些用到的宏包
|
||
\usepackage{amsmath,bm,amsfonts,amssymb,enumerate,epsfig,bbm,calc,color,ifthen,capt-of,multimedia,hyperref}
|
||
\usepackage{xeCJK} %导入中文包
|
||
\setCJKmainfont{SimHei} %字体采用黑体 Microsoft YaHei
|
||
|
||
\usetheme{Berlin} %主题
|
||
\usecolortheme{sustech} %主题颜色
|
||
|
||
\usepackage[ruled,linesnumbered]{algorithm2e}
|
||
|
||
\usepackage{fancybox}
|
||
\usepackage{xcolor}
|
||
\usepackage{times}
|
||
\usepackage{listings}
|
||
|
||
\usepackage{booktabs}
|
||
\usepackage{colortbl}
|
||
|
||
\newcommand{\Console}{Console}
|
||
\lstset{ %
|
||
backgroundcolor=\color{white}, % choose the background color
|
||
basicstyle=\footnotesize\rmfamily, % size of fonts used for the code
|
||
columns=fullflexible,
|
||
breaklines=true, % automatic line breaking only at whitespace
|
||
captionpos=b, % sets the caption-position to bottom
|
||
tabsize=4,
|
||
commentstyle=\color{mygreen}, % comment style
|
||
escapeinside={\%*}{*)}, % if you want to add LaTeX within your code
|
||
keywordstyle=\color{blue}, % keyword style
|
||
stringstyle=\color{mymauve}\ttfamily, % string literal style
|
||
numbers=left,
|
||
% frame=single,
|
||
rulesepcolor=\color{red!20!green!20!blue!20},
|
||
% identifierstyle=\color{red},
|
||
language=c
|
||
}
|
||
|
||
\setsansfont{Microsoft YaHei}
|
||
\setmainfont{Microsoft YaHei}
|
||
|
||
\definecolor{mygreen}{rgb}{0,0.6,0}
|
||
\definecolor{mymauve}{rgb}{0.58,0,0.82}
|
||
\definecolor{mygray}{gray}{.9}
|
||
\definecolor{mypink}{rgb}{.99,.91,.95}
|
||
\definecolor{mycyan}{cmyk}{.3,0,0,0}
|
||
|
||
%题目,作者,学校,日期
|
||
\title{Reinventing the Wheel: Publishing High-quality Slides}
|
||
\subtitle{\fontsize{9pt}{14pt}\textbf{利用公共网关的SMS生态系统的安全性描述}}
|
||
\author{答辩人: 李易峰 \newline \newline 指导老师: 吴亦凡教授}
|
||
\institute{\fontsize{8pt}{14pt}中北大学英雄与联盟工程学院}
|
||
\date{\today}
|
||
|
||
%学校Logo
|
||
%\pgfdeclareimage[height=0.5cm]{sustech-logo}{sustech-logo.pdf}
|
||
%\logo{\pgfuseimage{sustech-logo}\hspace*{0.3cm}}
|
||
|
||
\AtBeginSection[]
|
||
{
|
||
\begin{frame}<beamer>
|
||
\frametitle{\textbf{目录}}
|
||
\tableofcontents[currentsection]
|
||
\end{frame}
|
||
}
|
||
\beamerdefaultoverlayspecification{<+->}
|
||
% -----------------------------------------------------------------------------
|
||
\begin{document}
|
||
% -----------------------------------------------------------------------------
|
||
|
||
\frame{\titlepage}
|
||
|
||
\section[目录]{} %目录
|
||
\begin{frame}{目录}
|
||
\tableofcontents
|
||
\end{frame}
|
||
|
||
% -----------------------------------------------------------------------------
|
||
\section{引言} %引言
|
||
\subsection{研究背景}
|
||
\begin{frame}{研究背景}
|
||
\begin{columns}[T] % align columns
|
||
\begin{column}<0->{.40\textwidth}
|
||
\begin{figure}[thpb]
|
||
\centering
|
||
\resizebox{1\linewidth}{!}{
|
||
\includegraphics{figures/sustech.pdf}
|
||
}
|
||
%\includegraphics[scale=1.0]{figurefile}
|
||
\caption{SUSTech Campus}
|
||
\label{fig:campus}
|
||
\end{figure}
|
||
\end{column}%
|
||
\hfill%
|
||
\begin{column}<0->{.65\textwidth}
|
||
\begin{itemize}
|
||
\item<1-> 短信息(SMS)成为现代通讯的重要组成部分
|
||
\begin{itemize}
|
||
\item<1-> 很多组织或网站使用短信息作为身份验证的辅助通道
|
||
\end{itemize}
|
||
\item<2-> 现代短消息的发送,在抵达终端之前不接触蜂窝网络
|
||
\begin{itemize}
|
||
\item<2-> 短信息(SMS)成为现代通讯的重要组成部分
|
||
\end{itemize}
|
||
\end{itemize}
|
||
\end{column}%
|
||
\end{columns}
|
||
\end{frame}
|
||
\subsection{主要工作}
|
||
\begin{frame}{主要工作}
|
||
完成这项工作需要如下步骤
|
||
\begin{block}{具体步骤}
|
||
\begin{itemize}
|
||
\item<0-> 对SMS数据进行迄今为止最大的挖掘分析
|
||
\item<0-> 评估良性短消息服务的安全态势
|
||
\item<0-> 刻画通过SMS网关进行的恶意行为
|
||
\end{itemize}
|
||
\end{block}
|
||
\end{frame}
|
||
|
||
\begin{frame}
|
||
\frametitle{OTT服务}
|
||
\begin{figure}[!t]
|
||
\centering
|
||
\includegraphics[width=2in]{figures/sustech.pdf}
|
||
\caption{OTT服务}
|
||
\label{figure3_OTT}
|
||
\end{figure}
|
||
\begin{center}
|
||
OTT服务支持在数据网络上提供短信和语音等第三方服务。\\
|
||
OTT可以使用云服务来存储和同步SMS到用户的其他设备。
|
||
\end{center}
|
||
|
||
\end{frame}
|
||
|
||
|
||
|
||
\section{词表示模型} %自我介绍
|
||
|
||
\begin{frame}{词表示}
|
||
在NLP任务中,可以利用各种词表示模型,将“词”这种符号信息表示成数学上的向量形式。。将语义信息表示成稠密、低维的实值向量,这样就可以用计算向量之间相似度的方法(如余弦相似度),来计算语义的相似度。词的向量表示可以作为各种深度学习模型的输入来使用
|
||
\begin{block}{词表示模型分类}
|
||
直接表示模型
|
||
\begin{itemize}
|
||
\item<0-> One-Hot Representation
|
||
\end{itemize}
|
||
|
||
分布式表示模型
|
||
\begin{itemize}
|
||
\item<0-> 计数模型(基于共现矩阵)
|
||
\item<0-> 预测模型(基于神经网络)
|
||
\end{itemize}
|
||
\end{block}
|
||
\end{frame}
|
||
|
||
|
||
\section{直接表示模型}
|
||
\begin{frame}{One-Hot Representation}
|
||
最简单直接的词表示是One-Hot Representation。考虑一个词表$ \mathbb V $,里面的每一个词$ w_i $都有一个编号$ i\in \{1,...,n\} $,那么词$ w_i $的one-hot表示就是一个维度为n的向量,其中第$ i $个元素值非零,其余元素全为0。例如:
|
||
\[ w_2=[0,1,0,...,0]^\top \]
|
||
\[ w_3=[0,0,1,...,0]^\top \]
|
||
\begin{block}{缺点}
|
||
\begin{itemize}
|
||
\item<0-> 彼此正交,不能反应词间的语义关系
|
||
\item<0-> 稀疏表示,维度很高,和词典大小成正比
|
||
\end{itemize}
|
||
\end{block}
|
||
\begin{center}
|
||
\textcolor{mymauve}{仅仅是为了区分词,不包含语义信息,语义信息应该从上下文中挖掘}
|
||
\end{center}
|
||
\end{frame}
|
||
|
||
|
||
\section{研究方法与数据集特征}
|
||
\begin{frame}{研究方法与数据集特征}
|
||
\begin{columns}[c] % align columns
|
||
\begin{column}<0->{.5\textwidth}
|
||
\vspace*{1cm}
|
||
\begin{itemize}
|
||
\item 使用Scrapy框架爬取公共网关
|
||
\end{itemize}
|
||
|
||
\begin{itemize}
|
||
\item 收集8个公共短信网关在14个月的数据
|
||
\end{itemize}
|
||
|
||
\begin{itemize}
|
||
\item 共抓取386,327条数据
|
||
\end{itemize}
|
||
\end{column}%
|
||
\hfill%
|
||
\begin{column}<0->{.40\textwidth}
|
||
\begin{table}
|
||
\caption{公共网关抓取的信息数}
|
||
\footnotesize
|
||
\rowcolors{1}{mygray}{white}
|
||
\begin{tabular}{|c|c|}
|
||
\hline
|
||
\textbf{Site} & \textbf{Messages}\\
|
||
\hline
|
||
receivesmsonline.net &81313\\
|
||
\hline
|
||
receive-sms-online.info &69389\\
|
||
\hline
|
||
receive-sms-now.com &63797\\
|
||
\hline
|
||
hs3x.com &55499\\
|
||
\hline
|
||
receivesmsonline.com &44640\\
|
||
\hline
|
||
receivefreesms.com &37485\\
|
||
\hline
|
||
receive-sms-online.com &27094\\
|
||
\hline
|
||
e-receivesms.com &7107\\
|
||
\hline
|
||
\end{tabular}
|
||
\end{table}
|
||
\end{column}%
|
||
\end{columns}
|
||
\end{frame}
|
||
|
||
\begin{frame}
|
||
\frametitle{消息聚类分析}
|
||
\begin{block}{\textbf{基本思路}}
|
||
\begin{itemize}
|
||
\item<0-> 使用编辑距离矩阵将类似的消息归于一张连通图中。
|
||
\item<0-> 使用固定值替换感兴趣的消息,如代码、email地址。
|
||
\item<0-> 查找归一化距离小于阈值的消息,并确定聚类边界。
|
||
\end{itemize}
|
||
\end{block}
|
||
|
||
\begin{block}{\textbf{实现步骤}}
|
||
\begin{enumerate}
|
||
\item<0-> 加载所有消息。
|
||
\item<0-> 用固定的字符串替换数字、电子邮件和URL以预处理消息。
|
||
\item<0-> 将预处理后的信息按字母排序。
|
||
\item<0-> 通过使用编辑距离阈值(0.9)来确定聚类边界。
|
||
\item<0-> 手动标记各个聚类,以确定服务提供者、消息类别等。
|
||
\end{enumerate}
|
||
\end{block}
|
||
\end{frame}
|
||
|
||
\section{算法和代码}
|
||
\subsection{算法}
|
||
\begin{frame}{算法}
|
||
\begin{algorithm}[H]
|
||
\caption{HOSVD}
|
||
\small
|
||
\KwIn{HOSVD($\mathcal{X},R_{1},R_{2}.....R_{N}$) }
|
||
\KwOut{ $\mathcal{G},A_{(1)},A_{(2)}......A_{(N)} $ }
|
||
|
||
\For{$k=1$ to $N$ }
|
||
{
|
||
$A_{(n)}\leftarrow R_{n}$left singular matrix of $X_{(n)}$
|
||
}
|
||
$\mathcal{G}=\leftarrow \mathcal{X} \times A_{(1)}^{T} \times A_{(2)}^{T}...... \times A_{(N)}^{T}$\\
|
||
\Return $\mathcal{G},A_{(1)},A_{(2)}......A_{(N)} $
|
||
\end{algorithm}
|
||
\end{frame}
|
||
|
||
\subsection{代码}
|
||
\begin{frame}[fragile]{代码}
|
||
HOSVD在Python的代码实现和分析:
|
||
\lstinputlisting[lastline=11,
|
||
language=Python,
|
||
frame=single,
|
||
caption=First ten lines of some Python code,
|
||
label=python]
|
||
{HOSVD.py}
|
||
\end{frame}
|
||
|
||
|
||
\section{Future Work}
|
||
\begin{frame}{Future Work} %将来可做的方向
|
||
\begin{itemize}
|
||
\item<0-> Get more people to try this
|
||
\item<0-> Benchmark the entire system in the wild
|
||
\item<0-> Profit!
|
||
\end{itemize}
|
||
\end{frame}
|
||
|
||
\begin{frame}{Thank you}
|
||
\begin{center}
|
||
\begin{minipage}{1\textwidth}
|
||
\setbeamercolor{mybox}{fg=white, bg=black!50!blue}
|
||
\begin{beamercolorbox}[wd=0.70\textwidth, rounded=true, shadow=true]{mybox}
|
||
\LARGE \centering Thank you for listening! %结束语
|
||
\end{beamercolorbox}
|
||
\end{minipage}
|
||
\end{center}
|
||
\end{frame}
|
||
|
||
\begin{frame}{Q\&A}
|
||
\begin{center}
|
||
\begin{minipage}{1\textwidth}
|
||
\setbeamercolor{mybox}{fg=white, bg=black!50!blue}
|
||
\begin{beamercolorbox}[wd=0.70\textwidth, rounded=true, shadow=true]{mybox}
|
||
\LARGE \centering Questions? %请求提问
|
||
\end{beamercolorbox}
|
||
\end{minipage}
|
||
\end{center}
|
||
\end{frame}
|
||
|
||
% -----------------------------------------------------------------------------
|
||
\end{document}
|
||
%文档结束 |