《(本科)05-文本表示ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)05-文本表示ppt课件.pptx(44页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、课程主讲人:05-文本表示2第第5章章 文本表示文本表示教材:教材: 刘挺等刘挺等自然语言处理自然语言处理 高等教育出版社,高等教育出版社,2021自然语言处理自然语言处理目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标One-Hot Encodingo分布式语义假设分布式语义假设o 假设:n Yo
2、u shall know a word by the company it keeps.n 词的含义可由其上下文的分布进行表示n 上下文相似的词语,其语义也往往相似o 方法介绍n 布朗聚类n 潜在语义分析LSAn 词神经嵌入布朗聚类布朗聚类o 利用上下文分布特征对词进行层次化聚类层次化聚类o 可以用近似霍夫曼树的方式对单词进行编码n 前缀相似度越高的词越接近n 可以使用不同长度的前缀获得不同粒度的语义表示010001011100000000100101010111011布朗聚类获得方式布朗聚类获得方式o布朗聚类获得方式布朗聚类获得方式o相邻词类互信息文本信息熵布朗聚类获得方式布朗聚类获得方式o
3、与词类聚类无关布朗聚类布朗聚类o潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo潜在语义分析潜在语义分析 LSAo神经词嵌入神经词嵌入oCBOW模型模型oCBOW模型模型oCBOW模型模型oSkip-gram 模型模型oSkip-gram 模型模型CBOW和和Skip-gram参数估计参数估计oCBOW和和Skip-gram参数估计参数估计o 实际操作中,输出层softmax函数维度过大,运行效率特别慢o 解决效率问题的两种近似方法:n 层次Softmax(Hierarchical Softmax)n 负采样方法(Negative Samp
4、ling)层次层次Softmaxo 将输出层用二叉树组合起来n 二叉树的叶子节点代表每一个单词n 对目标单词的预测分解为从根结点到叶子节点的二元路径决策层次层次Softmax o层次层次Softmax o层次层次Softmax o基于负采样的词向量学习基于负采样的词向量学习o基于负采样的词向量学习基于负采样的词向量学习o 举例:n 文本: I want to study NLP.o 窗口为2n 正例: o (want, study)n 负例:o (want, abandon)o (want, model)o 词表示评价词表示评价o 词义相关性:n 人工标注一些词对的相似度。相似度。n 利用词向
5、量余弦相似度值余弦相似度值与人工标注相似度的相关相关系数系数作为词义相关性的评价标准:词表示评价词表示评价o目录目录o 词的表示n 分布式语义假设n 布朗聚类n 潜在语义分析n 神经词嵌入n 词表示评价o 短语和句子表示n 词袋模型n 基于神经网络的组合语义模型n 通用表示学习目标短语和句子表示短语和句子表示o 通过词表示的组合计算,可以得到短语句子的向量表示o 短语句子表示可以应用在文本分类等下游任务中词袋模型词袋模型o递归神经网络递归神经网络o大写字母代表词性,小写字母代表节点表示循环神经网络循环神经网络o卷积神经网络卷积神经网络o 将每个词分布式表示向量进行拼接得到一副二维“图像”,在图
6、像上进行卷积池化操作获得句子向量表示。o 滤波器高度等于词向量维度一保证以词为单位以词为单位进行卷积。滤波器高度=词向量维度=4注意力模型注意力模型o 循环神经网络和卷积神经网络都采用池化操作获得句子表示,这种做法丢失了不同词的重要性分布重要性分布信息。o 利用注意力(attention)机制,对不同词的重要程度加以评估,能够聚焦到更重要的信息。自注意力模型自注意力模型o通用表示学习目标通用表示学习目标o 获得通用的句子表示需要:n 编码器(模型)n 规模性大、通用性强的指导信号指导信号(任务)o 常见的通用表示学习任务:n 双语翻译n 语言模型n 单语言句间关系双语翻译双语翻译o 将神经翻译系统的编码器作为句子表示。作为表示语言模型语言模型o 利用左右侧上下文预测掩盖的单词训练语言表示。我我在在周日周日看了看了一一mask 书书Language Model本单语言句间关系单语言句间关系o Skip-thought模型:n 通过一个句子的表示重构其左右的句子本章总结本章总结o 词的表示:n 根据分布式语义表示,介绍了三种基于上下文信息的词表示获取方法n 了解了词表示的评价方式o 短语和句子表示:n 了解了句子表示的模型架构n 了解了获得通用句子表示的训练任务