【总结】自然语言处理(NLP)算法:概述与分类.docx

上传人:安*** 文档编号:73265913 上传时间:2023-02-17 格式:DOCX 页数:10 大小:20.57KB
返回 下载 相关 举报
【总结】自然语言处理(NLP)算法:概述与分类.docx_第1页
第1页 / 共10页
【总结】自然语言处理(NLP)算法:概述与分类.docx_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《【总结】自然语言处理(NLP)算法:概述与分类.docx》由会员分享,可在线阅读,更多相关《【总结】自然语言处理(NLP)算法:概述与分类.docx(10页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、【总结】自然语言处理(NLP)算法:概述与分类NLP界神级人物MichaelColinsCUJasonEisnerJHUDavidYarowsky(JHU)ChrisManningDekangLin奇点机智MichaelColins英国人哥伦比亚大学教授。研究领域包括parsere-ranking,treekernels,semi-supervisedlearning,machinetranslation以及exponentiatedgradientalgorithms。collins/eisner对NLP构造学习领域奉献极大研究parsing并一战成名。非常喜欢MichaelCollins,

2、认为他写的paper看得最舒适最爽犹如沐浴于樱花之中。JasonEisner确实是厉害不过看他paper实在太难看懂写的语言非常抽象我等屌丝实在难以深化理解。经过Collins大侠的一些paper才能对Eisner的paper妙语进展理解。JasonEisner(JHU),约翰霍普金斯大学。DavidYarowsky(JHU)yarowsky早年度研究词义消歧是著名的yarowskyalgorithm的后来做了很多跨语言学习的创始性工作。StanfordNLP掌门ChrisManning以?统计自然语言处理根底?一书和StanfordNLP(toolkit)而出名。DanJurafsky著有?

3、语音与语言处理?一书具有深沉的语言学背景。略微提一下Manning的学生RichardSocher近几年度声名鹊起在dl4nlp领域风头一时无两属年度轻一代翘楚。DekangLin林德康教师前Google高级管理科学家seniorstaffresearchscientist在参加Google之前是加拿大Alberta大学计算机教授发表过逾90篇论文、被引用超过12000次目前做了一家NLP相关的创业公司奇点机智。NLP知识构造1.概述1自然语言处理利用计算机为工具对书面实行或口头形式进展各种各样的处理以及加工的技术是研究人与人交际中和人与计算机交际中的演员问题的一门学科是人工智能的主要内容。2

4、自然语言处理是研究语言才能以及语言应用的模型建立计算机算法框架来实现这样的语言模型并完善、评测、最终用于设计各种实用系统。3研究问题主要信息检索机器翻译文档分类问答系统信息过滤自动文摘信息抽取文本挖掘舆情分析机器写作语音识别4困难所在场景的困难语言的多样性、多变性、歧义性学习的困难困难的数学模型hmm,crf,EM,深度学习等语料的困难什么的语料语料的作用怎样获取语料2.形式语言与自动机1语言按照一定规律构成的句子或字符串的有限或无限的集合2描绘语言的三种途径穷举法文法产生式系统描绘自动机3自然语言不是人为设计而是自然进化的形式语言比方运算符号、化学分子式、编程语言主要研究内部构造形式这类语言

5、的纯粹的语法领域从语言学而来作为一种理解自然语言的句法规律在计算机科学中形式语言通常作为定义编程以及语法构造的根底。4形式语言与自动机根底知识集合论图论5自动机的应用单词自动查错纠正词性消歧什么是词性什么的词性标注为什么需要标注怎样标注6形式语言的缺陷对于像汉语英语这样的大型自然语言系统难以构造准确的文法不符合人类学习语言的习惯有些句子语法正确但在语义上却不可能形式语言无法排出这些句子解决方向基于大量语料采用统计学手段建立模型3.语言模型1语言模型重要通过语料计算某个句子出现的概率概率表示常用的有2-元模型3-元模型2语言模型应用语音识别歧义消除例如给定拼音串tashiyanyanjiusau

6、nfade可能的汉字串踏实烟酒算法的他是研究酸法的他是研究算法的显然最后一句才符合。3语言模型的启示开启自然语言处理的统计方法统计方法的一般步骤采集大量语料对语料进展统计分析得出知识针对场景建立算法模型解释以及应用结果4语言模型性能评价包括评价目的评价的难点常用指标穿插熵困惑度5数据平滑数据平滑的概念为什么需要平滑平滑的方法加一法加法平滑法古德-图灵法J-M法Katz平滑法等6语言模型的缺陷语料来自不同的领域而语言模型对文本类型、主题等特别敏感n与相邻的n-1个词相关假设不是很成立。4.概率图模型生成模型与判别模型贝叶斯网络马尔科夫链与隐马尔科夫模型HMM1概率图模型概述什么的概率图模型参考清

7、华大学教材?概率图模型?2马尔科夫经过定义理解3隐马尔科夫经过定义理解HMM的三个根本问题定义解法应用注第一个问题涉及最大似然估计法第二个问题涉及EM算法第三个问题涉及维特比算法内容很多要重点理解5.马尔科夫网最大熵模型条件随机场CRF1)HMM的三个根本问题的参数估计与计算2什么是熵3EM算法应用特别广泛好好理解4HMM的应用5层次化马尔科夫模型与马尔科夫网络提出原因HMM存在两个问题6最大熵马尔科夫模型优点与HMM相比允许使用特征刻画观察序列训练高效缺点存在标记偏置问题7条件随机场及其应用(概念模型经过与HMM关系)参数估计方法GIS算法改良IIS算法CRF根本问题特征选取特征模板、概率计

8、算、参数训练、解码维特比应用场景词性标注类问题如今一般用RNNCRF中文分词开展经过经典算法解析开源工具jieba分词中文人名地名识别8CRF6.命名实体识别词性标注内容挖掘、语义分析与篇章分析大量用到前面的算法1命名实体识别问题2未登录词的解决方法(搜索引擎基于语料)3CRF解决命名实体识别NER流程总结训练阶段确定特征模板不同场景人名地名等所使用的特征模板不同对现有语料进展分词在分词结果根底上进展词性标注可能手工NER对应的标注问题是基于词的然后训练CRF模型得到对应权值参数值。识别经过将待识别文档分词然后送入CRF模型进展识别计算维特比算法得到标注序列然后根据标注划分出命名实体4词性标注

9、理解含义意义及其一致性检查方法位置属性向量词性标注序列向量聚类或分类算法7.句法分析1句法分析理解和意义句法构造分析完全句法分析浅层分析这里有很多方法。依存关系分析2句法分析方法1.基于规那么的句法构造分析2.基于统计的语法构造分析8.文本分类情感分析1文本分类文本排重文本分类在预定义的分类体系下根据文本的特征将给定的文本与一个或多个类别相关联典型应用垃圾邮件断定网页自动分类2文本表示特征选取与权重计算词向量文本特征选择常用方法1、基于本文频率的特征提取法2、信息增量法3、X2卡方统计量4、互信息法3分类器设计SVM贝叶斯决策树等4分类器性能评测1、召回率2、正确率3、F1值5主题模型LDA与

10、PLSALDA模型特别强大基于贝叶斯改良了PLSA可以提取出本章的主题词以及关键词建模经过复杂难以理解。6情感分析借助计算机帮助用户快速获取整理以及分析相关评论信息对带有感情色彩的主观文本进展分析处理以及归纳例如评论自动分析水军识别。某种意义上看情感分析也是一种特殊的分类问题9.信息检索搜索引擎及其原理1信息检索起源于图书馆资料查询检索引入计算机技术后从单纯的文本查询扩展到包含图片音视频等多媒体信息检索检索对象由数据库扩展到互联网1.点对点检索2.准确匹配模型与相关匹配模型3.检索系统关键技术标引相关度计算2常见模型布尔模型向量空间模型概率模型3常用技术倒排索引隐语义分析LDA等4评测指标10

11、.自动文摘与信息抽取机器翻译问答系统1统计机器翻译的的思路经过难点和解决2问答系统根本组成问题分析信息检索答案抽取类型基于问题-答案基于自由文本典型的解决思路3自动文摘的意义常用方法4信息抽取模型LDA等11.深度学习在自然语言中的应用1单词表示比方词向量的训练wordvoc2自动写文本写新闻等3机器翻译4基于CNN、RNN的文本分类5深度学习与CRF结合用于词性标注NLP用于征信近几年度国内P2P以及现金贷的大量涌现讲明了个人小额信贷的市场需求宏大。在过去针对该类小贷用户一般单纯地依靠地推人员挨家挨户进展实地征信。如今基于大数据以及人工智能技术可以实现智能征信以及审批极大地进步工作效率。通太

12、多渠道获取用户多维度的数据如通话记录、短信信息、购置历史、和社交网络上的相关留存信息等然后从信息中提取各种特征建立模型对用户进展多维度画像最后根据模型评分对用户的个人信誉进展评估。同样对于市场上中小微企业融资难的问题可以以通过大数据征信得以解决。信誉评分模型案例业务目的建立信誉评估系统当把信誉卡用户的信息导入到该系统时系统会自动输出这批用户的违约风险及信誉得分为信誉卡用户的管理提供决策支持。数据挖掘目的建立信誉卡用户的信誉评估模型该模型以用户的信息指标为输入以违约为目的建立预测模型该模型可以根据输入指标的值计算预测值违约。建立信誉评分模型分类预测算法并不局限于神经网络算法只要是适用于目的变量为字符型的分类预测算法都可以如决策树、支持向量机、贝叶斯网络、KNN、Logistic回归等。参考资料黄志洪教师的自然语言处理课程参考书宗成庆教师的?统计自然语言处理?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com