NLP之自然语言处理简述.docx

上传人:安*** 文档编号:73273580 上传时间:2023-02-17 格式:DOCX 页数:7 大小:19.37KB
返回 下载 相关 举报
NLP之自然语言处理简述.docx_第1页
第1页 / 共7页
NLP之自然语言处理简述.docx_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《NLP之自然语言处理简述.docx》由会员分享,可在线阅读,更多相关《NLP之自然语言处理简述.docx(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、NLP之自然语言处理简述什么是自然语言处理自然语言处理是研究在人与人交际中和人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言才能linguisticcompetence以及语言应用linguisticperformance的模型建立计算框架来实现这样的语言模型提出相应的方法来不断完善这样的语言模型根据这样的语言模型设计各种实用系统并讨论这些实用系统的评测技术。根据这个定义自然语言处理要研究“在人与人交际中和人与计算机交际中的语言问题既要研究语言又要研究计算机因此它是一门穿插学科它涉及语言学、计算机科学、数学、自动化等不同学科。以宗成庆所著?统计自然语言处理?为例其在统计自然语言

2、处理的理论方面首先介绍相关的根底知识例如概率论以及信息论的根本概念、形式语言以及自动机的根本概念。由于统计自然语言处理是以语料库以及词汇知识库为语言资源的因此接下来本书讲解了语料库以及词汇知识库的根本原理。语言模型以及隐马尔可夫模型是统计自然语言处理的根底理论在统计自然语言处理中具有重要地位。因此本书介绍了语言模型的根本概念并讨论了各种平滑方法以及自适应方法又介绍了隐马尔可夫模型以及参数估计的方法。接着本书分别阐述了在词法分析与词性标注中的统计方法在句法分析中的统计方法在词汇语义中的统计方法。基于统计的自然语言处理的理论根底是哲学中的经历主义基于规那么的自然原因处理的理论根底是哲学中的理性主义

3、。讲到底这个问题是关于怎样处理经历主义以及理论主义关系的问题。自然语言处理研究的内容机器翻译machinetranslation,MT实现一种语言到另一种语言的自动翻译自动文摘automaticabstracting将文档的主要内容以及含义自动归纳、提炼形成摘要信息检索informationretrieval从海量文档中找到符合用户需要的相关文档文档分类documentcategorization/classification对大量的文档按照一定的分类标准例如根据主题或者内容划分等实现自动归类。文档分类也称文本分类textcategorization/classification或者信息分类i

4、nformationcategorization/classification近年度来情感分类sentimentclassification或者称文本倾向性识别textorientationidentification成为本领域研究的热点。问答系统question-answeringsystem对用户提出的问题的理解利用自动推理等手段在有关知识资源中自动求解答案并做出相应的答复。信息过滤informationfiltering自动识别以及过滤那些知足特定条件的文档信息。信息抽取informationextraction指从文本中抽取出特定的事件event或者事实信息有时候又称事件抽取event

5、extraction。信息抽取与信息检索不同信息抽取直接从自然语言文本中抽取信息框架一般是用户感兴趣的事实信息而信息检索主要是从海量文档集合中找到与用户需求一般通过关键词表达相关的文档列表而信息抽取那么是祈望直接从文本中获得用户感兴趣的事实信息。当然信息抽取与信息检索也有亲密的关系信息抽取系统通常以信息检索系统如文本过滤的输出作为输入而信息抽取技术又可以用来进步信息检索系统的性能。信息抽取与问答系统也有亲密的联络。一般而言信息抽取系统要抽取的信息是明定的、事先规定好的系统只是将抽取出来的事实信息填充在给定的框架槽里而问答系统面对的用户问题往往是随机的、不确定的而且系统需要将问题的答案生成自然语

6、言句子通过自然、标准的语句准确地表达出来使系统与用户之间形成一问一答的交互经过。文本挖掘textmining从文本多指网络文本中获取高质量信息的经过。文本挖掘技术一般涉及文本分类、文本聚类textclustering、概念或者实体抽取concept/entityextraction、粒度分类、情感分析sentimentanalysis、自动文摘以及实体关系建模entityrelationmodeling等多种技术。舆情分析publicopinionanalysis舆情是较多群众关于社会中各种现象、问题所表达的信念、态度、意见以及情绪等等表现的总以及。显然舆情分析是一项特别复杂、涉及问题诸多的综

7、合性技术它涉及网络文本挖掘、观点意见挖掘opinionmining等各方面的问题。隐喻计算metaphoricalcomputation研究自然语言语句或者篇章中隐喻修辞的理解方法。文字编辑以及自动校对automaticproofreading对文字拼写、用词甚至语法、文档格式等进展自动检查、校对以及编排。作文自动评分对作文质量以及写作程度进展自动评价以及打分语音识别speechrecognition将输入的语音信号识别转换成书面语表示。文语转换text-to-speechconversion将书面文本自动转换成对应的语音表征又称语音合成speechsynthesis。讲话人识别认证验证spe

8、akerrecognition/identification/verification对讲话人的言语样本做声学分析依此推断确定或者验证讲话人的身份。自然语言处理涉及的几个层次假如撇开语音学研究的层面自然语言处理研究的问题一般会涉及自然语言的形态学、语法学、语义学以及语用学等几个层次。形态学morphology形态学又称“词汇形态学或者“词法是语言学的一个分支研究词的内部构造包括屈折变化以及构词法两个局部。由于词具有语音特征、句法特征以及语义特征形态学处于音位学、句法学以及语义学的结合部位所以形态学是每个语言学家都要关注的一门学科。语法学syntax研究句子构造成分之间的互相关系以及组成句子序列

9、的规那么。其关注的中心是为什么一句话可以这么讲可以以那么讲语义学semantics语义学的研究对象是语言的各级单位词素、词、词组、句子、句子群、整段整篇的话语以及文章乃至整个著作的意义和语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系等等。其重点在探明符号与符号所指的对象之间的关系进而指导人们的言语活动。它所关注的重点是这个语言单位到底讲了什么语用学pragmatics是当代语言学用来指从使用者的角度研究语言十分是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他介入者的影响。目前还缺乏一种连接的语用学理论主要是因为它必须讲明的问题是多方面的包括

10、直指、会话隐含、预设、言语行为、话语构造等。局部原因是由于这一学科的范围太广泛因此出现多种不一致的定义。从狭隘的语言学观点看语用学处理的是语言构造中有形式表达的那些语境。相反语用学最广泛的定义是研究语义学未能涵盖的那些意义。因此语用学可以是集中在句子层次上的语用研究可以以是超出句子对语言的实际使用情况的调查研究甚至与会话分析、语篇分析相结合研究在不同上下文中的语句应用和上下文对语句理解所产生的影响。其关注的重点在于为什么在特定的上下文中要讲这句话在实际问题的研究中上述几方面的问题尤其是语义学以及语用学的问题往往是互相交织在一起的。语法构造的研究离不开对词汇形态的分析句子语义的分析也离不开对词汇

11、语义的分析、语法构造以及语用的分析它们之间往往互为前提。自然语言处理面临的困难根据上面的介绍自然语言处理涉及形态学、语法学、语义学以及语用学等几个层面的问题其最终应用目的包括机器翻译、信息检索、问答系统等非常广泛的应用领域。其实假如进一步归结实现所有这些应用目的最终需要解决的关键问题就是歧义消解disambiguation问题以及未知语言现象的处理问题。一方面自然语言中大量存在的歧义现象无论在词法层次、句法层次还是在语义层次以及语用层次无论哪类语言单位其歧义性始终都是困扰人们实现应用目的的一个根本问题。因此怎样面向不同的应用目的针对不同语言单位的特点研究歧义消解以及未知语言现象的处理策略及实现

12、方法就成了自然语言处理面临的核心问题。另一方面对于一个特定系统来讲总是有可能遇到未知词汇、未知构造等各种意想不到的情况而且每一种语言又都随着社会的开展而动态变化着新的词汇尤其是一些新的人名、地名、组织机构名以及专用词汇、新的词义、新的词汇用法新词类甚至新的句子构造都在不断出现尤其在口语对话或者计算机网络对话、微博、boke等中稀奇乖僻的词语以及话语构造更是司空见惯。因此一个实用的自然语言处理系统必须具有较好的未知语言现象的处理才能而且有足够的对各种可能输入形式的容错才能即我们通常所讲的系统的鲁棒性robustness问题。当然对于机器翻译、信息检索、文本分类等特定的自然语言处理任务来讲还存在假设干与任务相关的其他问题诸如怎样处理不同语言的差异、怎样提取文本特征等。总而言之目前的自然语言处理研究面临着假设干问题的困扰既有数学模型不够奏效、有些算法的复杂度过高、鲁棒性太差等理论问题也有数据资源匮乏、覆盖率低、知识表示困难等知识资源方面的问题当然还有实现技术以及系统集成方法不够先进等方面的问题。miner_zhu

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com