自然语言处理怎么最快入门.docx

上传人:安*** 文档编号:71086419 上传时间:2023-02-01 格式:DOCX 页数:7 大小:19.18KB
返回 下载 相关 举报
自然语言处理怎么最快入门.docx_第1页
第1页 / 共7页
自然语言处理怎么最快入门.docx_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《自然语言处理怎么最快入门.docx》由会员分享,可在线阅读,更多相关《自然语言处理怎么最快入门.docx(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、自然语言处理怎么最快入门微软亚洲研究院链接s:/zhihu/question/19895141/answer/149475410来源知乎著作权归所有。商业转载请联络获得受权非商业转载请注明出处。自然语言处理简称NLP是研究计算机处理人类语言的一门技术包括1.句法语义分析对于给定的句子进展分词、词性标记、命名实体识别以及链接、句法分析、语义角色识别以及多义词消歧。2.信息抽取从给定文本中抽取重要的信息比方时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗讲来就是要解析谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。3.

2、文本挖掘或文本数据挖掘包括文本聚类、分类、信息抽取、摘要、情感分析和对挖掘的信息以及知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。4.机器翻译把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规那么的方法到二十年度前的基于统计的方法再到今天的基于神经网络编码-解码的方法逐渐形成了一套比拟严谨的方法体系。5.信息检索对大规模的文档进展索引。可简单对文档中的词汇赋之以不同的权重来建立索引可以利用123的技术来建立更加深层的索引。在查询的时候对输入的查询表达式比方一个检索词或一个句子进

3、展分析然后在索引里面查找匹配的候选文档再根据一个排序机制把候选文档排序最后输出排序得分最高的文档。6.问答系统对一个自然语言表达的问题由问答系统给出一个精准的答案。需要对自然语言查询语句进展某种程度的语义分析包括实体链接、关系识别形成逻辑表达式然后到知识库中查找可能的候选答案并通过一个排序机制找出最正确的答案。7.对话系统系统通过一系列的对话跟用户进展聊天、答复、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外为了表达上下文相关要具备多轮对话才能。同时为了表达个性化要开发用户画像和基于用户画像的个性化回复。随着深度学习在图像识别、语音识别领域的大放异彩人们对深度

4、学习在NLP的价值也寄予厚望。再加上AlphaGo的成功人工智能的研究以及应用变得炙手可热。自然语言处理作为人工智能领域的认知智能成为目前大众关注的焦点。很多研究生都在进入自然语言领域寄望将来在人工智能方向大展身手。但是大众常常遇到一些问题。俗话讲万事开始难。假如第一件事情成功了学生就能建立信心找到窍门今后越做越好。否那么可以能就灰心丧气甚至分开这个领域。这里针对给出我个人的建议祈望我的这些粗浅观点可以引起大众更深层次的讨论。建议1怎样在NLP领域快速学会第一个技能我的建议是找到一个开源工程比方机器翻译或深度学习的工程。理解开源工程的任务编译通过该工程发布的示范程序得到与工程示范程序一致的结果

5、。然后再深化理解开源工程示范程序的算法。自己编程实现一下这个示范程序的算法。再按照工程提供的标准测试集测试自己实现的程序。假如输出的结果与工程中出现的结果不一致就要仔细查验自己的程序反复修改直到结果与示范程序根本一致。假如还是不行就大胆给工程的写信请教。在此根底上再看看自己能否进一步完善算法或实现获得比示范程序更好的结果。建议2怎样选择第一个好题目工程型研究生选题很多都是教师给定的。需要采取比拟实用的方法扎扎实实地动手实现。可能不需要多少理论创新但是需要较强的实现才能以及综合创新才能。而学术型研究生需要获得一流的研究成果因此选题需要有一定的创新。我这里给出如下的几点建议。先找到自己喜欢的研究领

6、域。你找到一本最近的ACL会议论文集,从中找到一个你比拟喜欢的领域。在选题的时候多注意选择蓝海的领域。这是因为蓝海的领域相比照较新容易出成果。充分调研这个领域目前的开展状况。包括如下几个方面的调研方法方面是否有一套比拟明晰的数学体系以及机器学习体系数据方面有没有一个大众公认的标准训练集以及测试集研究团队是否有著名团队以及人士参加。假如以上几个方面的调研结论不是太明晰作为初学者可能不要轻易进入。在确认进入一个领域之后按照建议一所述需要找到本领域的开源工程或工具仔细研究一遍现有的主要流派以及方法先入门。反复浏览本领域最新发表的文章多浏览本领域牛人发表的文章。在深化解析已有工作的根底上讨论还有没有一

7、些地方可以推翻、改良、综合、迁移。注意做实验的时候不要贪多每次实验只需要验证一个想法。每次实验之后必需要进展分析存在的错误找出原因。对成功的实验进一步讨论怎样改良算法。注意实验数据必须是业界公认的数据。与已有的算法进展比拟体会可以得出比拟一般性的结论。假如有那么去写一篇文章否那么应该换一个新的选题。建议3怎样写出第一篇论文接上一个问题假如想法不错且被实验所证明就可开场写第一篇论文了。确定论文的题目。在定题目的时候一般不要“系统、“研究与理论要防止太长的题目因为不好表达要点。题目要详细有深度突出算法。写论文摘要。要突出本文针对什么重要问题提出了什么方法跟已有工作相比具有什么优势。实验结果说明到达

8、了什么水准解决了什么问题。写引言。首先讲出本项工作的背景这个问题的定义它具有什么重要性。然后介绍对这个问题现有的方法是什么有什么优点。但是注意但是现有的方法仍然有很多缺陷或挑战。比方注意比方有什么问题。本文针对这个问题受什么方法谁的工作之启发提出了什么新的方法并做了如下几个方面的研究。然后对每个方面分门别类加以表达最后讲明实验的结论。再讲本文有几条奉献一般写三条足矣。然后讲讲文章的章节组织和本文的重点。有的时候东西过多篇幅有限只能介绍最重要的局部不需要面面俱到。相关工作。对相关工作做一个梳理按照流派划分对主要的最多三个流派做一个简单介绍。介绍其原理然后讲明其局限性。然后可设立两个章节介绍自己的

9、工作。第一个章节是算法描绘。包括问题定义数学符号算法描绘。文章的主要公式根本都在这里。有时候要给出简明的推导经过。假如借鉴了别人的理论以及算法要给出明晰的引文信息。在此根底上由于一般是基于机器学习或深度学习的方法要介绍你的模型训练方法以及解码方法。第二章就是实验环节。一般要给出实验的目的要检验什么实验的方法数据从哪里来多大规模。最好数据是用公开评测数据便于别人重复你的工作。然后对每个实验给出所需的技术参数并报告实验结果。同时为了与已有工作比拟需要引用已有工作的结果必要的时候需要重现重要的工作并报告结果。用实验数据讲话讲明你比人家的方法要好。要对实验结果好好分析你的工作与别人的工作的不同及各自利

10、弊并讲明其原因。对于目前尚不太好的地方要分析问题之所在并将其列为将来的工作。结论。对本文的奉献再一次总结。既要从理论、方法上加以总结以及提炼也要讲明在实验上的奉献以及结论。所做的结论要让读者感到信服同时指出将来的研究方向。参考文献。给出所有重要相关工作的论文。记住漏掉了一篇重要的参考文献或牛人的工作根本上就没有被录取的祈望了。写完第一稿然后就是再改三遍。把文章交给同一个工程组的人士请他们从算法新颖度、创新性以及实验规模以及结论方面以挑剔的目光审核你的文章。自己针对薄弱环节进一步改良重点加强算法深度以及工作创新性。然后请不同工程组的人士审阅。假如他们看不明白讲明文章的可读性不够。你需要修改篇章构造、进展文字润色增加文章可读性。如投ACL等国际会议最好再请英文专业或母语人士提炼文字。赵志雄

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com