农业相关-得力文库

资源描述

《关于谷歌翻译的论文范文5篇(3),英语论文.docx》由会员分享，可在线阅读，更多相关《关于谷歌翻译的论文范文5篇(3),英语论文.docx（11页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、关于谷歌翻译的论文范文5篇(3),英语论文内容提要：在大数据时代，怎样通过数据分析挖掘事物的内在规律是人们需要考虑的问题。谷歌翻译基于最好的表示出为出现频率最高的表示出这样的认识，将翻译问题转化为统计问题。本文以谷歌翻译为案例，具体分析了案例背景、实现经过，并给出案例反思。谷歌翻译的成功之处在于，将实际问题巧妙地转化为统计问题，并利用其强大的计算能力解决问题。其瓶颈在于，当下的方式方法只利用了大数据的少量信息，不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范，对利用大数据解决实际问题有重要的借鉴意义。本文关键词语：谷歌翻译；统计机器翻译；最大熵；最

2、小误差率损失。一、背景谷歌翻译是谷歌公司推出的针对文本、语音、图像以及实时视频的多语种翻译服务。该项目始于2001 年，上线初期采用其他同类型公司例如雅虎类似的机器翻译系统，但是翻译精度并不理想1.譬如在 2004 年，上述机器翻译系统机械地将总统候选人克里 Kerry 翻译成爱尔兰的小母牛 2.2004 年下半年起，随着 Franz Josef Och 成为其首席科学家，谷歌翻译进入迅速发展阶段。在 2005 年的NIST 机器翻译系统比赛中，谷歌翻译一举拿到第一名。在 2006 年的比赛中，谷歌翻译几乎包揽全部比赛项目的第一名3.根据维基百科颁布的数据，截至 2021 年 1 月，

3、谷歌翻译支持 90 种语言，天天为超过两亿人提供免费的多种语言翻译服务。 Och 以为，句法知识对统计机器翻译毫无受益之处，甚至有反作用 3.因而由他领衔的谷歌翻译放弃了基于句法规则的机器翻译模型。在实践中，Och 的基本想法是从数据中学习 2.因而谷歌翻译的工作本质上是基于多种语言的平行语料库，结合统计和数学方式方法，构建大数据分析模型挖掘各种语言间的内在规律。根据 Och 的观点，谷歌翻译构造非常非常大的语言模型，比人类历史上任何人曾经构造的都要大 2.因而，谷歌翻译本质是一种大数据分析模型，翻译结果则是基于训练好的模型，进行样本外预测泛化的结果。 2006 年，谷歌采用联合国 6

4、国官方语言文档作为平行语料库。随着互联网技术的不断进步，谷歌把握的互联网数据越来越庞大，具有明显的大数据的 4V 特征4 : 这些平行语料库数据不仅数量庞大，而且种类很多，包括文本、声音、图像等大量非构造化数据，蕴含着大量的信息。另一方面，对于某些小语种，其语料库密度相对较低，具有明显的稀疏性。尽管近年来谷歌翻译发展很快，但是也面临众多问题和挑战。Och5指出了统计机器翻译当然包括谷歌翻译的缺乏：一是不同语言组的翻译效果不一样。例如，中译英不如阿拉伯语译英。二是翻译的结果不稳健，有些文档翻译结果很好，有些很差。三是不同题材的文档翻译效果不一样，例如体育新闻比政治新闻更难翻译。而最近维基

5、百科提供的资料表示清楚，对于不同语言组的翻译效果不一样的问题，当前谷歌翻译还没有很好解决。另外还表示清楚，谷歌翻译不能翻译过长的文档；不能辨别语法构造，例如不能处理时态和虚拟语气。因而，就当前的情况而言，谷歌翻译至少面临上述缺乏，需要面对的挑战还很多。本文将以谷歌利用大数据分析实现机器翻译为案例，分析大数据分析在本案例中怎样应用，阐述实现经过中的基本思想。并且从本案例成功方面和缺乏方面进行考虑，阐述谷歌翻译对利用大数据分析解决实际问题的启示。二、实现经过谷歌翻译采用的基本工具是统计机器翻译模型 Statistical Machine Translation,SMT .该模型将语句视为由

6、基本语言单位构成的序列。不妨设源语言的语句为 f = f1,f2, ，fJ ,目的语言的语句为 e = e1,e2, ，eI .华而不实，fj和 ei是基本的语言单元，例如词汇、短语等。在已经知道源语言的情况下，对应的最有可能出现的目的语言语句就是翻译的结果，即翻译结果为 e= argmaxP e | f .围绕怎样估计翻译模型中的条件概率，产生了很多机器翻译模型。20 世纪 90 年代初，IBM 研究人员提出噪音信道模型6,并给出了相应的数学基础和算法7,这些研究成果为统计机器翻译模型的研究奠定了基础。但是，接下来的研究进展缓慢，直到 2001 年谷歌开场机器翻译项目时，效果还很不理想。Oc

7、h 采用了与噪音信道模型完全不同的参数化方式方法，提出了对数线性模型的参数化方式方法。Och 的研究为谷歌翻译奠定了坚实的理论基础。下面阐述这些模型的基本思想。一翻译模型 Och 等8在 2002 年提出了基于对数线性模型的参数化方式方法：华而不实，hm e,f 为特征函数 feature function , m是权重。特征函数事先选定，不同的特征函数将得到不同的翻译模型。事实上，当取 M = 2, 1= 2= 1,h1 e,f = logP f| e ,h2 e,f = logP e 时，式 1 就退化为噪声信道模型。因而，式 1 是一种非常一般的模型。但是一般情况下，权重是未知参数

8、，需要进行估计。式 1 是这类模型的最基本形式。为了进一步考察不同语言间，基本语言单位之间的对应关系，能够在式 1 的基础上引入一个隐随机变量 a,这个随机变量是对不同语言间基本语言单位对应关系的刻画。于是式 1 改良为：式 2 能够解决语言单位之间的一对一和一对多的对应关系。但是对于多对一和多对多的情形，需要进一步改良。Och 等9在 1999 年的文章中初次提出对应板块 Alignment Template 的概念。其处理方式方法的本质是将平行预测料想分块，在不同分块中，再考虑不同的对应问题。这种处理方式方法在一定程度上考虑了上下文信息，和不同语言间语法构造的不同，因而在统计翻译模型中

9、有重要地位。对应分块模型的表示出式如下：华而不实，z K表示对应板块，a K表示对应板块中的对应关系。式 3 中有 3 个连乘的条件概率，能够分别利用对数线性模型进行参数化，并且能够选择不同的特征函数。进而增加建模的灵敏性10. 二参数估计和翻译结果翻译模型中的参数是特征函数的权重： = 1, ， M .在经典统计理论中，对数线性模型能够采用极大似然方式方法估计参数。但是，当数据是大量的平行语料库时，对总体是不能做合理的分布假定的，直接采用极大似然估计不适宜。Och10根据信息论中的最大互信息 Maximum MutualInformation原理构造了基于最大熵的损失函数，通过最大化损

10、失函数，得到参数估计，即：华而不实，源语言有 RS种目的语言的参考译文：es,1, ，es,RS.基于损失函数式 4 和式 5 的翻译模型称为最大熵模型 Maximum Entropy Models . Och11进一步指出，最大熵模型的优化本质上是翻译好坏的间接评价，为此他提出基于最小误差率损失 Minimum Error Rate 的参数估计方式方法。这种损失函数是基于对翻译结果的直接评价得到的，其详细表示出式为：华而不实，E 是误差函数，用于刻画参考译文 es与模型给出的翻译 e fs; 之间的差异。实践证明，基于损失函数式 6 的翻译模型优于最大熵模型12.2020 年，Och 等

11、人将该方式方法申请了专利。在得到权重估计值之后，最终的机器翻译问题便归结为模型的样本外预测问题，即：华而不实，e表示从源语言 f 出发得到目的语言的翻译结果。三、案例反思谷歌翻译的成功，是利用大数据分析解决实际问题的典范。但是，当下谷歌翻译还有很多瑕疵，不可能到达人工翻译的精到准确度。围绕此案例，我们从四个方面进行反思总结。第一，谷歌翻译是大数据时代的产物，其效果的好坏遭到平行语料库数据量的制约。从翻译模型的定义能够看出，谷歌翻译的基本思想是由训练样本探寻求索语言规律的经过。华而不实不同语言之间的对应规则是模型参数。谷歌翻译试图用平行语料库反映出来的规律来揣测参数。由于语言规则复杂，

12、势必要求样本信息足够大才能有好的效果。尽管谷歌把握的平行语料库总量很大，但是也面临三个不同：不同的语言组之间的平行语料库数量不同；不同题材的平行语料库不同；不同语言组的翻译需要的样本量不同。上述差异是造成谷歌翻译处理不同语言组效果不一、处理不同题材文档效果不一的重要原因。这个事实也启示我们，大数据时代，数据的大小是相对的，对某些复杂问题必然需要大数据。例如对于进一步提高中译英精度的问题，当下的数据量似乎还不够大，谷歌需要找到更多的平行语料库才能逐步解决这些问题。第二，谷歌翻译模型在辨别上下文信息方面存在缺乏。事实上，谷歌翻译模型只通过引入隐变量刻画了基本语言单位的对应关系。但是，对于语

13、言，上下文不仅仅仅是邻近的几个词汇和短语的信息就足够了。很多时候上下句之间就构成了上下文。甚至段落与段落之间，都需要考虑的上下文。从辨别文本信息角度而言，谷歌翻译的算法只辨别了文本的少部分信息。这就造成机器翻译不能辨别语法信息，例如时态，虚拟语气等。当然更不可能与人工翻译的质量相提并论。语法的重要性对于翻译而言是显而易见的。为了让计算机能够辨别语法信息，仅仅让计算机辨别少量上下文信息是不够的。需要愈加先进的方式方法，经历体验贝叶斯方式方法13可能是一条途径。事实上，贝叶斯方式方法已经在人工智能方面有了成功的应用，例如 Lake B M 等14,实现了机器人像人类一般学习书写。第三，大规模计算

14、问题是统计翻译模型面临的重要问题。谷歌翻译不能翻译过长的文档，很重要的原因是计算能力的限制。但是，模型的复杂度和模型的效果需要进行权衡。追求精到准确是建模的重要目的。但是谷歌翻译的案例显示，考虑到模型的复杂度，有时候需要牺牲一部分精到准确度，并且对翻译的文档长度进行限制。吴军2以噪音信道模型为例阐述了这个问题，假定取长度为 n 个词作为一个基本语言单位，则模型的空间复杂度为 OVn ,时间复杂度为 OVn -1 .华而不实，V为语言词典的词汇量。随着 n 的增大，计算量呈指数级增长。但是n = 3 和 n = 4 之间的精到准确度变化不如 n = 2 和 n = 3.事实上也是如此，当前谷歌翻

15、译模型选择 n = 42.因而，囿于计算能力，模型复杂度不可能过高，翻译文档也不能过长。第四，谷歌翻译模型没有对模型参数做任何分布假定。这和经典的统计建模区别明显。检验模型好坏的标准不牵涉经典统计学中的显着、p 值等概念。翻译结果的好坏是检验模型好坏的唯一标准。从统计学习角度而言，模型外推能力是检验模型好坏的唯一标准。这是和经典统计研究方式的一个很重要的差异不同。事实上，对于大数据，其分布形式是什么是不得而知的，不能对其分布形式做冒昧的假定。吴军2指出引入人为的假定，这和蒙没什么差异不同 .这也许是我们在挖掘大数据信息时，非常值得注意的地方。将本属于语言学范畴的翻译问题，转化为基于大数据

16、分析、利用统计模型和算法进行参数估计和预测的问题，这是谷歌翻译的成功之处。其大数据分析的思想和方式方法特别深入，值得我们学习借鉴。谷歌翻译的瓶颈在于，当下的技术只利用了数据少量的信息没有充分挖掘文本的全部信息。另外，计算问题也制约着谷歌翻译。因而，发展新的技术，充分挖掘大数据信息，需要人们的进一步考虑。以下为参考文献 1Levy S. In the plex: How Google thinks,works,and shapes ourlivesM. Simon and Schuster,2018. 2吴军。数学之美。第 2 版M. 北京：人民邮电出版社，2020. 3黄瑾，刘洋，刘

17、群。机器翻译评测介绍C第一届全国少数民族青年自然语言处理学术研讨会，2008. 4李金昌。大数据与统计新思维J. 统计研究，2020,31 01 :10 - 17. 5Och F J. Statistical Machine Translation: Foundations and RecentAdvancesEB / OL. In: TENTH MT SUMMIT,2005. 6Nirenburg S,Somers H,Wilks Y. A statistical approach to machinetranslationJ. Computational Linguistics,199

18、0,16 2 : 79 - 85. 7Brown P F,Pietra V J D,Pietra S A D,et al. The Mathematics ofStatistical Machine Translation: Parameter estimation J .Computational Linguistics,1993,19 2 : 263 - 311. 8Och F J,Ney H. Discriminative trainig and maximum entropymodels for statistical machine translation C. Proc of An

19、nualMeeting of the Association for Computational Linguistics,2002: 295- 302. 9Och F J,Tillmann C,Ney H. Improved alignment models forstatistical machine translationC/ / Proc. of the Joint SIGDATConf. on Empirical Methods in Natural Language Processing andVery Large Corpora. 1999: 20 - 28. 10Och F J,

20、Ney H. The Alignment Template Approach to StatisticalMachine Translation. J. Computational Linguistics,2004,30 4 :417 -449. 11Och F J. Minimum error rate training in statistical machinetranslation C/ / Proceedings of the 41st Annual Meeting onAssociation for Computational Linguistics-Volume 1. Assoc

21、iation forComputational Linguistics,2003: 160 - 167. 12宗成庆。统计自然语言处理。第 2 版M. 北京：清华大学出版社，2020. 13Efron B. Large-Scale InferenceM. Cambridge University PressCambridge,2018. 14Lake B M, Salakhutdinov R, Tenenbaum J B. Human-levelconcept learning through probabilistic program induction J.Science,2021,350 6266 : 1332 - 1338.

展开阅读全文