大规模句子相似度计算方法(共6页).doc-得力文库

资源描述

《大规模句子相似度计算方法(共6页).doc》由会员分享，可在线阅读，更多相关《大规模句子相似度计算方法(共6页).doc（6页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、精选优质文档-倾情为你奉上大规模句子相似度计算方法* 基金项目：国家自然科学基金资助项目（，）；国家863计划基金资助项目（2002AA-02）。作者简介：黄河燕（1963-），女，研究员，博士生导师，主要研究方向为自然语言处理与机器翻译、大型智能应用系统；陈肇雄（1961-），男，研究员，博士生导师，主要研究方向为自然语言处理、大型智能应用系统；张孝飞（1970-），男，副研究员，博士，主要研究方向为自然语言处理、机器翻译、信息检索。张克亮（1964-），男，副教授，博士后，主要研究方向为计算语言学、机器翻译。黄河燕1 陈肇雄1 张孝飞1 张克亮1，2（1中国科学院计算机语言信息工程研究中心

2、北京 2 南京理工大学南京）Email: 摘要：如何根据源语言文本从大规模语料库中找出其最相近的翻译实例，即句子相似度计算，是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法：首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明，当语料规模为20万英汉句对时，系统提取相似句子的召回率达96%，准确率达90%，充分说明了本文算法的有效性。关键词：句子相似度；基于实例的机器翻译；多策略机器翻译；泛化匹配中图法分类号：TP391 Approach of Lar

3、ge-Scale Sentence Similarity ComputationHUANG He-yan CHEN Zhao-xiong ZHANG Xiao-fei(Research Center of Computer & Language Information Engineering, CAS Beijing )Email: Abstract: The retrieval of the similar translation examples corresponding to the SL sentence from the large-scale corpora, or the co

4、mputation of sentence similarity, is one of the key problems of EBMT. A new multi-layer sentence similarity computation approach is proposed in this paper. First, a few candidate translation examples are selected form a large-scale corpus on the basis of the surface features and entropies of the giv

5、en words. Second, the degree of generalization match between the input sentence and each of those candidate translation examples is computed respectively. Finally, the sentence similarity is computed according to the outcomes of the previous two steps. Experimental results from tests on IHSMTS show

6、that this approach has a recall rate of 96% and a precision rate of 90% when applied to a corpus of 200,000 English-Chinese sentence pairs.Key words: sentence similarity; example-based machine translation; hybrid-strategy machine translation; generalization matching1 引言基于实例的机器翻译EBMT（Example-based ma

7、chine translation）的基本思路是：预先构造由双语对照的翻译单元对组成的语料库，然后翻译过程选择一个搜索和匹配算法，在语料库中寻找最优匹配单元对，最后根据例句的译文构造出当前所翻译单元的译文1。如何根据源语言文本找出其最相近的翻译实例，是基于实例翻译方法的关键问题之一。尤其是实用的EBMT系统所需要的翻译实例库都非常大，一般在百万级乃至千万级双语句对以上2。因此，如何从这么大的一个语料库库中高效地计算出相似的翻译实例，提供给后面的双语词对齐、类比翻译处理等模块，是影响EBMT系统翻译能否成功的关键因素之一。因为得不到有效的相似实例，其结果只有一个：导致EBMT翻译失败（或生成的译

8、文质量很差）。目前计算句子相似度的方法主要有：基于N元模型的方法3, 4和基于编辑距离的方法5等，并且在这些方面的研究也取得了许多进展。但是，这些方法主要是针对机器翻译系统的评测，一是评测时要求处理的语料都比较小，而进行EBMT翻译时需要处理大规模语料，这些方法难以胜任。二是这些方法几乎没有使用任何语法、语义知识，不能有效地融合翻译系统其他模块相关的处理结果和处理方法，最终效果难以提升。本文针对这些问题，提出一种多层次句子相似度计算的新方法：首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。论文其余部分安排如下：第二部分将

9、详细讨论本文提出的多层次句子相似度计算方法；第三部分给出本文算法在多策略机器翻译系统6IHSMTS上的实验结果及数据分析；第四部分是对本文算法的一个简短总结和下一步研究的设想。2 多层次句子相似度计算2.1 基于词表层特征和信息熵的候选实例检索候选实例检索要解决的问题是，如何高效快速地从大规模语料库中选出少量句子以进行精确地句子相似度计算。因此，候选实例的检索需要考虑以下一些方面：1、候选实例检索算法的设计，首先也是最重要的应该是能把最相似的、最有利于类比翻译的实例检索出来。因为如果检索不到相似实例或检索出来的实例相似性过低，都会导致类比翻译的失败。 2、检索出来的候选实例数量要适当。候选实例

10、太少很容易遗漏最相似的翻译实例，导致翻译失败或译文质量不高；候选实例太多，则会占用过多的计算资源，导致系统性能严重下降。根据我们的经验，理想的候选实例应该在5个左右。3、到目前为止，研究人员还没有找到一种简单通用的方法来计算句子之间的相似度。因此，候选实例的检索策略还需要与具体系统的后续处理方法和处理过程通盘考虑，以取得整个系统的最优化。在处理过程中，我们把句子表示成单词的集合。定义1：句子的词集合表示为(S)=W1, W2, Wn (1)其中S表示句子，Wi为句子中的单词。对于英语，词Wi需要事先进行形态还原；对于中文，句子S需要事先进行词切分处理。定义2：句子S1和句子S2的表层相似度

11、：(S1, S2)= 2*(S1) (S2) /（Len(S1)+Len(S2)）. (2)其中表示集合的求交运算。运算符表示求集合中的元素个数，Len表示句子的长度，即句子中含有的单词数。两个句子的表层相似度越大，则输入的待翻译句子与翻译实例相同的单词就越多，后续类比译文构造过程对翻译实例所要做的修改量也就越少。这说明表层相似度的计算方法从总体上是符合EBMT系统的要求，即有利于最终生成高质量的译文。定义3：词信息熵 . (3)其中表示词，表示语料库中的句子总数，表示出现了词的句子数。词的信息熵值越大，说明该词在语料库中的出现频度越低，对区分句子的作用也就越大。定义4：句子S1和句子S2

12、的信息熵相似度： . (4) 其中，运算符和的含义参见前面定义1和定义2。两个句子的信息熵相似度越大，则从概率上来讲，输入的待翻译句子与翻译实例在语义上更相似。同时通过信息熵的计算方法，对一些特别常用的词比如the、a、and、of等起到了抑制作用。进行候选实例检索时，首先根据（2）式的表层相似度计算方法，从大规模语料库中选出一定数量的句子，比如m个句子，然后根据（4）式的信息熵相似度计算方法，再从这m个句子中选出n个句子。实验中我们设定m=20，n=5。要说明的是，我们没有在整个语料库中直接利用（4）式信息熵的大小来筛选候选实例，这是因为如果在整个语料库中直接利用信息熵的大小来筛选候选模式，

13、则会给一些非常用词以过大的比重，比如在我们的统计中仅出现一次的词（比如单词borax）其信息熵是最常用词the的16.8倍，结果会导致选出来的翻译实例在句子结构上与输入的待翻译句子相差很大，不利于后续的类比译文构造。2.2 基于泛化的匹配度计算基于泛化的匹配度计算，指的是在泛化的基础上计算候选实例与输入的待翻译句子间的模糊匹配度。2.2.1 泛化我们看下面这个例子：翻译实例：Ill look in my diary to see if Im free next Wednesday.输入句子：Ill look in my diary to see if Im free next Friday.输

14、入句子中是“Friday”，而翻译实例中是“Wednesday”，如果基于实例模式精确匹配，则输入句子没法翻译。但如果把翻译实例经词法分析泛化成下例模式：I will look in my diary to see if I am free next X.其中X表示短语变量，X表示一个类别属性为TIM的短语变量，它可以跟任何一个类别属性为TIM的短语匹配。为了方便说明泛化的意义，这里属性只使用了词类这一个参量。在实际系统中除了词类属性外，还应该使用词形、词汇等价类、词的同义、反义、上下位、蕴含以及语境语用（上下文）等信息。对输入句子“Ill look in my diary to see if

15、 Im free next Friday.”做同样的词法分析处理，结果如下：I will look in my diary to see if I am free next Friday.比较泛化实例和输入句子的词法分析结果，Friday与X能匹配上，从而可以根据该翻译实例类比推理构造出输入句子的译文，即在本例中，将Wednesday换成Friday即可。由此可见，首先根据待翻译的输入句子对翻译实例的相关语法单位进行泛化，即形成具有一定复杂特征的变量；再根据泛化实例类比推理构造出输入句子的译文。在这里，类比推理实际上就是一个变量属性约束匹配的过程；而译文构造主要就是通过对泛化实例进行替换、复制

16、、删除和插入等操作来完成。2.2.2泛化匹配度进行泛化匹配时，我们综合考虑了词形、词类、词汇等价类、词的同义、反义、上下位、蕴含以及语境语用（上下文）等信息。定义5：词汇泛化匹配度LGD(Lexical Generalization Matching Degree)：表示输入句子中的某个词汇与翻译实例中的某个词汇可以相互替换的可能性。它实际上跟词汇相似度、词汇在句子中的词性以及词汇的上下文信息有关。LGMD由下式计算： (5)上式中是三个系数，表示各种情况的可信度权值。实验中我们设。表示词汇相似度，表示词性相似度，表示语境相似度。其中的计算式如下： (6)上式中表示词汇的语义距离，是权值系数，

17、实验中我们设。语义距离的计算我们采用了基于HowNet的方法。HowNet提供的义原分类树把各个义原以及它们之间的关系以树的形式组织在一起，树中父节点和子节点的义原具有上下位关系。因此，可以利用义原分类树来计算两个词汇之间的语义距离。计算时，我们把语义距离定义为两个词对应的义原在义原分类树中与最近邻共同祖先节点间距离的平均值。的计算式如下： (7)上式中表示词汇在句子中的词类标注属性。的计算式如下： (8)上式中也是一个权值系数，实验中我们取值。表示词汇的上下文偏移距离，它的值主要是在同语词对齐的基础上通过观察当前词左右N/2个词（即宽度为N的词汇窗口）来决定。定义6：句子泛化匹配度SGMD(

18、Sentence Generalization Matching Degree)：表示该翻译实例作为范例对输入句子进行类比翻译的可信度。SGMD由下式计算： (9)上式分母中分别表示输入句子和翻译实例的句子长度。2.3 句子相似度计算最后的句子相似度由下式计算：(S1, S2)= (S1, S2) . (10)其中是三个权值系数，分别表示泛化匹配度、表层相似度和信息熵相似度的权值，并且。实际设置时，由于泛化匹配度能比较全面的从词汇、语法、语义和上下文等多方面考察句子的相似性，所以设置的相对大一些，又因为信息熵相似度是在表层相似度基础之上计算出来的，所以设置的相对小一些。3实验设计与结果分析EB

19、MT系统的句子相似度计算，目的就是为了能从大规模语料库中选择出最相似的翻译实例，供后续模块进行类比译文构造。为了比较全面地评估本文算法，我们使用了准确率、召回率和F值等三个指标，它们的计算式分别定义如下：开始测试前，我们首先向系统中导入20万英汉句对，中文和英文大约各有200多万词，其中英文平均句长为12.5个词左右，中文平均句长为11个词左右。然后从这20万英汉句对随机挑选出100个中文句子，再对这100个中文句子分别进行人工修改，最终形成400个不同的句子，作为测试集。测试时，我们逐句地把测试集中的句子输入系统，系统返回相似度大于0.75 的所有翻译实例，并且返回的每个翻译实例都附有机器自

20、动计算出来的相似度。然后对返回的每个翻译实例进行人工判别，人工判别的依据是：能否把相似句子提取出来，这一项主要反映在召回率上；机器自动计算出来的相似度与人工主观判断的拟合性，这一项主要反映在准确率上。试验结果如表1所示。从表1中的试验结果可以看出，准确率达90%说明机器自动计算出来的相似度与人工的主观判断是很接近的；召回率达96%说明算法能够从大规模语料库中比较有效地检索出相似实例。表1 相似度计算测试结果语料库规模（句）测试集规模（句）准确率（%）召回率（%）F200,000400909693另外，我们重点分析了影响准确率和召回率的因素：最主要因素之一就是分词标准的不一致，比如在我们的分词系

21、统中把“看电影”切分成一个词，而把“看电视”切分成“看电视”两个词。而且这种现象比较多、比较严重，如果能解决这类问题，试验效果应该要更好的多。另外一个主要因素就是词类标注不准确。词类标注错误也会影响相似度计算的准确性，不过由于词类信息在相似度计算中不是特别重要，所以相当分词来说影响较小。4结束语和进一步的研究首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例，然后针对这些候选实例进行泛化匹配，从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明，语料规模为20万英汉句对的情况下，系统提取相似句子的召回率达96%，准确率达90%，充分说明了本文所提出的这种多层次句子

22、相似度计算方法的有效性。此外，在EBMT系统中，句子相似度计算的最终目的就是为了能够使后续模块有效的进行类比译文构造，产生高质量的译文。但在本文的算法中，计算句子相似度时没有考虑翻译实例的译文部分。下一步的研究中，我们准备在计算句子相似度时，把翻译实例的对译信息（如双语词对齐结果）考虑进来，以便更全面的考察待翻译句子与翻译实例的相似性。参考文献1 H. Maruyama and H. Watanabe. Tree Cover Search Algorithm for Example-Based TranslationA. In Proceeding of the Fourth Interna

23、tional Conference on Theoretical and Methodological Issues in Machine TranslationC（TMI-92）. Montreal, 1992, 173-184, 2 Ralf D. Brown, Example-Based Machine Translation in the Pangloss SystemA. In Proceedings of the 16th International Conference on Computational LinguisticsC (COLING-96).Copenhagen, D

24、enmark, August 5-9, 1996, 169-1743 Keiji Yasuda, Fumiali Suagya,etc, An Automatic Evaluation Method of Translation Quality Using Translation Answer Candidates Queried from a Paralledl CorpusA. In Proceeding of MT Summits conferenceC. Santiago de Compostela, 20014 Jianmin Yao, Ming Zhou etc, An Autom

25、atic Evaluation Method for Localization Oriented Lexicalised EBMT SystemA. In Proceeding of the 19th International Confernce on Computational LinguisticsC (COLING2002). Taipei, 20025 Yasuhiro Akiba, Kenji Imamura, and Eiichiro Sumita, Using Multiple Edit Distances to Automatically Rank Machine Translation OutputA. In Proceeding of MT Summits conferenceC. Santiago de Compostela, 20016 黄河燕、陈肇雄，基于多策略的交互式智能辅助翻译平台总体设计A.见：黄河燕主编，机器翻译研究进展（2002年全国机器翻译研讨会论文集）C.北京：电子工业出版社，2002年11月，137-146专心-专注-专业

展开阅读全文