语料库的创建与应用.pptx

上传人:wuy****n92 文档编号:77659396 上传时间:2023-03-16 格式:PPTX 页数:42 大小:217.70KB
返回 下载 相关 举报
语料库的创建与应用.pptx_第1页
第1页 / 共42页
语料库的创建与应用.pptx_第2页
第2页 / 共42页
点击查看更多>>
资源描述

《语料库的创建与应用.pptx》由会员分享,可在线阅读,更多相关《语料库的创建与应用.pptx(42页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、语料库的创建与应用管新潮管新潮上海交通大学外国语学院上海交通大学外国语学院2016-11-231)语料库类型)语料库类型2)语料选取原则与操作标准)语料选取原则与操作标准3)语料库规模)语料库规模4)语料句对齐标准)语料句对齐标准5)语料库的制作)语料库的制作6)数据挖掘)数据挖掘7)翻译教学)翻译教学8)翻译研究)翻译研究9)语料的版权)语料的版权10)语料的质量)语料的质量11)语料库与翻译创造力)语料库与翻译创造力12)语料库的应用)语料库的应用1)语料库类型平行语料库:源语文本平行语料库:源语文本+目的语文本目的语文本双语平行语料库:英语双语平行语料库:英语+汉语或德语汉语或德语+汉语

2、汉语多语平行语料库:两种以上语言多语平行语料库:两种以上语言双向平行语料库:英汉双向平行语料库:英汉+汉英汉英单向平行语料库:英汉或汉英单向平行语料库:英汉或汉英1)语料库类型可比语料库:语料具有可比性可比语料库:语料具有可比性单语可比语料库:单语可比语料库:翻译文本翻译文本+原创文本原创文本(政府工作报告英文版(政府工作报告英文版+美国美国国情咨文)国情咨文)双语可比语料库:双语可比语料库:无翻译关系的双语文本无翻译关系的双语文本(德国有限责任公司法和(德国有限责任公司法和中华人民共和国公司法中华人民共和国公司法术语)术语)语料可比性语料可比性1)语料库类型翻译语料库:翻译文本翻译语料库:翻

3、译文本口语语料库口语语料库:标注?(蒙特雷):标注?(蒙特雷)2)语料选取原则与操作标准代表性或影响力原则代表性或影响力原则可及性原则可及性原则时间原则(胡开宝,时间原则(胡开宝,2011:45-46)质量原则质量原则专业分类原则专业分类原则2)语料选取原则与操作标准原文与译文呈一一对应关系;原文与译文呈一一对应关系;原文应具备一定的文笔表现力;原文应具备一定的文笔表现力;译文应符合所在国的阅读习惯和表述要求,译文应符合所在国的阅读习惯和表述要求,同样具备一定的文笔表现力,而且该译文是经同样具备一定的文笔表现力,而且该译文是经过认可的;过认可的;按专题模块汇集语料,使语料文本具有同质按专题模块

4、汇集语料,使语料文本具有同质性;性;选用具有代表性的语料文本;选用具有代表性的语料文本;所选用的每一篇语料文本都是一个完整的单所选用的每一篇语料文本都是一个完整的单元。元。2)语料选取原则与操作标准例如:英汉医学平行语料库例如:英汉医学平行语料库以图书、论文、报告为主,以图书、论文、报告为主,专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临专业方向涉及微生物学、生物化学、解剖学、病理学、药理学、临床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽床诊断学、内科学、外科学、妇产科学、儿科学、眼科学、耳鼻咽喉科学、口腔医学、皮肤病学、神经病学、精神病学、感染病学等。喉科学、口腔医

5、学、皮肤病学、神经病学、精神病学、感染病学等。3)语料库规模BNC(BritischNationalCorpus):超):超1亿词亿词COCA(CorpusofContemporaryAmericanEnglish):亿词):亿词DWDS(DasDigitaleWrterbuchderdeutschenSprache):):25亿词亿词3)语料库规模北外汉英对应语料库:北外汉英对应语料库:3000万字词万字词中国法律法规汉英平行语料库:中国法律法规汉英平行语料库:2200万字词万字词莎士比亚戏剧英汉平行语料库:莎士比亚戏剧英汉平行语料库:600万字词万字词英汉医学平行语料库:英汉医学平行语料库

6、:1000万字词万字词英汉科普平行语料库(郭鸿杰):英汉科普平行语料库(郭鸿杰):1000万字词万字词中国英汉平行语料库(王克非):中国英汉平行语料库(王克非):1亿字词亿字词3)语料库规模应用于翻译实践的语料库规模究竟要多大?应用于翻译实践的语料库规模究竟要多大?4)语料句对齐标准学术研究学术研究翻译实践翻译实践句子单位句子单位4)语料句对齐标准英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一英文原文与中文译文的句子对齐以一一对应为主,但也允许语句一对多或多对一等情况的存在。对多或多对一等情况的存在。一般以句号、分号、问号等为分句标记,但总有例外情形存在。这一般以句号、分号、问号等

7、为分句标记,但总有例外情形存在。这里最为重要的是,里最为重要的是,必须考虑到英文在句法逻辑上是一个完整的单元必须考虑到英文在句法逻辑上是一个完整的单元,中文语句与之相应匹配,中文语句与之相应匹配。5)语料库的制作WORDPDF纸质版纸质版其他格式其他格式5)语料库的制作语料的降噪处理:语料的降噪处理:公式、表格、图片公式、表格、图片“纯纯”文本文本5)语料库的制作对齐工具:对齐工具:WinAlignParaConcAbbyyAligner等等等等自行开发自行开发TMX-ParaConV5)语料库的制作保存格式:保存格式:例如例如TMX,TXT目的在于多用途目的在于多用途5)语料库的制作TM库的

8、制作:库的制作:1)Word格式(格式(WinAlign,AbbyyAligner)2)Xliff格式(新建记忆库、更新记忆库等)格式(新建记忆库、更新记忆库等)3)Excel格式(格式(2007版或之前版本,版或之前版本,2009版或之后版本)版或之后版本)TMXEditor5)语料库的制作5)语料库的制作制作语料库的有效方式:制作语料库的有效方式:ABBYYAligner+自编软件自编软件+ParaConc等等6)数据挖掘使用英文或汉语(须经切分)单语导入使用英文或汉语(须经切分)单语导入WordSmith或或AntConc进进行词频排序行词频排序进入双语界面进行检索查询:进入双语界面进行

9、检索查询:ParaConc或或Trados记忆库界面记忆库界面6)数据挖掘6)数据挖掘专业通用词(专业通用词(GeneralWordsforSpecificPurposes)法律(法律(action,award,damage)医学(医学(normal,management)海洋工程(海洋工程(high,sea)6)数据挖掘Article14Anti-DumpingActiononBehalfofaThirdCountry第第14条条代表第三国的反倾销代表第三国的反倾销诉讼诉讼(action=lawsuit)Hewasawarded$500damagesforinjuryhesufferedin

10、theaccident.(award非非“奖励奖励”,是,是“法定裁定法定裁定”)()(damage非非“损坏损坏”,是,是“赔偿金赔偿金”)6)数据挖掘Liverfunctiontestsgavenormal无异常无异常发现。发现。normalsaline生理盐水生理盐水6)数据挖掘Diseasemanagementisanapproachtocoordinateresourcesacrossthehealthcare.疾病管理疾病管理是一种协调医疗卫生系统资源的手段。是一种协调医疗卫生系统资源的手段。Themortalityrateofpatientswithnochangeintheir

11、antibioticmanagement抗生素抗生素治疗治疗未改变的患者死亡率未改变的患者死亡率6)数据挖掘ThelegalstatusofthewatersbeyondtheterritorialseasofStatesborderingstraitsasexclusiveeconomiczonesorhighseas海峡沿岸国领海以外的水域作为专属经济区或海峡沿岸国领海以外的水域作为专属经济区或公海公海的法律地位的法律地位inhighseastatescanleadtolow-cyclefatigueinthepipe在在狂浪海况狂浪海况下可导致管道产生低周期的疲劳应力下可导致管道产生低周

12、期的疲劳应力7)翻译教学一、自主学习:一、自主学习:工具:工具:WordSmith,ParaConc,Trados记忆库记忆库语料库:英汉双向法律平行语料库语料库:英汉双向法律平行语料库7)翻译教学二、翻译质量控制二、翻译质量控制术语确认和检索术语确认和检索搭配检索搭配检索7)翻译教学三、译文文笔三、译文文笔翻译能力翻译能力法律法律=医学医学=海洋工程海洋工程适应面适应面语料库库容语料库库容8)翻译研究语料库翻译学定义(胡开宝,语料库翻译学定义(胡开宝,2011):):以语料库为基础,以语料库为基础,以真实的双语语料和翻译语料为研究对象,以真实的双语语料和翻译语料为研究对象,以数据统计和理论分

13、析为研究方法,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,依据语言学、文学和文化理论及翻译学理论,系统分析翻译本质、翻译过程和翻译现象等内系统分析翻译本质、翻译过程和翻译现象等内容的研究容的研究8)翻译研究翻译共性:普遍性特征翻译共性:普遍性特征译者风格:译者在语言应用上所表现出的特体特征译者风格:译者在语言应用上所表现出的特体特征翻译规范:译者在选择翻译策略时应遵循的规范翻译规范:译者在选择翻译策略时应遵循的规范8)翻译研究例如,显化与隐化例如,显化与隐化显化是翻译文本将源。语文本中隐含的信息或表述不清晰的信息以显化是翻译文本将源。语文本中隐含的信息或表述不清晰的

14、信息以明确的表述表达出来,以方便读者理解。明确的表述表达出来,以方便读者理解。隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐化是指源语文本中以词汇手段明示的意义或信息在目的语文本中隐含于具体语境中。隐含于具体语境中。形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递形式化程度高的语言翻译成形式化程度较低的语言时,隐化趋势递增增。8)翻译研究翻译实践研究翻译实践研究9)语料的版权用于研究的语料用于研究的语料例如,香港城市大学例如,香港城市大学用于公开发布的语料用于公开发布的语料公司语料公司语料10)语料的质量出版级别语料出版级别语料机器翻译语料机器翻译语料网络爬虫语料网络爬

15、虫语料10)语料的质量好翻译的定义:好翻译的定义:译文完全转化了原文的含义、表述简洁、易于理解,译文完全转化了原文的含义、表述简洁、易于理解,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,符合译文所属特定领域的要求以及语言文化方面的习惯表述要求,同时资深译员在译文校订以及专业审读在译文审读时都认为译文已同时资深译员在译文校订以及专业审读在译文审读时都认为译文已无需任何修改。无需任何修改。11)语料库与翻译创造力KirstenMalmkjr语料库与译者培养语料库与译者培养外研社外研社200711)语料库与翻译创造力语料库的使用关键在译者语料库的使用关键在译者语料库质量水平语料库质量水平翻译项目委托的各种苛刻要求翻译项目委托的各种苛刻要求根据不同的文体来对待翻译实践根据不同的文体来对待翻译实践译创(译创(transcreation)12)语料库的应用Collins出版社出版社语料库证据在美国的法庭应用语料库证据在美国的法庭应用JDEST学术英语语料库学术英语语料库航天局航天局学生自学习学生自学习“海洋工程图书系列海洋工程图书系列”翻译翻译等等等等翻译能力+语料库=乐趣和享受谢谢大家!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com