欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 SCI发表 期刊投稿 出版社 公文范文 精品范文

翻译器(合集7篇)

时间:2022-05-03 02:55:55
翻译器

翻译器第1篇

机器翻译的原理――人工智能

与电子双语辞典和翻译记忆产品不同,机器翻译使用人工智能来实现对源语句的复杂分析,并构建尽可能完善的翻译。目前已形成商业化产品的主要类型有基于转换的机器翻译和数据驱动型机器翻译,其他的机器翻译类型还有简单的基于词典的机器翻译、中间语机器翻译和混合系统。

基于转换的机器翻译

基于转换的机器翻译又称基于规则的机器翻译,它是从五十年代开始发展起来的,目前大多数的企业和商业机器翻译属于此类型,实现方式如下:

分析源语言句段。系统首先查看辞典并对源语言句型进行句法分析,即将句子分解为几个部分,如主语、谓语或宾语等。它采取分解的方式而不是根据词汇直接转换,以保证句子的前后关系,并符合翻译目标语言的语法规则。

映射语法结构到目标语言语法并产生目标语言句子。根据转换规则重新排列词语,或调整句子结构使之符合翻译目标语言的语法规则,使其最终翻译结果符合目标用户的使用习惯。如果规则尚未建立,句子模式就无法获得正确分析。

数据驱动型机器翻译

数据驱动型机器翻译可通过两种不同的方式来实现,即统计机器翻译(Statistical Machine Translation,SMT)或基于翻译实例的机器翻译(Example-Based Machine Translation,EBMT)。这两种方法都是使用语料库作为翻译知识的来源,基于系统已有的翻译样例,分析源句子和目标句子对,计算每个源句子片段与目标句子片段的匹配度,查找出与源句子词汇和表达最匹配的目标句子片段。由于句子片段可以是从单个词语到整个句段的任何部分,系统相应地自动建立辞典和翻译。

基于统计的机器翻译方法源于把机器翻译看成是一个信息传输的过程,即把翻译看成是一种解码的过程。

基于翻译实例的机器翻译系统中知识以翻译实例和语义词典等形式存在,对于实例库中已有的文本,可以直接获得高质量的翻译结果;对与实例库中存在的实例相似的文本,通过类比推理,并对翻译结果进行少量的修改,构造近似的翻译结果。

基于翻译实例的机器翻译避免了一些传统的基于规则机器翻译必须进行的深层次语言学分析。只要记忆库中存在外形同输入相似的句子,就可以进行匹配,容易产生高质量的译文,尤其是利用了较大的翻译实例库,或者输入能和实例精确匹配时更是如此。

数据驱动型机器翻译系统的出现,使机器翻译不需要经过句型分析和转换规则处理,就能直接获得翻译结果。因此近年来一直是机器翻译的研究的热点之一。

混合系统

为综合各个机器翻译方式的优势和不足,以生成更好的翻译结果,人们开始将基于规则的语法分析和基于数据驱动转换规则的功能集成到一起,或者将基于样例的系统和标准的统计方法集成在一起进行研究,于是混合系统成为当前的另一个机器翻译研究热点。如德国的Verbmobil系统,就是涉及三种语言(德语、英语、日语)的双向语音机器翻译系统。该系统将基于统计的翻译方法(Statistical Translation)和基于样例的翻译方法(Case-Based Translation)结合到一起,语音处理领域和自然语言处理领域中的各种技术几乎都在这个系统中有所反映。Verbmobil在大规模翻译实验中,正确翻译率达到大约80%,在真实用户的端对端测试中,90%的对话任务获得成功。

机器翻译VS电子辞典

机器翻译系统可以为任何类型的句段自动建立翻译,而不受存储在翻译记忆数据库中的已有句段所限制。大多数的机器翻译系统能根据句子的上下文提供相应的词和句段的翻译,而不仅仅是逐字翻译。相比而言,其他的计算机翻译工具如电子双语词典,只能对单词或短语提供自动化翻译,它无法根据给定语境来选择翻译,也不能处理整个句段,而对于连续的文章,这种逐字翻译往往是无效的。

翻译记忆产品是许多翻译机构常用的翻译工具,它能够为词、句子甚至段落提供自动化翻译。但它要求源文件内容与已存储在翻译记忆数据库中的目标句段具有一定程度的匹配。如果源句段与目标句段相匹配,那么能获得相应的翻译结果,否则就无法获得相应的翻译。翻译记忆可以避免人们在同一文档或不同文档中的相同句子的重复翻译。但人们往往习惯于用不同的方式表达相同的事情,而翻译记忆对于那些在翻译记忆库中无法找到相匹配的句段文字,无法提供翻译。

机器翻译能灵活处理任何需要翻译的句段文字,但其翻译质量除了取决于机器翻译系统已有的语法规则以及系统辞典以外,还依懒于源语言的书写质量,如表达清晰、句子结构简单等。

机器翻译VS人工翻译

与传统的使用翻译人员进行人工翻译相比,机器翻译具有以下优势:

首先,机器翻译降低翻译成本。虽然当翻译量较小时,由于需要支付系统实施成本,机器翻译所带来的成本下降并不显著,甚至可能会比人工翻译要高。但如果人工翻译成本超出机器翻译系统的安装成本,机器翻译将能降低翻译成本,而且随着翻译工作量的不断增加,机器翻译的成本将远远低于其人工翻译成本。

其次,机器翻译能缩短交付时间。采用机器翻译系统作为计算机辅助翻译的工具,其翻译交付时间取决于后编辑所需花费的时间,而对于很多不需要进行后编辑的翻译工作产品,可立即交付。

第三,机器翻译能随时提供翻译。翻译人员的资源是有限的,一个翻译项目过来,往往需要花费一定的时间来调配和获得相应的人力资源。而机器翻译系统可以随时进行而无需等候。

第四,与人工翻译相比,采用机器翻译能更好地保持不同文件以及同一文件不同部分上下文的一致性。而人工翻译,除非经过专门培训并进行相应的管理机制,才可能保持上下文的一致性和准确性。另外,利用机器翻译可以省去调配翻译人员到位,分发工作给相关的人员,收集、比较和检查翻译作品,对术语进行一致性处理等的工作过程,简化了翻译工作流程,并能更有效地对翻译生产量进行评估。

但是,由于机器翻译不可能提供百分之一百准确的翻译,它不可能在所有的翻译领域完全替代翻译专家的工作。

机器翻译的应用领域

当我们分析翻译活动的需求和目的时,我们可以发现,有的翻译需求要求翻译结果非常好,即要求翻译结果百分之一百准确;但有的翻译需求对翻译质量要求稍微低一些,用户只是想了解其基本内容,而且常常是越快越好,而这种需求应该可以利用机器翻译来完成。目前的机器翻译技术除了可以支持文本文件或支持从机器翻译用户界面输入文字外,还能支持HTML和Microsoft Word文件格式;如果有其他类型的文件格式需要翻译,也可以通过过滤器将其内容和表现形式(如粗体、斜体等)分离后,再进行翻译。如果借用其他工具对光学字符或语音进行识别,机器翻译还可以对语音或打印材料进行翻译。所以,机器翻译可以应用于以下领域:

了解信息概况

利用机器翻译,使读者对源文字信息有大致的了解。例如,当用户需要了解源文件的大致内容以帮助其决策是否提供该文件的翻译出版物时,可以由机器翻译来满足该需求。

常用信息的访问和

对于一些具有重复性却有效期较短的信息,如股票价格,天气预报以及财务信息等,可以使用机器翻译来完成。如,加拿大政府利用机器翻译系统,将天气报告内容从英语自动翻译为法语。

信息交流

翻译系统可以为电子邮件以及其他人与人之间的交流提供快速翻译。如聊天、即时信息和短信服务等。目前在国外已有一些公司,利用机器翻译处理人际间的交流,并为其用户带来了可观的利益。如果在系统服务器上配置相应的安全服务,用户的安全和隐私问题可以得到更好保障。

语音翻译

翻译器第2篇

【关键词】机器翻译;机器翻译方法;比较与优劣势

一、机器翻译方法简介

随着全球化的发展,互联网的日新月异,迅速改变着人们信息传播的方式,极大的刺激了全球机器翻译产业的发展。人们期待着能够帮助人们快速准确的翻译理解另一种语言,获得不同的领域不同国家的知识。人们对机器翻译的接受度也迅速提高。机器翻译(machine translation),又称为自动翻译,是将源语言的句子或全文利用计算机翻译成另一目标语的过程。随着机器翻译研究的发展,越来越多的翻译方法在实际操作中应用,词对词的直译方法,即依赖于字典的翻译方法早已过时。人们希望清楚的了解机器翻译能做些什么,如何能让机器翻译最大效能的帮助译者进行翻译。越来越多的机器翻译方法的出现值得我们去研究与实践体会,如基于规则(rule-based MT),基于知识(Knowledge-based MT),基于实例(Example-based MT),基于模式(Pattern-based MT)和统计法(Statistical MT)。本文将挑选基于实例(EBMT), 基于规则(RBMT), 和统计法 (SMT)进行论述与比较。

(一)基于规则的机器翻译

基于规则的翻译方法涉及到源语言(SL)和目标语(TL)的词汇与语法以及中间部分双方词汇与语法的转换。基于规则的翻译方法的核心就是规则(语法)和语料库。对于源语言的词汇与语法分析和接收之后,进行目标语接受,最后再通过深层次的目标语语法词汇的整合输出目标语。传输过程运用映射规则(mapping rules)和国际语过程(interlingua process)来转换源语言和目标语言抽象的和深层次的文本。

(二)基于实例的翻译方法

基于实例的翻译方法最重要的是匹配和提取,和输入源语言文本相匹配并从目标语中提取相等的部分。整个翻译过程是通过对比算法从目标语中找到对应的翻译。也就是通过把源语言分解成语言片段,将片段进一步匹配,从目标语言库中找出最相像的句子成为翻译的最终结果。可以看出,基于实例的翻译方法是通过使用匹配的方法来进行翻译的。这种翻译方法需要目标语语料库足够强大并充满了能与源语言和目标语相匹配或能够对齐(aligned)的句子或短语。

(三)统计法机器翻译

统计法机器翻译首先语言模块对源语言的语言单字进行解码,接下来用语言模块组合成目标语的的句子,然后对目标语的句子进行选择与过滤。由于是基于统计的方法,能够相对齐的数据库至关重要。对输入语言的分割为其后的源语言的合成和目标语片段的输出起着重要作用。统计数据通常依赖于可用的语料库,计算通常是基于概率,所以也叫做基于概率的机器翻译(Probability-based MT)

二、机器翻译方法之比较

(一)基于规则和基于实例的机器翻译之比较

语言之间转换时若结构大不相同,或者涉及到搭配和习语等,语言语法或语法树就不起作用。基于实例的方法可以弥补基于规则的方法从而产生良好质量的翻译。基于实例的方法可以从已翻译的语料库中找到相匹配的翻译。因此,基于实例的方法是对齐,匹配和提取,而基于规则的方法则是规则(语法),转换和生成,重点是将源语言的结构通过规则(语法)转化成目标语。当涉及复杂的结构和微妙的词汇,基于规则的方法就行不通了,无法生成高质量的翻译。从理论上讲,基于实例的译文来自数据库导出,而基于规则的方法由规则导出。

(二)基于实例的机器翻译和统计法机器翻译之比较

首先二者都需要双语文本,即原文及其译文。统计法机器翻译主要是基于统计概率―词频。基于实例的机器翻译基于片段的匹配,提取和组合,其核心是与源语言相对应的目标语片段的匹配和提取。核心过程是源语言与目标语的对齐与提取。统计法机器翻译的核心则是通过统计的方法来从语料库中对齐。输入的部分分解成源语言并转化成通过概率计算出的目标语词组。统计法机器翻译利用“翻译模型”和“语言模型”,基于实例的机器翻译则是利用语言数据库。

三、结论

表1 资源需求比较

从表中我们可以看到,基于规则的方法需要规则,词汇语法语义分析和分析器等。但是没有包含双语数据库,相对齐的数据,平行语料库。基于实例的机器翻译和统计法机器翻译都包含双语数据库,相对齐的数据,平行语料库,看起来统计法是隶属于基于实例的机器翻译的一个方法。当综合运用这两种方法时,一定会降低错误率并提供翻译质量。

表2 翻译过程之比较

统计法运用的是单词和词组对应的频率统计。基于规则的方法核心在于语法和句法的分析。基于实例的方法则是寻找相对应的语言并提取。所以得方法如何能取其优点,共同运用。当句法行不通时,可以尝试语料库的使用,当二者都行不通时,可以统计词汇频率来继续翻译。随着这些方法的各自缺陷逐步为人们所认知,人们在集中探索系统中集成多种机器翻译的实现方法,每种方法构成的翻译模块作为一个引擎,多个引擎协同配合,共同完成翻译工作,使机器翻译能够发挥最大效能。

参考文献:

[1] Arturo Trujillo. (1999). Translation Engines: Techniques for Machine Translation. London: Springer-Verlag.

翻译器第3篇

名称:狗语翻译器DOG-BOX2.0

适用范围:狗狗适用

规格参数:充电电压:USB DC5V。电量:190mAh。工作温度:常温。工作湿度:65%RH。标配清单:主机1台,说明书1份,USB充电线1条。

产品原理:本产品采用最新高科技微型高速计算机技术,对狗的叫声动作等生物信号进行采样,以及对数据进行频谱分析,姿态动作数字化处理等DSP运算,得到翻译结果并以语音形式播放,识别准确率处于世界领先水平。

1 直观印象

狗语翻译器DOG-BOX2.0是由6号宠物电子科技有限公司独立研发,并拥有自主知识产权的高科技宠物电子产品,用于识别宠物的叫声和肢体语言、翻译成人类语言,并以语音形式播放。目前,识别翻译准确率最高可达70%。本产品意在增添更多养狗乐趣,增进人与狗狗之间的情感交流,给大家带来非一般的生活情趣。

3 产品独创优点

1 不仅识别声音,而且识别动作(狗与人类交流90%使用的是肢体语言)。

2 操作简单:独创一键式设计、一拉得绳圈。

3 外形美观、结实。

4 全球独创,语音播放,直白明了。

3 外形尺寸

580*220*240 单位:mm

4 使用方法

1 首次或长期闲置再次使用时,请先充电2小时。

2 佩戴:佩戴时将本产品平行轻贴宠物颈部,开关面板朝前,请勿反带。

3 开关机:轻按开关键1秒可开机,提示语“我会说话了”,长按3秒即可关机。

4 充电:电量即将耗尽时,语音提示“没电了关机充电”,用户应及时充电,充电时将USB充电线直接连接电脑充电。

常见问题解答

1 为什么静止放置在桌面本产品也会进行翻译,是否正常?

答:这是正常现象,因为本产品具有识别狗的动作即肢体语言的能力,并且要适应不同大小的狗,因此会自动将桌面当成缺少运动的狗进行计算并产生识别结果播放。

2 为什么我的狗佩戴本产品比较紧张?

答:有一个正常的适应过程,过2-3天就好了,多遛狗降低狗的紧张感,并酌情调节佩戴时间。

3 为什么我的狗话不多,好像就那几句?

答:这种情况大多是因为人狗互动单一造成的,狗的动作与叫声的信息较少因此识别结果也较少,可多遛狗增加人狗互动。

4 首日佩戴识别结果不是很准确,这是为什么?

答:由于本产品采用的是高科技微型高速计算机技术对佩戴的狗狗生理特征有一个学习适应进行自我调节的过程,随着佩戴时间增加将逐渐提高识别准确率。

1 请在成人监控条件下使用。只适用于宠物。

2 请保持产品干燥。

3 请避免宠物撕咬,挠抓,撞击。

翻译器第4篇

【关键词】机器翻译 机器翻译原理 翻译软件

机器翻译的研究历史可以追溯到 20 世纪三四十年代。进入20世纪40年代,计算机的出现,为人们利用计算机进行翻译揭开了新篇章。20世纪70年代,机器翻译被列为人工智能的一项重要研究课程。由于机器翻译具有潜在的社会效益和经济效益,一些西方国家及日本等国纷纷斥巨资对机器翻译系统进行研发,美国空军早在1970年便研制出Systran系统,旨在将当时的俄国军事技术文献译为英文;日本政府也于20世纪80年代末出资开发用于亚洲各国语言之间的中间语言系统,并与1987年举行了第一届机器翻译峰会。我国的机器翻译研究始于1956年,20世纪90年代初期至今,中国的机器翻译步入快速发展时期,在经过数十年的起落发展之后,已形成商品化的机器翻译产品,包括“雅信”、“传神”等。如今,随着世界经济高速发展,国际交流与合作增多,尤其是互联网的迅猛发展,给机器翻译的发展带来了新的机遇,机器翻译翻译速度快,操作简单,现已发展成为一门新兴的国际性竞争学科。

一、机器翻译基本原理

机器翻译的总任务可以描述为:将一种语言(源语言)文本输入计算机,通过计算机程序生成另一种语言(目标语言)文本, 且源语言文本与目标语言文本具有相同的含义。机器翻译系统的类型很多,采取的策略和技术也不尽相同,但基本工作过程大致相同。简单来说,机器翻译的第一步是在不同层次上分析源文本, 而后生成目标语文本。这两个步骤是机器翻译系统基本实现过程中的两个主要组成部分。

整个机器翻译的过程具体可以分为三个主要阶段:原文分析、原文译文转换和译文生成。在具体的机器翻译系统中,根据具体方案目的和要求,可以将原文译文转换阶段与原文分析阶段合二为一,而将译文生成阶段独立,建立相关分析独立生成系统。利用该系统进行翻译需注意:源语分析时要考虑译语的特点,而在译语生成时则无需考虑源语的特点。在进行多种语言对一种语言翻译时,适合采用此种相关分析独立生成系统;亦可将原文分析阶段独立,把原文译文转换阶段同译文生成阶段相结合,建立独立分析相关生成系统。使用该系统时源语分析时无需考虑译语的特点,而在译语生成时要考虑源语的特点,在进行一种语言对多种语言翻译时,适宜采用此种独立分析相关生成系统。此外还可以把原文分析、原文译文转换与译文生成进行区分,建立独立分析独立生成系统。这样,分析源语时无需考虑译语的特点,生成译语时也无需考虑源语的特点,源语译语的差异通过原文译文转换来解决。此种独立分析独立生成系统适用于多种语言对多种语言翻译。

二、国内机器翻译发展现状

国内机器翻译系统主要形式包括以下几种:

1.全自动翻译系统。提供简单的全自动翻译功能,带有简单的用户界面和译前译后的编辑工具, 以及用户词典管理。

2.全自动汉化工具。目前最为流行的一种机器翻译产品形式, 主要产品有金山公司的金山快译等,在市场上占据了相当大的份额。

3.计算机辅助翻译系统。此类产品采用的主要技术并非全自动机器翻译, 而是翻译记忆技术, 主要应用于要求精确翻译的领域, 提高翻译效率, 目前代表产品主要有德国的TRADOS系统和实达公司的雅信CAT辅助翻译软件,现已具备较大的市场规模。

目前市场上的机翻软件通常可针对特定领域或是专业提供客制化服务,通过将词汇范围缩小至该特定领域的专有名词,借此达到改进翻译的结果。此方法针对一些用语较正规或是陈述方式较制式化的领域尤为有效,如政府公文或法律文本等文件,与一般文句相比,此类型文本的文句通常更为正式,也更具制式化的特点,因此其采用机器翻译的结果往往比日常对话等非正式文件要更为理想。

三、机器翻译利弊

一般而言,大众使用机器翻译的目的,可能只是为了要得知原文句子或段落的要旨,而不是精确的翻译。总的说来,机器翻译还没有达到可以取代专人工翻译的程度,并且也尚无法成为正式的翻译。机器翻译的结果好坏,往往取决于译入跟译出语之间在词汇、文法结构、语系甚至文化上的差异,例如:英文与荷兰文同为印欧语系日耳曼语族,这两种语言间的机器翻译结果,通常便会比中英文互译结果要好很多。总而言之,机器翻译有利有弊。即:机译速度快、效率高;但译文生硬、机器味过浓,影响译文的可读性和准确性等。其实,机器翻译研究归根结底是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。

总之,自然语言是人类最伟大的发明创造之一,语言系统极其复杂,人们对语言机制的认识,对大脑处理自然语言的过程的掌握,以及对大脑的思维和判断能力的了解,尚处于初步阶段,因此,要让机器像人脑一样处理自然语言绝非易事,将机器翻译与人工翻译有效结合才是目前保证翻译品质的最好方法。总之,机器翻译取得了一定成果,也是时展的趋势,然而还存在很多问题和弊端。机器翻译走出困境尚需时日,只有在使用中不断调整、扩充、更新并注重语言对比研究,才能提高机器翻译的质量,才能使机器翻译受到人们的欢迎和广泛地应用。相信随着科学技术水平的进步和发展,在不断努力下,机器翻译的前景必定一片光明。

参考文献:

翻译器第5篇

关键词:翻译;人工翻译;机器翻译

1 翻译的本质与定义

翻译是一种语言到另一种语言的转换。翻译的本质是科学性和艺术性的有机统一。黄振定认为,艺术性和科学性性同时包含在翻译活动中,而这是一个有机的统一体。”刘宓庆也认为“忽视翻译的科学性固然是错误的;忽视翻译的艺术性同样是错误的,因为翻译本身就是融科学与艺术于一体的活动。”只有人才能使翻译活动既具有科学性又具有艺术性。机器翻译只能从现存的语料库出发对译文进行翻译,虽具有一定的科学性,但其艺术性受限或者无艺术性,这一点尤其表现在文学翻译领域。下面是笔者在文学翻译实践遇到的句子“Vogt, a professor of biology at the University of Geneva, once affirmed that “man as well as the animal is only a machine.”笔者用Transmate翻译工具得到的译文为“沃格特,日内瓦大学的生物学教授曾确认,“人以及动物只是一台机器”。人工翻译译文为“日内瓦大学的生物学教授沃格特曾认为“人作为一种动物也不只过是N机器。”对比这两个译文可以看出机器对词语的翻译比较准确,但语序和行文的润饰还有所欠缺,无法将译文既具有科学性又有艺术性。而人工翻译可发挥人的主观能动性,可根据具体的语境,选择词语、修辞手法和排列语序等等,使译文符合目的语的行文习惯且优美流畅,将译文达到艺术性和科学性的统一。

王宁认为翻译是同一语言古文和现代语、两种语言之间、由符码到文字、关于图像阐释、形象与语言之间的转换、影视戏剧脚本的改编和再创作以及以语言为主要媒介的跨媒介阐释。随着高科技的发展和联络通讯技术的发展使得人们的阅读习惯发生了极大的变化,在当下这个读图时代,翻译不光是语言之间的转化还是图像、字符、表现形式之间的转换。母亲向孩子用语言去解读画中人物传达的神态和想法时也是翻译;课堂上老师用白话文解释文言文也是翻译。而这类翻译,机器翻译目前是无法完成的。目前机器翻译只能做到部分语种之间的翻译,若实现古文与现代文的互译和所有现代文字之间的互译还有很长的一段路要走,更何况实现图像、字符、表现形式等人的主观性要求较高的翻译材料的翻译。

2 机器翻译

作为翻译形式的一种,机器翻译是利用电子计算机按照一定程序自动进行对自然语言进行翻译。机器翻译是语言学、数学和计算机科学这三门学科共同的产物。语言学家做机器翻译的语料库,数学家把语料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备并进行程序设计。这个过程也决定了机器翻译的滞后性和人工翻译存在的必要性。若语料库不能及时更新,机器翻译是无法满足人类不断发展的翻译需求,而语料库的更新则离不开人工翻译。

自诞生之日起,机器翻译以其翻译速度之快和部分专业词汇翻译精准度之高受到了广泛肯定。但其翻译质量,特别是在诱导型和呼唤型文本的翻译中,受其自身机械性的限制,译文总有不尽人意之处,需人工翻译进行校对与润色。

3 机器翻译与人工翻译

除了依赖语料库的解码和编码的精确与否,机器翻译的优劣还在于其是否具有超强“学习能力”,即可根据某些词汇的使用频率和采用频率,改进翻译准确性与速度。在某些信息型文本中,机器翻译可以替代人工翻译的词汇翻译工作。例如,“BEIJING -- Chinese President Xi Jinping on Monday stressed the importance of “a sound environment for public opinion.”这句新闻有道机器翻将其译为“北京――中国国家主席周一强调的重要性“一个良好的舆论环境。”虽然整句话的语序不对,但从“Chinese President”和“a sound environment for public opinion”这两个短语可以看出机器翻译的学习能力让其在专业术语的翻译上可和人工翻译媲美。所以,人可通过机器翻译的帮助,免去查词等简单而又繁琐的准备和检查工作,把更多精力花在对译文的分析、评估等要求人的主观性较高的翻译活动中。

另外,索绪尔认为,语言是具有社会性,即语言是语言团体整体心智的产物。随着社会的发展与进步,人类使用的有些语言也在不断的更新与衰退。语料库相当于机器翻译的“心脏”需要不断地输入新鲜的“血液”。若语料库的更新速度落后于新词汇产生的速度,那么机器翻译满足不了含有某些新词翻译活动,即机器翻译也无法满足当下人类的翻译需求。现在若使用机器翻译去翻译网络流行语“香菇”,则直接译成“mushroom”,这无法让目的语读者真正理解原文想要表达的“想哭”意思。而人作为人工翻译的核心可自身保持与时俱进的语言知识,能正确译出其隐喻含义。所以,人工翻译这种动态翻译活动有机器这种较为静态翻译活动不可代替的作用。

4 结语

近年来,机器翻译技术已实现巨大的发展。谷歌神经机器翻译系统、百度翻译等软件的相继问世极大地提高的翻译效率。但因翻译归根到底都是语言的问题,所以不管机器翻译如何发展都不会取代人工翻译。加之,综合翻译的定义与本质、翻译对象和机器与人工翻译的两种译文质量的对比考虑,人工翻译都发挥着机器翻译无法匹敌的作用。人与机器强强联合是才翻译的未来。人们应更加关注如何让机器翻译更好的协助人的翻译活动即人工翻译,而不是去担忧机器翻译会取代人工翻译那一天的到来。

参考文献

[1] 辞海[C]北京:商务印书馆,1997

[2] 费尔迪南・德・索绪尔.普通语言学教程[M].商务印书馆,2014

[3] 胡开宝 李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译.2016

[4] 黄振定.翻译学[M],长沙:湖南教育出版社,1998

[5] 刘宓庆.翻译美学导论[M],北京:中国对外翻译公司出版公司,2005

[6] 罗璇.浅析翻译的本质[J].世纪之星创新教育论坛,2016

[7] 刘涌泉.机器翻译归根到底是个语言学问题[J].语言文字应用,1997

[8] 王宁.全球化时代的翻译及翻译研究: 定义、功能及未来走向[J].外语教学,2016

[9] 现代汉语词典[C]北京:商务印书馆,1980

作者简介

郑江(1993-),女,白族,山东济宁人,在读硕士研究生。主要研究方向:英汉笔译。

翻译器第6篇

关键词: 机器翻译 谷歌翻译 译后编辑

一、机器翻译概述

机器翻译是指将翻译过程的部分或全部使用机器实现自动化(Austermühl,2006)。一般认为机器翻译的思想起源于1949年写作的韦弗备忘录,而后机器翻译的发展经历了重大的起伏。时至今日,机器翻译的研究和产品如雨后春笋般不断涌现出来,机器翻译已然成为一个具有重大社会意义、政治意义、商业价值、科学价值和哲学意义的重要课题。

机器翻译系统可以依据不同的标准分为不同的种类。根据机器翻译系统的使用环境可以分为三类:低端机器翻译系统、用户定制的高端机器翻译系统和基于因特网的机器翻译系统。低端机器翻译系统的目标客户是个人,用户定制的高端机器翻译系统的目标客户是公司,基于因特网的机器翻译系统则是一种通过因特网使用的。根据机器翻译系统使用的技术可以分为下图所示的五类:基于规则的机器翻译系统、基于语料库的机器翻译系统、多引擎机器翻译系统、在线机器翻译系统和口语机器翻译系统(Feng,2004)。

一般而言,由于自然语言中诸如歧义、复杂句法、成语和照应关系之类问题,机器翻译的输出结果并不能令用户满意。于是一些人认为机器翻译系统对于译员而言毫无用处。我认为这是一种误解。翻译的过程一般可以分为两个阶段:第一阶段是翻译出译稿,第二阶段是修改译稿以求译文可以达到要求。在多数情况下使用机器翻译的目的仅仅是将第一阶段自动化,即翻译出译稿。然后由译员修改译稿,最终产出达到要求的译文。由此可见,机器翻译在将文本翻译成译稿的过程中大有用处。

在使用机器翻译将文本翻译成译稿的过程中,我们还可以使用多种方法提高机器翻译输出结果的质量。提高机器翻译系统翻译质量的策略如下表所示(Austermühl,2006)。

这些提高机器翻译质量的策略不是互相排斥的,而是可以同时使用。更新词典是指为机器翻译系统添加词条。译前编辑应用于翻译之前的文本。受控语言是指控制输入机器翻译系统的语言的复杂程度。交互模式是指翻译中机器翻译系统一边输出译稿,译员一边实时地做出修改。译后编辑应用于译后文本。上表所列的提高机器翻译质量的策略中使用最多的是译后编辑。

二、译例

现在中国广受用户欢迎的机器翻译系统有谷歌翻译、金山快译和Systran。在此我们将使用如下一段文字演示谷歌翻译工具的使用方法和使用译后编辑的策略修改谷歌翻译输出的译稿:

Ubuntu is a community developed operating system that is perfect for laptops,desktops and servers.Whether you use it at home,at school or at work Ubuntu contains all the applications you’ll ever need,from word processing and email applications,to web server software and programming tools.

谷歌翻译非常容易使用。我们首先在浏览器中打开谷歌翻译的网址translate.省略/,将上面的一段文字输入或复制粘贴到源语文本框中,调整翻译方向,即将英语设为源语,将汉语设为目的语,点击“翻译”按钮,谷歌翻译输出的译稿便出现了:

Ubuntu的是一个社会发展的作业系统是完美的笔记本电脑、台式电脑和服务器。您是否使用它在家里,在学校或工作Ubuntu的包含所有申请您最需要的,从文字处理和电子邮件应用程序,Web服务器软件和编程工具。

接下来我们可以开始通过比较源语文本和译稿编辑谷歌翻译的输出,这是使用译后编辑策略的译员需要做的工作中的主要部分。

第一句的翻译有两个主要的问题,即“community developed”和“perfect for”的翻译。此处谷歌翻译的翻译引擎将“community developed”翻译为“社会发展的”;正确的翻译应该是“(开源)社区开发的”。据此我们可以将第一句的前半部分编辑为“乌班图(Ubuntu)是社区开发的操作系统”。而后半句中的“perfect for”在此具体语境中的意义应该是“非常适合”,而不是“完美的”。据此我们可以将后半句编辑为“适合运行于笔记本、台式机和服务器”。

第二句的翻译也有两处主要的问题,即“whether”和“applications”的翻译。在此具体语境中“whether”的意思不是“是否”,而是“无论”;“applications”的意思不是“申请”,而是“应用程序”。因此我们可以将第二句的前半句编辑为“无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序”。接着我们可以看到第二句的后半句并不需要大幅地修改,只需稍为润色,成为“从文字处理软件、电子邮件程序到服务器软件、编程工具”。

乌班图(Ubuntu)是开源社区开发的操作系统,适合运行于笔记本、台式机和服务器。无论在家庭、学校还是工作环境使用,乌班图(Ubuntu)都提供了您所需的各种应用程序,从文字处理软件、电子邮件程序到服务器软件、编程工具。

比较谷歌翻译的输出与修改后的译文,我们可以看到要想达到专业的翻译水准,机器翻译的输出可能需要较大幅度的修改。但是我们也应该看到机器翻译的长处是翻译某一特定领域的文本和翻译受控语言。

参考文献:

[1]Austermühl,F.Electronic Tools for Translators.Beijing:Foreign Language Teaching and Research Press,2006.

[2]Ubuntu.The Ubuntu Promise.Retrieved Aug.23,2010,from 省略/

[3]冯志伟[Feng Zhiwei].机器翻译研究[M].北京:中国对外翻译出版公司,2004.

翻译器第7篇

关键词:

中图分类号: TP391.2 文献标识码:A 文章编号:2095-2163(2011)01-0013-04

0概述

机器翻译(Machine Translation)是自然语言处理(N-atural Language Processing)的重要分支之一,其目的是借助计算机将文字或者语音从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。早期的机器翻译借助基于语法规则的转换语法,在翻译词典的基础上实现源语言到目标语言的翻译。这种方法可以在特定领域取得很好的效果,例如天气预报。因为这些领域的翻译比较规律,容易总结出相关的翻译模式。然而针对较为复杂的领域,例如新闻或者旅游等,总结出的翻译模式就很难保证覆盖度和准确度了。

从上世纪末开始,随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始异军突起。目前非限定领域机器翻译中,统计方法是性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型结合语言模型来进行翻译(机器翻译中将翻译过程可以看成解码过程)。从发展阶段来看,统计机器翻译最早以基于词的方法为主,现在已经完全过渡到基于短语的翻译方法。统计机器翻译的研究方面,目前开始出现大量的融合句法信息的方法,以实现进一步提高翻译的精确性。但相对于基于短语的方法,基于句法的方法产生的翻译模型会庞大很多,相应的翻译速度也会慢很多。目前实用的统计机器翻译系统都主要集中在基于短语的方法上,现在的一些商用机器翻译系统也是基于短语的方法,例如Google的翻译系统。

统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,并运用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。

统计机器翻译系统的翻译效果与用于训练翻译模型的双语平行语料的规模有关。普遍的共识是平行语料的规模越大,翻译的结果就会越准确。事实上,Google的翻译系统就是基于超大规模的双语平行语料训练出来的。但是,语料增大随之而来的问题就是得到的翻译模型的规模也会越大。在同样计算能力的条件下,翻译模型越大,翻译速度就会越慢。为了解决这个问题,很多科研人员开始考虑如何约简翻译模型的规模,例如从手机等移动设备的角度来尽可能约简。

以Moses为代表的基于短语的统计机器翻译系统在双语平行语料上训练得到的翻译模型的格式如下:

Source Phrase ||| Target Phrase ||| Related Features

其中Source Phrase是源语言短语,Target Phrase是目标语言短语,Related Features是用于实际句子翻译过程中的短语对的相关特征。如下所示为实际的一个翻译模型所对应的一条短语对(Bi-phrase):

很 多 议员 ||| many councillors ||| 0.04 2.15638e-08 1 0.000542039 2.718

本文所述的统计机器翻译模型的约简就是对这些翻译的短语对进行相应的度量,并最终进行适当的剔除。后续部分还介绍了经典的统计机器翻译的处理流程以及模型约简的三个类别的方法。

1经典的统计机器翻译处理流程

统计机器翻译发展至今,相关软件的开源开发在其中发挥了重要的促进作用。下面以Moses为例,简述经典的统计机器翻译的学习和翻译的基本流程。

统计机器翻译一般都从双语平行语料开始进行处理。先在句子对齐的语料库上调用Giza++词对齐程序进行迭代处理,在得到的词对齐结果上按照一些启发式规则抽取得到相应的短语对齐结果,例如上面提到的“Source Phrase ||| Target Phrase”。随后对这些抽取得到的短语对按照相应的统计方法得到与相关的短语对所对应的特征值,例如前面的“Related Features”及相关的那些数值。至此就得到了统计机器翻译的翻译模型。也就是说,大量的短语对及相关特征构成了翻译模型。

接下来,实际的机器翻译解码器会在这个翻译模型以及另外训练得到的语言模型的基础上,通过一些调试数据对一些特征相关的参数进行调优。得到最优参数后,就可以在解码器的基础上对任意输入的源语言句子进行翻译。实际评测机器翻译性能的方法是将一些有多个参考答案的句子经翻译后,把翻译结果和多个标准答案比对,得到最终的得分。最常用的得分标准叫做BLEU值。BLEU值越高的系统被认为翻译质量最好。

例如,在一个100万句对平行语料上经过词对齐、短语抽取处理得到的短语表的大小为68 968 597;在一个20万句对平行语料上得到的短语表大小为26 787 367。

2翻译模型约简方法的三种类型

统计机器翻译研究的经验表明,用于训练翻译模型的双语平行语料规模越大,最终机器翻译结果的质量就会越好。但是随着语料的增多,翻译模型的大小也会变得非常巨大。为了缩小翻译模型的大小,很多研究人员尝试了各种方法来对翻译模型中的短语对进行评估并删除质量较差的短语对。这其中,多数方法在翻译模型减小的同时,会降低最终解码器的翻译质量,即BLEU值;但也有一些方法能在翻译模型减小很多的情况下,最终的BLEU值却没有一点显著的损耗,甚至有方法能够使得BLEU值得到提高。最理想的模型约简方法就是在翻译模型大幅度减小的同时,最终的BLEU值也得到一定的提高。这种现状说明,翻译模型中有不少短语对对于最终的机器翻译起到了反作用。

下面分四种类型来介绍这些翻译模型的约简方法。

2.1根据解码器解码过程中短语对的出现情况进行约简

实际的解码器在进行句子翻译时会穷举输入句子可能的各种切分结果,根据这些切分结果形成的Source Phrase在翻译模型中查询得到所有对应的Target Phrase,这些Target Phrase又会在不断深入的搜索中进行相应的排序,最终会被选中出现在翻译结果中的Target Phrase所对应的短语对被认为是重要的。实际上一个源语言句子的翻译结果会有很多个,通常解码器会根据需求输出最靠前的翻译结果,这些翻译结果被认为是系统输出的最终结果。

Eck等[1]将一个在调试集上调好参数的解码器用来翻译一组大量的源语言句子,针对每个翻译模型中的短语对统计如下两个数值:

(1)c(phrase pair)=短语对在语料翻译过程中被考虑(出现在翻译候选中)的次数;

(2)u(phrase pair)=短语对出现在最终翻译结果(被选中)中的次数。

对于每个短语对,最终的得分为:

score(phrase pair)=[log(c(phrase pair)+1)]?

[u(phrase pair)+1] (1)

最后将每个短语对,根据score从高到低进行排序,对于排序结果取出前N个短语对作为翻译模型约简的结果。

Eck等[2]在上述工作的基础上进一步考虑到了短语对在翻译结果的N-best中的情况。如图1所示,针对某个源语言句子的翻译结果的N-best中,i-best包含ki个短语对。解码器会根据这个N-best顺序选择最优的翻译结果1-best。但是根据源语言句子的多个参考翻译结果,采用某种评价方法(metric),例如BLEU,实际上最好的结果是i-best。

Eck等[2]的工作是根据i-best相对于1-best的距离关系来对各个i-best中的短语对打分,两种打分公式如式(2),式(3)所示,然后根据这个打分进行短语对排序并选择排序靠前的结果作为约简结果。

Eck等的这两种方法都能够进行有效的约简,但是得到的约简翻译模型对应的翻译质量都有所降低,文献[2]的约简结果的翻译质量优于文献[1]。

2.2根据双语平行语料中短语对的出现情况进行约简

翻译对来自于双语平行语料,但翻译对的抽取却采用了一些启发式的方法。这些方法并没有考虑翻译对在双语平行语料中整体出现的情况。为此,针对翻译对在双语平行语料中的出现情况,研究人员分别提出了p-value, noise-value, C-value等方法。

首先,定义翻译对的源语言短语Source Phrase为s,目标语言短语Target Phrase为t;C(s,t)为平行语料中源语言句子至少包含s的一次出现,同时目标语言句子至少包含t的一次出现的双语句对的句子个数;C(s)为平行语料中源语言部分至少包含s的一次出现的句子的个数;C(t)为平行语料中源语言部分至少包含t的一次出现的句子的个数;假设平行语料包含N个双语句对。根据这些统计量,得到s和t的联立表如表1所示。

根据表1中的数据,Fisher精确检验采用如式(4),式(5)的超几何分布函数phg来计算精确的p-value统计量。

Johnson等[3]采用的就是式(5)的p-value来对翻译模型中所有的短语对进行打分,随后按从高到低的顺序来择优选取短语对作为约简的结果。事实上,这种方法在将短语表约简到原始大小的大约10%时,还能使得最终的翻译质量得到提升。这是一种目前为止最好的翻译模型约简方法。

随后,Tomeh等[4]在上述p-value方法的基础上,根据Moore[5]指出的p-value方法的缺点以及noise-value方法的优点,采用noise-value来进行翻译模型的约简。Moore[5]指出,针对出现频率较低的一些事件,p-value数值较高并不一定意味着s和t之间具有独立性。Tomeh等[4]采用的noise-value的定义如下:

事实上,Tomeh et al.[4]的实验结果显示,虽然noise-value也能在将翻译模型约简到28%左右还能保证翻译质量不降低,但是Johnson et al.[3]的方法明显还是要好一些。

上面两种方法都是在统计短语对的源语言短语和目标短语分别在平行语料中的出现情况。He等[6]借用术语抽取领域的C-value来衡量短语对的质量。一个短语对p的C-value主要考察四个因素:(L, F, S, N),其中:

(1)L(p)是短语对中源语言短语的长度;

(2)F(p)是源语言短语在语料中的出现频率;

(3)S(p)是源语言短语在语料中作为子串出现在其他更长短语中的频率;

(4)N(p)是语料中包含源语言短语的短语的个数。

具体的计算算法是:

C-value在术语抽取领域被广泛使用,He等[6]指出这种方法在翻译模型约简到22%时还能保证翻译质量的BLEU值不降低,并且将这个数值作为解码器的附加特征进行参数调优后在22%的约简前提下,BLEU值还能有一定的提高。

2.3根据短语对的内部词对齐情况来进行约简

上面的两类方法都是在考察短语对在平行语料中的情况,这里的第三类方法重点考察短语对内部的对齐情况。因为短语对是在平行语料词对齐结果的基础上抽取得到的。

Sánchez-Mart?nez等[7]考虑了短语对中的词类情况。文中将词语分成开放词类(Open Words)和封闭词类(Closed Words)。根据两条原则来剔除短语对:

(1)如果短语对的源语言短语或者目标语言短语包含开放词类,但是至少有一个开放词没有在另一端对齐到开放词类上;

(2)在上一条原则的基础上,如果短语对的任何一端的第一个或者最后一个词语对空。

注:对空现象是在进行对齐短语抽取时可能产生的现象,例如“我们 一起 吃饭 ||| let's have dinner together but”中的but。

针对相关的语言,Sánchez-Mart?nez等[7]定义了封闭词类包含哪些类别以及具体的词语,没有包含其中的词语都是开放词类。图2分别定义了英语、法语、西班牙语的封闭词类。

这种启发式的方法得到的翻译模型约简会导致翻译结果的BLEU值降低1-2个点。

基于此,He等[8]将短语对的内部对齐情况分成两大类:不能再分拆的最小对齐,和由最小对齐构成的组合对齐。例如图3左图表示最小对齐,右图表示组合对齐。

在组合对齐里,又分为单调组合(如图4左图)和非单调组合(如图4右图)。

He等[8]的方法是将翻译对里单调组合的短语全部剔除,因为这种单调组合的短语在实际解码过程中可能通过最小对齐的短语对顺序地拼接而成。仿真实验结果显示,在翻译模型被约简为原始大小的30%左右时,相应的BLEU值还能有一点提高。从约简计算的代价来看,也是值得推广的。

3结束语

统计机器翻译的研究越来越热,刚刚结束的自然语言处理顶级会议ACL2011中机器翻译达到了史无前例的7个分会场[9]。随着机器翻译的深入研究,相信会产生更多的关于翻译模型约简的研究成果。在本文综述的四类方法中,笔者认为最好的方法是基于Fisher精确检验理论的Johnson等[3]的p-value的方法,因为在模型约简到原始大小的10%左右规模的同时,还能得到测试语料上BLEU值的提高。当然,这种Fisher精确检验的方法存在的一个问题是对翻译模型完成一次约简需要一定的时间,而这是因为Fisher精确检验方法的计算复杂度相对较高。如果为了进行快速的翻译模型约简,可尝试He等[8]的剔除单调组合对齐的短语对的方法。

笔者针对翻译模型约简进行过一些尝试。在统计学中,Fisher精确检验比传统的卡方检验效果要好,但还存在一种理论上比Fisher检验更好的方法――Barnard检验[10]。Barnard检验是在[0,1]区间内寻找一个最优的度量值来作为检验的结果,虽然理论上更优,但是计算量惊人。如果Barnard检验的计算复杂度能够降低的话,应该是一种非常值得探索的方法。

参考文献:

[1] ECK M,VOGEL S,WAIBEL A. Translation model pruning via usage statistics for statistical machine translation[C]// Human La- nguage Technologies 2007: The Conference of the North Ameri- can Chapter of the Association for Computational Linguistics; C- ompanion Volume, Short Papers, New York Rochester:Associa- tion for Computational Linguistics,2007:21-24.

[2] ECK M,VOGEL S,WAIBEL A. Estimating phrase pair relevan- ce for translation model pruning[C]// Proceedings of the MT Su- mmit XI,2007.

[3] JOHNSON H,MARTIN J,FOSTER G,et al. Improving transla- tion quality by discarding most of the phrasetable[C]// Proceed- ings of the 2007 Joint Conference on Empirical Methods in Na- tural Language Processing and Computational Natural Language Learning (EMNLPCoNLL), Prague, Czech Republic: Association for Computational Linguistics,2007:967-975.

[4] TOMEH N,CANCEDDA N,DYMETMAN M. Complexity-basedphrastable filtering for statistical machine translation[C]// Proce- edings of the MT Summit XII,2009.

[5] MOORE R C. On log-likelihood-ratios and the significance of rare events[C]// Lin Dekang, Wu Dekai. Proceedings of EMNLP2004, Spain, Barcelona: Association for Computational Linguis- tics,2004:333-340.

[6] HE Zhongjun,MENG Yao,LV Yajuan,et al. Reducing smt rule table with monolingual key phrase[C]// Proceedings of the ACLI- JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ- ation for Computational Linguistics,2009:121-124.

[7] Sánchez-Martnez F,Way A. Marker-based filtering of bilingual phrase pairs for smt[C]// Proceedings of the 13th Annual Meeting of the European Association for Machine Translation (EAMT-09), Citeseer,2009:144-151.

[8] HE Zhongjun,MENG Yao,YU Hao. Discarding monotone comp- osed rule for hierarchical phrase-based statistical machine tran- slation[C]// Proceedings of the 3rd International Universal Comm- unication Symposium, ACM,2009:25-29.