论英汉机器翻译的改进之道(一)

1 人赞同了该文章

随着经济全球化的不断延伸和深入,人们对翻译活动的依赖和需求也愈加强烈,这极大地促进了翻译产业的发展,同时也对翻译职业提出了巨大的挑战。机器翻译得益于信息技术的迅猛发展,也有了新的突破,无论是基于实例的机器翻译(EB-MT)、统计机器翻译( SMT)、还是最新的神经机器翻译(NMT)都显著地提高了翻译的准确度和可读性。2016年10月,谷歌在其网站发表的论文《谷歌神经机器翻译系统:缩小机器翻译与人工翻译的差距》(“Google 's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”)中就指出,在多次测试中,谷歌神经机器翻译系统的译文的准确度已经接近于一般水准的双语译者的水平。(“GNMT system approaches the accuracy achieved by average bilingual human translators on some of our test sets.”)'为了进一步缩小机器翻译与人工翻译的差距,我们必须了解其差距之所在及其成因。本文选取了英国《金融时报》的“FT每日英语”订阅号的人机翻译PK小游戏中2018年10月12日到12月29日共36期的108个句子的汉译作为研究对象。其中的人类译员是FT中文网的资深翻译,机器翻译系统有谷歌、有道、百度、搜狗、必应。虽然各个机器翻译系统的译文不尽相同,但本文主要针对机器翻译的共性特征,通过对人机译文的对比,从翻译学视角指出机器译文与人工译文的差距并对其成因做统计分析,以期为机器翻译系统的改进提供语言分析基础,提高机器翻译译文质量,或为从事译后编辑( post - editing)工作的译者提供参考意见和建议。

人机译文比较的维度

近来,国内有不少学者对英译汉的人机译文进行过比较研究。有的是通过对人机译文语言特征的比较,指出机器译文与人工译文的差距,如,蒋跃在对5篇韩素音翻译竞赛英译汉的机器在线及人工译本语料中13个语言结构特征(词长、句长、型例比、副词比例、名词比例、代词比例、助词比例、惯用语比例、标点符号比例、陈述句比例、疑问句比例、感叹句比例、单现词)的分布做了统计和分析后,得出机器翻译“在词汇的丰富度、变化度、密集度、句法结构的复杂度和变化度上尚与人工翻译有明显差距,助词、指代方式显化尤为明显。”

有的是通过对机器译文出现的错误,指出机器译文与人工译文的差距。如,罗季美和李梅在《机器翻译译文错误分析》一文中通过对汽车技术文献翻译语料库中近10万句译文的逐一比较,确立了词汇、句法、符号三个机器译文一级错误类型。在一级错误类型中再根据具体的错误特征进行二级错误类型分类。其中词汇错译包括术语错译、连词错译、词性错译、词汇缩写错译、词汇漏译、词汇替代错译和词汇不译;句法错译包括词序错译、名词短语错译、动词短语错译、介词短语错译、被动语态错译、动词不定式错译和分词错译,并指出词汇错译发生率所占比例远远高出其他类型的译文错误。

这种条分缕析的描写性分析确实可以使我们更清楚地了解机器译文不足和错误之处的分布和出现的频率,但对于如何改进机器译文的指导性不强,因为描写性分析只能让我们知其然,而不知其所以然,遑论改进之办法。所以,本文尝试从翻译过程的视角寻找不当译文产生的原因和机器翻译的改进之道。

对于人机译文比较数据的选择,本文并没有选择法律文本和科技文本等程式化文本或信息性文本,也没有选择小说、散文和诗歌等表现性文本,而选择了兼具科技文本和文学文本特征的较大众化的新闻文体,且内容几乎覆盖了政治、经济、社会、生活、娱乐等所有领域,以期能让对英汉机器翻译差距的分析更有普遍意义。

在对《金融时报》108个英文句子的三个机器译文和一个人工译文进行比较后,我们发现有些机器译文错误严重,完全误导读者,这种译文属于误译;而有些机器译文意思基本清楚,只是表达比较生硬,这种译文属于硬译。两者有本质的差别,误译属于不忠实,问题主要出在理解上;而硬译属于不通顺,问题主要出在表达上。因此,我们首先从翻译学的视角将这108个句子的机器译文分成两类:误译和硬译。

发布于 2022-05-04 22:44:46
还没有评论
    旗渡客服