机器翻译如何解决语言障碍这个天然痛点?

2019-04-09    来源:钛媒体

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

上世纪二十年代,翻译界发生了有名的“牛奶路”事件。翻译家赵景深先生在翻译契科夫的小说《凡卡》时,因不了解原文中的古希腊神话背景,将“银河”(Milky Way)按字面意思错译为“牛奶路”,闹了个大笑话,从此“牛奶路”便成为错译的代名词。

随着时代的发展和全球化加速,不同语言文化背景的人们交流越来越多,翻译的需求也越来越重要和多样化,“牛奶路”的错误依然层出不穷。在机器翻译已经一定程度上普及的今天,我们能否利用机器翻译技术的优势,满足大规模、复杂多样的翻译需求,绕过不同文化背景带来的理解藩篱,重塑“巴别塔”,进而终结几千年来人类语言互不相通的历史呢?

数据红利

谙熟机器翻译发展史的人都知道,冷战期间,美国获得了大批前苏联的资料,但苦于翻译员不足,只好寻求机器帮助。1954年,IBM展示了一个基于6项语法规则和250字词汇表的计算机翻译系统,可将60个简单的俄语断句直译为英语,政府非常激动,开始拨款大力支持机器翻译,有乐观派科学家宣称:“三年之后机器翻译一定非常成熟。”

如你所知,这种思路很快被证明是错误的。人类无法驯服自己亲手创造的语言,语言仿佛古灵精怪的小姑娘,变化极其灵活,哪怕同一单词,在不同地域,文化,语境甚至情绪里的意义也迥然不同。IBM 的单词配语法无疑过于鲁莽,直至上世纪90年代,IBM都还在投入大量资金试图挑战机翻,无奈收效甚微。

而在不少专业人士看来,经过多年发展,现如今,机器可以较为准确地理解每一个句子的意思,但若想真正做到流畅准确的翻译,还必须解决两个问题:调序和消歧。不同语言有不同语序(譬如在英语和德语里形容词放在名词前面,但在法语里通常相反),机器需要做到根据不同语言的表达习惯调整语序。另外,单个词汇,尤其动词常有多个语义,譬如汉语的“做”,你得让机器知道,做作业和做内啥是不一样的。

好在人类握有数据。尤其近些年来,随着互联网的普及和高速发展,数据规模呈爆发式增长,机器翻译因此受益,取得了不错的进展。

嗯,就连学术界也颇为期待数据产生的红利。在不久前结束的中国电子信息技术年会上,百度牵头与中科院自动化所、浙江大学、哈尔滨工业大学、中科院计算所、清华大学研发的《基于大数据的互联网机器翻译核心技术及产业化》项目获得了电子学会科学技术进步奖一等奖。这个名字有些拗口的学术性项目的技术基础,就是通过海量自然语言语料库,让机器自动学习理解不同单词、短语和句式,然后进一步优化自身系统(毕竟,所谓“智能”的本质就是能否根据数据的累积不断让自己“进化”)——事实上,这个在外人眼中非常高大上的项目,就突破了“消歧”和“调序”等难题。

而从更学术的角度,其提出的基于互联网大数据的翻译模型,也可实时准确地响应多文体、多领域的复杂翻译请求;除此之外,该项目的基于枢轴语言的翻译技术,使得资源非常稀缺的小语种(喜欢小语种的童鞋你们有福啦)翻译成为可能,且实现了多语种翻译的快速部署。

耐心等待

当然,你得承认,“进化”还需要时间。与专业翻译相比(所以短期内专业翻译还不会失业对么),机器翻译至少在三个方面还有待完善。

第一,如前所述,目前机翻主要以句子作为翻译单位,缺乏对篇章知识的全面理解,翻译结果在前后文的统一连贯性上有时还显得颇为无奈,如何研究“篇章级”的翻译模型是个问题;

第二,倘若将机器视作生命,那么处于襁褓之中的它还缺乏对人类常识和文化的充分理解,你知道,翻译一般分为直译和意译,在需要意译的时候,机器多选择笨拙地直译,译出的句子常让人倒吸一口凉气,所以如何充分发挥互联网优势,利用“群体智慧”更好地获取人类文化,让机翻更加符合母语表达习惯是个重要的问题;

第三,宏观层面上,机器翻译作为计算机科学,认知科学,信息论等多学科交叉领域,其他学科的研究成果对于语言理解建模和翻译建模都有借鉴意义,如何持续探索全新的翻译模型和方法也颇具挑战。

在我看来,机器翻译若能攻克以上三点,而你在文字上又是一个“功利主义者”,只求稳准狠,不求信雅达,那么机译一定会很好地满足你。当然,对于那些基本属于“二次创作“的文学翻译而言,至少在现阶段,你若想奢求机器能将“In me the tiger sniffs the rose”译为“心有猛虎,细嗅蔷薇”,可就有些过分啦。

此外,对于机器翻译的苛责还包括情感方面。你知道,哪怕同一句话,由于人类非常不确定性的情感注入,也会带来语气的千差万别。然而,就像一位评论者所言:“中国人可将‘你吃了么’这样的简单问句问出千回百转的意味,而机器则只会将其翻译成‘Have you eaten?’或者更加拙劣的‘Do you eat?’。但实际上,哪怕是精通双语的人员,往往也很难区分非母语一方语言中的细微情感变化。”

对于机器,我们还需要耐心等待,何况我们已经窥见了机器翻译为人类社会带来的变革。

应用场景

可以肯定,从离你最近的出国旅行,到互联网上的外贸,电商和金融等服务的国际化推广,对不少如我这般英语糟透了的人而言,语言障碍是一个天然痛点。

就拿出境自由行来说(毕竟世界那么大,每个人都想去看看),翻译软件几乎成为标配,而在更为具体的应用场景上——譬如点菜,机器翻译的角色则显得无比重要。嗯,去国外吃饭最忧伤的并不是价格,而是面对餐单时一脸无助,最后点什么菜只得听天由命。西餐餐单少有配图,且不同于中餐“三鲜丁儿”“四喜丸子”这些菜名,西餐菜名一般都直接标注原料与做法,哪怕你英文还算不错,挑出心仪菜品也颇具挑战,这时候,你可以打开翻译软件用摄像头拍摄菜名进行翻译,当然,你最好选择性拍摄,以避免看一遍菜单就花上个把小时的风险……

除了自由行,在更加广泛的应用领域上,则可以通过翻译API的二次开发,实现机器翻译的大众化使用,从而在经济层面激发巨大的商业价值。就拿百度翻译来说,其通过免费开放API支持了超过7000个第三方应用,譬如:华为将带有翻译功能的手机销往法国等30 多个国家和地区;敦煌网等电子商务网站通过百度翻译进行跨境贸易;甚至有俄罗斯购物网站用其将淘宝的商品信息翻译为俄语,为俄罗斯人民提供代购服务……

嗯,人类对不同民族之间无障碍交流的渴望远早于发明计算机的时间,而这一点在宣称自由互联的互联网时代更能彰显它的价值。

其实在我看来,机器翻译技术的真正意义,就如同搜索引擎,致力于让所有人平等便捷获取信息和服务。只要有网络,搜索引擎使得在北京的孩子跟在遥远山村的小孩获取知识的能力是一样的。机器翻译无疑与搜索引擎有着类似的特质,它使在地球任何一个角落的人不再受语言不通的束缚,自由交流和获取信息及服务。

【作者介绍:李北辰;微信公众号:future-is-coming】

标签: 机器翻译 翻译产品 翻译API 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:淘宝运营:直通车和钻展“联合”式推广营销

下一篇:2015年天猫豆腐块 淘宝搜索排名 实操案例