机器翻译面临的最大困难是无法破解黑箱问题。
机器翻译出生到现在,也有几十年的历史了,家族中先后有几个兄弟,比如词典机器、实例机器、规则机器、统计机器等,几个兄弟奋斗几十年,学习成绩也就混个不入流。
忽然几年前,神经机器横空出世,一下子把机器翻译质量拉升了不止一个档子,似乎就要问鼎班级学霸了,速度快的不要不要的。
神经机器的神通从哪里来,靠的是神经机器网络算法,也就是NMT。其实神经机器网络算法早就有了,只是以前算力太小,算局太少,所以NMT发挥不出实力。近年来,算力大增,双语语料大增,NMT就到翻译界试验一把,结果效果出奇得好,一下子将机器翻译带进了新时代。
但是神经机器翻译闪亮之后,却发现很难再有什么进步,为何?因为神经网络算法,是机器在黑箱里进行语言运算,人不能观察和干预。也就是说,它算对了,不知道为何对了,自然无法总结经验;它算错了,不知道为何错了,自然无法改进。
因此,不论你是多高级的专家,你都无法进一步提升神经机器的翻译性能,除非真的找到了突破黑箱的办法。计算算法都一样,语料也大差不差,那么各个机器厂商的机器翻译能力实际都差不多,人是很难判断出差距的。
虽然各个机器都没什么差距,但是各个厂商为了营销,都在不断说自己超越了谷歌;但可笑的是,谷歌机器被N多个机器号称超越了,但是知道现在各个机器还都在跟谷歌机器比,为何不去跟更厉害的机器比呢?
在法律翻译领域,能不能出来一个神勇的机器呢?黑箱不突破,没有真正的法律机器翻译;有人说他们用法律专业语料做个增强训练,提高法律机器翻译性能。理论上可以,但是就把地球上的所有的中英法律翻译语料积累到一起,也不够机器吃的,何况根本就收集不了多少。所以,就法律机器翻译引擎本身,很难提升什么,但是作为法律翻译服务者,却可以发展周边技术和周边服务去更好的服务客户和用户。