神经机器翻译要想突破,就得靠语言学家出手了

本分给我自由
3 人赞同了该文章

NLP笔记:现阶段,神经机器翻译基本没有语言学家什么事,都是IT用算法和语料做出来的;甚至有大咖说,每当他开除一个语言学家,他的模型就进一步。但现在神经机器翻译很酷,但是看不懂人话,继续靠语料提升性能只能是修修补补了。

接下来,神经机器翻译要想突破,就得靠语言学家出手了。

经验主义不是万能的,理性主义该发威了。


以上是个人看法,

下面是国内机器翻译泰斗级人物冯志伟教授的观点:


国际著名语言学杂志《语言》(Language)2019 年第 1 期刊登了 Pater 的文章《生成语言学和神经网络60 年:基础、分歧与融合》以及该文的 6 篇回应文章,重点讨论了基于连接主义方法的深度学习与语言学研究,特别是生成语言学研究之间的对立与融合关系。

Pater(派特)呼吁在神经网络研究和语言学之间进行更多的互动,他认为,如果生成语言学继续保持与神经网络和统计学习之间的距离,那么生成语言学便不可能实现其对语言学习机制进行解释的承诺(Pater, 2019)。

对此,Berent (贝棱特)and Marcus(马尔库斯) 认为,连接主义与生成语言学在根本上存在分歧,要么坚持连接主义的平行分布式表征对生成语法理论做出重大调整,要么两个理论同时被另外的新理论取代;没有对语言的结构化表示,就不存在两者之间的融合(Berent and Marcus, 2019)。

Dunbar (敦巴尔) 认为,深度学习与语言学研究二者融合是美好的愿望,由于神经网络内部无法解释,其学习到的语法结构也无法与生成语法中的理论加以对应,因此两者很难实现融合;除非在理论上解决神经网络与生成理论之间的具体的映射问题(Implementational Mapping Problem)(Dunbar, 2019)。

Linzen (林岑) 则对上述话题进行了拓展,认为语言学研究与深度学习可以相互促进:一方面,语言学家可以详细描写神经网络模型的语言学习能力,并通过实验加以验证;另一方面,神经网络可以模拟人类加工语言的过程,有助于语言学家研究内在制约条件的必要性(Linzen , 2019)。

我赞同Pater 和Linzen的意见,深度学习应当与语言学研究结合起来,基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来,相互促进,相得益彰,从而推动自然语言处理的进一步发展。

我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代,在自然语言处理中,我们可以把唾手可得的那些低枝头上的果实采用深度学习(神经网络)的经验主义方法采摘下来,而我们留给下一代的将是那些在自然语言处理中最难啃的处于高枝头上的硬骨头。因此,我们应当告诫下一代的学者,不要过分地迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法,我们应当让下一代学者做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,把DB和EK结合起来,把从而把自然语言处理的研究推向深入。

目前流行的深度学习(神经网络)的热潮为基于语言大数据的经验主义方法添了一把火,预计这样的热潮还会继续主导自然语言处理领域很多年,这有可能使我们延宕了向基于语言规则的理性主义方法回归的日程表。然而,我们始终认为,在自然语言处理的研究中,基于语言规则的理性主义方法复兴的历史步伐是不会改变的,基于语言数据的经验主义方法一定要与基于语言规则的理性主义方法结合起来,才是自然语言处理发展的金光大道。

图灵奖获得者辛顿(Hinton)认为,“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”,他明确地指出了自然语言理解是深度学习的发展方向,他的看法是语重心长的,值得我们深思。

发布于 2020-05-25 15:02:47
还没有评论
    旗渡客服