问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器翻译新范式:基于LLM的ALMA方法实现性能突破

创作时间:
作者:
@小白创作中心

机器翻译新范式:基于LLM的ALMA方法实现性能突破

引用
CSDN
1.
https://blog.csdn.net/bylander/article/details/137977383

《A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models》这篇文章介绍了一个将LLM用于机器翻译的案例研究。研究发现,经过微调的LLM在多语种机器翻译任务中表现出色,甚至优于传统的编码器-解码器结构的机器翻译模型。

研究背景

当前,LLM在各种NLP任务中表现出色,但在翻译任务中,只有GPT-3.5和GPT-4等非常大的模型才能与NLLB等最先进的编码器-解码器模型相媲美。特别是在语料资源较少的小语种方面,LLM的表现仍有不足。因此,研究者们提出了Advanced Language Model-based Translator (ALMA)方法,以解决这一问题。

方法

ALMA方法采用两阶段微调策略:

  1. 单语数据微调:使用非英语语言的单语数据对模型进行微调,以提升模型在非英语语言上的性能。同时,添加少量英语单语数据,以防止模型遗忘已有的英语知识。

  2. 高质量并行数据微调:在第一阶段的基础上,使用少量高质量的并行数据(即两种语言的翻译对)进行微调。数据集来自WMT测试数据和Flores-200开发和测试集的人工编写数据集。探索了全权重(Full-Weight)和轻量级低秩适应(LoRA)两种微调方法。

实验结果

实验结果显示,ALMA-13B-LoRA在多个语种的翻译任务中表现优异,优于之前的所有研究,包括NLLB-54B和GPT-3.5-D,但略逊于GPT-3.5-T和GPT-4。具体性能对比见下表:

研究发现

研究中发现了一些有趣的现象:

  1. 较多的并行数据反而会让翻译性能变差,这可能是因为过多的并行数据会冲刷掉模型预先存在的知识,导致灾难性的遗忘。
  2. 仅使用1B的单语数据,ALMA-13B就能达到与NLLB-54B和GPT-3.5-D相当的性能。使用16个MI200 GPU,大约需要19个小时就可以完成训练。
  3. 更多的单语数据可以进一步提升模型在跨语言任务上的性能,单语数据的增加与性能提升之间存在一致的趋势。
  4. 消融研究表明,单语数据和平行数据两个阶段对性能都带来提升,并且平行数据的质量对性能也有明显影响。

启示

这个案例表明,LLM通过大量单语数据的学习后,只需要少量的并行数据指导,就能很好地完成翻译任务。这可能是因为LLM在预训练阶段就学到了语言背后的语义信息,而不同语言的语义信息具有一定的共通性。

跨学科视角

这一发现与神经科学领域的研究不谋而合。斯坦尼斯拉斯·迪昂在《脑与阅读》中提到的"神经元再利用"假说指出,人类大脑通过再利用视觉区域的功能来识别文字,这种能力具有跨文化的普遍性。北邮杨义先/钮心忻教授在《人工智能未来简史》中提到,脑电波读心术可能实现全语种翻译,因为不同语言在大脑中的"地图"是相通的。

现实意义

LLM的这种能力为小语种带来了新的发展机遇。例如,阿尔巴尼亚使用OpenAI的工具加速了其加入欧盟的进程,将整个过程缩短了5.5年。这表明LLM不仅不会发展少数大国的语言,反而能够为小语种提供更多便利和发展机会。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号