机器翻译新范式：基于LLM的ALMA方法实现性能突破

创作时间:

作者:

@小白创作中心

机器翻译新范式：基于LLM的ALMA方法实现性能突破

引用

CSDN

https://blog.csdn.net/bylander/article/details/137977383

《A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models》这篇文章介绍了一个将LLM用于机器翻译的案例研究。研究发现，经过微调的LLM在多语种机器翻译任务中表现出色，甚至优于传统的编码器-解码器结构的机器翻译模型。

研究背景

当前，LLM在各种NLP任务中表现出色，但在翻译任务中，只有GPT-3.5和GPT-4等非常大的模型才能与NLLB等最先进的编码器-解码器模型相媲美。特别是在语料资源较少的小语种方面，LLM的表现仍有不足。因此，研究者们提出了Advanced Language Model-based Translator (ALMA)方法，以解决这一问题。

方法

ALMA方法采用两阶段微调策略：

单语数据微调：使用非英语语言的单语数据对模型进行微调，以提升模型在非英语语言上的性能。同时，添加少量英语单语数据，以防止模型遗忘已有的英语知识。
高质量并行数据微调：在第一阶段的基础上，使用少量高质量的并行数据（即两种语言的翻译对）进行微调。数据集来自WMT测试数据和Flores-200开发和测试集的人工编写数据集。探索了全权重（Full-Weight）和轻量级低秩适应（LoRA）两种微调方法。

实验结果

实验结果显示，ALMA-13B-LoRA在多个语种的翻译任务中表现优异，优于之前的所有研究，包括NLLB-54B和GPT-3.5-D，但略逊于GPT-3.5-T和GPT-4。具体性能对比见下表：

研究发现

研究中发现了一些有趣的现象：

较多的并行数据反而会让翻译性能变差，这可能是因为过多的并行数据会冲刷掉模型预先存在的知识，导致灾难性的遗忘。
仅使用1B的单语数据，ALMA-13B就能达到与NLLB-54B和GPT-3.5-D相当的性能。使用16个MI200 GPU，大约需要19个小时就可以完成训练。
更多的单语数据可以进一步提升模型在跨语言任务上的性能，单语数据的增加与性能提升之间存在一致的趋势。
消融研究表明，单语数据和平行数据两个阶段对性能都带来提升，并且平行数据的质量对性能也有明显影响。

启示

这个案例表明，LLM通过大量单语数据的学习后，只需要少量的并行数据指导，就能很好地完成翻译任务。这可能是因为LLM在预训练阶段就学到了语言背后的语义信息，而不同语言的语义信息具有一定的共通性。

跨学科视角

这一发现与神经科学领域的研究不谋而合。斯坦尼斯拉斯·迪昂在《脑与阅读》中提到的"神经元再利用"假说指出，人类大脑通过再利用视觉区域的功能来识别文字，这种能力具有跨文化的普遍性。北邮杨义先/钮心忻教授在《人工智能未来简史》中提到，脑电波读心术可能实现全语种翻译，因为不同语言在大脑中的"地图"是相通的。