Arena：从狼人杀视角评估LLM 基准潜力

创作时间:

作者:

@小白创作中心

Arena：从狼人杀视角评估LLM 基准潜力

引用

CSDN

https://blog.csdn.net/AI_Conf/article/details/140671406

大语言模型（LLM）是当前人工智能领域的研究热点，其在自然语言处理任务中展现出的强大能力引起了广泛关注。本文精选了5篇关于LLM领域的最新研究论文，从多个角度探讨了LLM的能力、优化、对齐和评估方法，内容涉及泛化与记忆的关系、模型压缩技术、基于知识蒸馏的优化、通过狼人杀游戏进行模型评估以及长上下文推理效率优化等前沿话题。

1.大规模语言模型的泛化与记忆能力研究

这篇论文探讨了大规模语言模型（LLM）如何利用大规模预训练文本语料库来实现其能力，并研究了预训练的LLM在翻译、问答和多项选择推理等任务中，泛化与记忆之间的相互关系。通过对其训练数据进行全面的n-gram分析，研究发现，随着模型规模的增加，与任务相关的n-gram对数据变得越来越重要，有助于提高任务性能，减少记忆，增强泛化能力，并出现新的能力。研究结果支持这样一种假设：LLM的能力源于充分任务相关的预训练数据之间精巧的记忆与泛化的平衡，并指导了更大规模分析的路径，以进一步改进我们对这些模型的理解。

链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a51b5/?f=cs

2.通过剪枝和知识蒸馏产生紧凑型语言模型

本文研究了通过剪枝和知识蒸馏产生紧凑型语言模型的方法。目前，针对不同部署规模和大小的大型语言模型（LLM）是通过从头开始训练每个变体来生产的，这需要大量的计算资源。作者探讨了通过剪枝现有LLM并使用部分比例（小于3）重新训练的方法，以替代重复的全量训练。为此，作者通过详细实证探索了每个轴上的剪枝策略、轴组合方法、蒸馏策略以及到达最优压缩架构的搜索技术，制定了一套实用且有效的LLM压缩最佳实践，这些实践结合了深度、宽度、注意力和多层感知器剪枝与基于知识蒸馏的重新训练。使用这份指南，作者将Nemotron-4系列LLM压缩了2-4倍，并将其性能与其他同类大小的模型在多种语言建模任务上进行比较。使用我们的方法从已经预训练的15B模型派生出8B和4B模型，每个模型所需训练的令牌数比从头开始训练少40倍；这使得训练整个模型家族（15B、8B和4B）的计算成本节省了1.8倍。Minitron模型在训练时间比从头开始训练少得多，性能与其他社区模型（如Mistral 7B、Gemma 7B和Llama-3 8B）相当，并且优于文献中的最先进压缩技术。

链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a5007/?f=cs

3.通过最佳N个蒸馏对齐LLMs

本文介绍了一种新的强化学习算法Best-of-N Distillation（BOND），旨在模拟Best-of-N采样策略，该策略在推理时从多个候选生成中选择最佳的一个，从而大大提高大型语言模型的质量和安全性，同时避免Best-of-N在推理时的显著计算开销。BOND是一种分布匹配算法，通过使策略生成的生成分布与Best-of-N分布更接近来实现。研究使用Jeffreys散度（一种前向和后向KL散度的线性组合）来平衡模式覆盖和模式寻求行为，并推导出一个利用移动锚点提高效率的迭代公式。通过在抽象摘要和Gemma模型上的实验，证明了该方法及其几个设计选择的有效性。将Gemma策略与BOND对齐，在多个基准测试中，其性能超过了其他RLHF算法。

链接：https://www.aminer.cn/pub/669f0e2701d2a3fbfc0a4fb2/?f=cs

4.狼人arena：通过社会推理游戏评估LLM

本文提出了一种新框架“狼人 arena”，用于通过经典的社会推理游戏“狼人杀”的视角评估大型语言模型（LLM）。在“狼人 arena”中，LLM 模型相互竞争，操控游戏的复杂动态，包括欺骗、推理和说服。该框架引入了一个基于出价的动态轮流系统，模仿现实世界中个体策略地选择发言时机。通过一个以 Gemini 和 GPT 模型为参赛者的竞技场式锦标赛来展示该框架的实用性。研究结果揭示了模型在策略推理和沟通方面的不同优势和劣势。这些发现突显了“狼人 arena”作为一种具有挑战性和可扩展性的 LLM 基准的潜力。

链接：https://www.aminer.cn/pub/669dbc7501d2a3fbfca4130c/?f=cs

5.LazyLLM：动态token修剪以实现高效长上下文LLM推理

这篇论文介绍了一种名为LazyLLM的新方法，旨在提高长上下文大型语言模型（LLM）的推理效率。现有的基于Transformer的大型语言模型推理过程分为两个阶段：预填充阶段和解码阶段。对于长提示，预填充阶段必须计算所有token的KV缓存，这会显著增加生成第一个token所需的时间，从而成为生成过程的瓶颈。论文提出了一个问题：是否所有提示token都是生成第一个token所必需的。为了解答这个问题，论文引入了LazyLLM方法，该方法在预填充和解码阶段只选择性地计算对下一个token预测重要的token的KV。与一次性修剪提示的静态修剪方法不同，LazyLLM允许语言模型在不同生成步骤中动态选择不同子集的token，即使它们可能在之前的步骤中被修剪。在各种任务的标准数据集上的大量实验表明，LazyLLM是一种通用方法，可以与现有语言模型无缝集成，无需微调即可显著加速生成过程。例如，在多文档问答任务中，LazyLLM将LLama 2 7B模型的预填充阶段加速了2.34倍，同时保持准确率。

链接：https://www.aminer.cn/pub/669dbc7501d2a3fbfca413af/?f=cs

AMiner AI入口：

https://www.aminer.cn/chat/g/explain?f=cs

热门推荐

企业和个人做视频号分别该如何定位？