2024年大模型LLM还有哪些可研究的方向?
2024年大模型LLM还有哪些可研究的方向?
2024年,大模型LLM(Large Language Model)的研究方向有哪些?本文从输入、模型/范式、输出和其他四个方面展开,详细探讨了各个方向的潜在研究点。
前言
本文将从"输入、模型/范式、输出、其他"几个方面来探讨2024年大模型LLM的研究方向。其中,加粗的部分是个人认为比较看好的方向。
输入
这一节主要讨论与pre-training、instruction tuning、RLHF的经典三阶段相关的内容,也可以称为数据优化。数据的重要性自然不用多说。
- 数据优化
目前的工作基本都是采用"大规模语料 + 人工高质量数据集"的方式进行暴力求解,在输入上通过设计进行优化还是有一定可行之处的。CV领域的一些做法可以作为参考,尤其是diffusion models的相关研究。例如,Stable Diffusion从v1.4到v2.1的进化过程中,通过在不同分辨率上递进式的fine-tune来优化模型。
迁移到LLM领域,对于pre-training时的语料处理,可以采用ranking、continual learning、active learning等方法。关于data augmentation,有研究表明在LLM训练过程中向intermediate feature添加高斯噪声可以带来性能提升。这种在latent space上的data augmentation方法简单却有效,说明在数据增强方面还有很大的研究空间。
- RAG
RAG(Retrieval-Augmented Generation)是去年比较热门的研究方向,尤其是在解决大模型"幻觉"问题方面。虽然今年的研究可能会出现数量上的骤增,但预训练和微调方面仍存在研究空间。此外,模态信息的拓展也是一个值得研究的方向,尤其是将RAG方法应用于检索其他模态信息来增强生成。
模型/范式
"模型/范式"这一方面是个人比较看好的方向。目前AI巨头的动作也集中于这一块,预计2024年这一块可研究的方向比较多,当然估计也会快速地卷起来。
- LLM + Robotics
OpenAI发布的Figure 01展示了LLM在规划任务上的初步成果,这将带动相关研究的发展。学术界在这一领域也取得了一些进展,例如HuggingGPT、ToolFormer等研究。
- Agent
Figure 01的意义不仅限于robotics,它还证明了agent的想法确实可行,agent势必会成为今年的一大热点。各大厂商和学术界都在积极布局这一领域,例如Stanford的西部小镇研究。
- 统一模态生成信息
多模态大一统是CV和NLP研究者长期关注的问题。目前统一文本、图像模态的工作已经有很多,下一步的生成面向的必然是视频和3D。如何通过token这个概念表征其他模态的数据是其中的难点。
- Vision-Language Models
对于VLM来说,图像相关的工作已经日趋饱和,视频和3D必定是下一波热点的研究方向。将LLM与更多的模态信息"桥接"是可行的,但这个idea也很容易想到,个人认为VLM应该会非常卷。加上还要面对OpenAI这个大魔王,应该会有一定的研究压力。另一个值得研究的问题是跨模态信息对齐之后能做什么?
- 架构设计
架构设计方面,其实近段时间的一些工作动向也证明了目前LLM在架构设计上还有较大创新空间。比方说去年比较惊艳的Mistral-7b,包括前不久马斯克宣布开源的Grok-1等等,基本都采用MoE的架构在做,个人觉得这其实是一个比较好的开始。LLM的模型架构自2022年以来就雷打不动,绝大部分研究都在沿用前人的默认设定,而对于这些默认设定上存在的问题,绝对是有研究可做的。
其实反观diffusion models的发展也类似,从2020年DDPM推出以来,4年时间绝大部分的研究都在沿用U-Net的默认架构,今年的Sora,包括Stable Diffusion 3中首次不约而同用到了Diffusion Transformer,证明了模型架构上确实是有值得创新之处。类比到LLM上也同理。
关于Diffusion Transformer相关的讲解,可以参考我的往期文章:Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切, https://zhuanlan.zhihu.com/p/684448966。
另一方面,Scaling Law肯定是一个值得研究的方向。类似的还有关于LLM的可解释性,目前LLM大部分研究都是靠数据和算力的堆积来暴力求解,如果能够摸索出一定的理论依据,对于工业界或者是学术界来说都会是非常难得的研究。类似的方向还有LLM幻觉问题上的相关研究。
输出
- 生成内容安全问题
生成内容的安全问题其实也在逐渐受到近期研究的关注了,比方说LLaMa 2中就有特别关注这个问题。其实生成内容的安全问题涉及很多其他的应用,比方说垂类应用。无论是金融、法律、医疗,这些特定领域在内容安全性上都会比general domain的要求要更高。能给出安全性问题的一定解决方案,对于整个社区来说肯定是有贡献的。
具体解决安全问题其实跟前面提到的几个点有一定交叉,例如从数据层面上做优化、微调阶段做优化、RAG,等等,这里就不再展开了。
- 评测问题
个人认为evaluation其实是LLM研究中最值得研究的一个点,但是同时也是很难的一点。无论是现在的打榜、human evaluation、GPT打分,其实都很难全面去评价LLM,导致LLM在实际应用过程中并没有指标体现出来的那样好用。
而如果能有一个自动化的评测指标,最好能够结合LLM的理论基础进行设计,我觉得是目前社区比较需要的一个方向。当然,前面也说到,LLM的可解释性也是一个待解决的问题,相关指标的设计也同样具有挑战。
其他
- NLP经典任务
这可能是一个比较小众的点。其实也是个人一直在思考的一个问题,LLM时代下究竟怎么样做NLP的经典任务?比方说parsing、句法相关的任务,LLM的设计跟这些任务之间肯定是存在一些gap的,而怎样将language models在大规模数据上获得的能力迁移在这些经典任务上,其实相关的工作仍比较少。
- 垂类大模型
无论是工业界还是学术界,垂类大模型一直以来都是研究热点之一。垂类大模型中与前面说到的数据优化、内容安全、评测问题都高度耦合。对于不同的垂直领域,垂类大模型面临的最大问题还是domain gap。具体来说就包括很多方面了,例如特定领域数据上的问题,通常具有领域特性,但数据量有限;内容安全上,比方说金融、法律、医疗大模型,对安全性的需求都比通用大模型要高;评测问题,就拿医疗大模型举例,还需要跟专业的医疗知识结合才能有效评测,等等;技术上还涉及LLM fine-tuning、domain adaptation,等等,甚至一些领域对于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比较丰富的。
- 交叉学科
这点其实也是比较有"学术味道"的一类研究,文章工作本身更倾向于分析类而并非实验。通常将LLM与其他学科交叉进行分析,例如语言学、政治学、社会学、心理学,等等。这类分析文章实验代价通常相对较小,更侧重统计、可视化、消融实验等分析性质的实验,但同时也需要掌握相关学科的专业知识,有一定的门槛。
比较有代表性的工作在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest》,https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默:
ACL 2023 best paper的另一篇则是对LLM的政治偏见进行研究,出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》,https://aclanthology.org/2023.acl-long.656.pdf,虽然小众但是还挺有意思的:
值得一提的是,ACL 2023 best paper剩下一篇文章是对Stable Diffusion Cross-Attenion机制的研究。 包括Stanford西部小镇 《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,中也有关于AI agents交互与社会传播学的研究,例如下图中就是关于特定任务的一个case study: