问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

2024年引用次数排名前TOP10的AI论文

创作时间:
作者:
@小白创作中心

2024年引用次数排名前TOP10的AI论文

引用
CSDN
1.
https://m.blog.csdn.net/sexy19910923/article/details/144596097

人工智能 (AI) 领域正以前所未有的速度发展,世界各地的研究人员都在不断突破可能的界限。2024 年,人工智能研究界发表了大量开创性的论文,引起了整个行业的关注。在这篇全面的博客文章中,我们将深入探讨今年被引用次数最多的 10 篇人工智能研究论文,探索塑造这一充满活力的领域未来的关键见解和创新。

数据来源

https://arxiv.org/

为了编制这份名单,我们分析了流行的人工智能研究平台arXiv的引用数据。截至 2024 年 11 月,arXiv 上的人工智能类别 (cs.AI) 共发表了 32,420 篇论文,比上一年的 17,420 篇增加了一倍多。这种指数级增长凸显了人工智能领域的快速进步。

虽然 arXiv 不是 AI 研究的唯一平台,但它被广泛认为是该领域最新、最有影响力论文的首选来源。通过关注 arXiv 上被引用次数最多的论文,我们可以获得有关最受关注和推动最重大突破的 AI 领域的宝贵见解。

值得注意的是,本文中提供的引用计数在撰写时是准确的,但随着越来越多的研究人员发现和巩固这些论文中提出的开创性工作,引用计数可能会发生变化。

2024 年引用次数最多的 10 篇 AI 研究论文

10.Deep Seek Coder: Transparent and State-of-the-Art Code-Specific Pre-Training

机构:DeepSeek-AI

论文《Deep Seek Coder: Transparent and State-of-the-Art Code-Specific Pre-Training》被引用 301 次,是 2024 年被引用次数第 10 的人工智能研究论文。该论文于 2024 年 1 月发表,重点介绍了 Deep Seek Coder 模型的强大功能,该模型于 2023 年 11 月公开发布。

本文的关键创新在于对包含两万亿个 token 的海量数据集进行广泛的代码预训练,这使得 Deep Seek Coder 模型能够在代码相关任务中取得最佳结果,甚至超越 Codex 和 GPT-3.5 等闭源模型。本文还强调了 Deep Seek Coder 训练过程的透明度,为研究界提供了宝贵的见解。

9.A Survey of Large Language Models

论文《大型语言模型调查》以 392 次引用排名第 9,全面概述了截至 2024 年 2 月的大型语言模型 (LLM) 研究状况。对于希望了解 LLM 领域最新进展的研究人员和从业人员来说,这篇论文是一份宝贵的资源。

本综述涵盖了广泛的主题,包括法学硕士的基本概念、架构、培训技术和应用。通过综合最新的研究,本文对法学硕士的现状和未来发展方向提供了全面的了解。

8.KAN: Kolmogorov-Arnold Networks

机构:麻省理工

论文“KA N:一种新颖的机器学习架构”以 次引用排名第 8,介绍了一种有争议但前景光明的新技术,称为 KAN,即 Kov Arnold 网络。在发表时,该架构的基线尚未经过适当的训练,导致人们对其实际性能产生了一些怀疑。

然而,KAN 论文已成为 2024 年最受欢迎的新型架构,展示了这种新机器学习方法的潜力。

7.The Qwen 2 Model Series: Scaling Up Mixture of Experts

机构:阿里巴巴

排名第七的 Qwen 2 模型系列技术报告论文引用量达 405 次,介绍了一系列开源大型语言模型和多模态模型,参数范围从 0.5 亿到 720 亿。这篇由阿里巴巴于 2024 年 9 月发表的论文详细阐述了这些模型的训练过程和性能,包括使用混合专家架构。

混合专家方法是本文的重点,该方法涉及通过不同的神经网络路由输入,以更好地存储和处理信息。

6.The Phi-3 Model Series: Tiny Yet Capable

机构:微软

微软的 Phi-3 模型系列技术报告论文以 558 次引用排名第六,展示了该公司在开发高性能但紧凑的语言模型方面的持续努力。Phi 系列长期以来以专注于高质量的预训练数据(例如学术论文)而闻名,而最新版本正是在此基础上构建的。

Phi-3 论文深入分析了这些超小型但功能强大的模型的训练过程和性能,这对于在资源受限的设备或边缘计算场景中部署尤其有用。

5.Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

机构:谷歌

谷歌于 2024 年 3 月发表的“Gemini 1.5”论文以 731次引用排名第五,在大型语言模型领域独树一帜。这篇论文的一大亮点是该模型能够处理前所未有的 1000 万个 token 的上下文长度,以及令人印象深刻的生成速度。

上下文长度和生成能力的突破震惊了整个行业,因为之前最先进的模型 Claw 2.1 只能处理 200,000 个 token。Gemini 1.5 论文深入介绍了实现这些令人印象深刻的壮举的新颖架构设计,展示了 Google 在大型语言模型领域的持续领导地位。

4.Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

机构:华中科技大学、地平线机器人、北京人工智能研究院

2024 年 1 月发表的“Vision Mamba”论文以 765 次引用排名第四,该论文以原始 Mamba 论文的开创性工作为基础,该论文于 2023 年 12 月发表,目前引用量为 1,382 次。

Vision Mamba 论文探讨了 Mamba 架构在视觉任务中的应用,Mamba 架构是一种线性复杂度的注意力语言建模替代方案。这种创新方法有可能彻底改变我们处理计算机视觉问题的方式,论文详细介绍了这项新技术的实现和性能。

3.Gemma: Open Models Based on Gemini Research and Technology

机构:谷歌

排名第三的论文“Gemma”被引用次数达 677 次,由谷歌于 2024 年 3 月发表,重点介绍了该公司为解决 AI 安全问题所做的努力。Gemma 是一个 20 亿和 70 亿参数的开源模型,源自谷歌的 Gemini 模型,重点强调 AI 安全性和一致性。

尽管谷歌在模型安全方面的记录并非没有受到批评,但 Gemma 的论文已成功引起研究界的极大关注。对模型架构和训练过程的详细见解为围绕人工智能安全和负责任开发的持续讨论做出了宝贵贡献。

2.Mixtral of Experts

机构:Mistral AI 团队

论文“Modern OG Mixture of Experts”以 1,350 次引用排名第二,随着 MrAI 发布 Mixr A7B 模型,该论文已成为 2024 年的主流技术。虽然混合专家方法并不完全是新方法,但今年它的广泛采用是人工智能领域的一项重大发展。

本文全面概述了专家混合技术,该技术涉及通过不同的神经网络路由输入,以更好地存储和处理信息。这种方法在各种应用中都显示出了良好的效果,本文中的详细见解无疑促进了它越来越受欢迎。

1.The Llama 3 Herd of Models

机构:Meta AI

截至 2024 年 11 月,Meta 于 2024 年 7 月发表的“Llama-3”论文以惊人的 1,719 次引用位居榜首,无疑是今年最具影响力的 AI 研究论文。这份长达 92 页的巨著是一座名副其实的信息金矿,为训练大规模语言模型提供了详细的蓝图。

Llama-3 论文涵盖了广泛的主题,包括硬件优化、预训练技术,甚至安全对齐。Meta 基本上分享了创建多达 450 亿个参数的最先进的语言模型的确切步骤,因此这篇论文对于任何对大型语言模型的最新进展感兴趣的人来说都是必读之作。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号