斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

创作时间:

2025-01-22 01:07:26

作者:

@小白创作中心

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

2024年，人工智能（AI）领域取得了显著进展。斯坦福大学教授李飞飞团队发布的年度报告，从研究进展、技术性能、可靠性、经济影响以及在医疗和教育领域的应用等多个维度，对过去一年AI领域的发展进行了全面总结。

核心发现

AI在特定任务上已超越人类，如图像分类和语言理解，但在更复杂的任务上仍有局限。
工业界在AI研究中发挥主导作用，尤其在机器学习模型的产出上。
训练大型AI模型的成本不断上升，例如GPT-4花费约7800万美元，Gemini花费约1.91亿美元。
美国、中国和欧洲是AI模型的主要贡献者，其中中国在AI专利方面领先。
AI模型的可靠性评估缺乏统一标准，生成式AI投资激增。
AI提高了工作者的效率和质量，加速了科学和医疗的发展。
美国AI相关条款发布数量急剧增加，全球对AI潜在影响的意识增强，紧张情绪上升。

AI研究与发展

AI研究继续由工业界主导，公开源码的模型数量增加，训练成本上升。美国、中国和欧洲在AI大模型发展上占主导地位，中国在AI专利方面占据领先地位。GitHub上的AI研究资源和相关论文发表数量持续增长。从2010年到2022年，AI相关的论文发表数量逐年增加，美国在发布优秀的机器学习模型数量上保持世界首位。

技术性能

AI在特定任务上超越了人类，多模态AI模型的出现，如Google的Gemini和OpenAI的GPT-4，展示了处理图像和文本信息的能力。新的benchmarks评估集的出现，如SWE-bench和HEIM，以及人类评估的引入，如聊天机器人竞技场排行榜，反映了AI技术性能的提升。

2023年见证了多个重要AI模型的发布，包括Anthropic的Claude、OpenAI的GPT-4、Stability AI的Stable Diffusion v2等，这些模型在多项benchmarks中超越了人类水平。AI在图像分类、英语理解和自然语言推理等任务中超越了人类，但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。

新的评估集如MMMU、GPQA和ARC的出现，旨在评估AI的多学科推理能力和抽象归纳能力。尽管AI模型在这些评估中取得了一定的成绩，但与人类专家相比仍有差距。基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升，如AgentBench评估的基于LLM的25个agents。

RLHF和RLAIF是两种基于强化学习的方法，用于训练AI模型以更好地符合人类的偏好和反馈。RLAIF在生成无害对话任务中表现优于RLHF。随着时间的推移，LLM的效果有所变化。一些研究表明，随着新数据和用户反馈的加入，某些任务的效果可能出现下降。

包括prompting、OPRO和fine-tuning在内的多种技术被用来提升LLM的效果。这些技术通过不同的方法优化模型性能，如通过自然语言描述任务或减少内存需求。训练大型AI模型消耗大量资源并释放二氧化碳，对环境造成影响。尽管如此，AI系统也可以用于预测城市空气质量和优化能源使用，从而对环境产生积极影响。

AI可靠性

AI的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前，对LLM的全面标准评估存在缺陷，政治伪造内容的产生和检测成为一个问题，ChatGPT在政治上的偏见也引起了关注。

AI对经济的影响

AI对经济的影响是多方面的，包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速，AI相关工作职位数量减少，但AI降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位，AI提高了工作者的产能和效率。《财富》500强公司越来越多地讨论人工智能，特别是生成式AI。

2023年，AI领域发生了多项重大新闻，包括BioNTech收购AI公司InstaDeep、微软对OpenAI的投资、GitHub Copilot的发布、Einstein GPT和微软Office的融合、Bloomberg使用LLM进行金融数据分析等。AI相关工作在工作市场占比有所变化，美国AI工作技能的需求有所下降，但香港对AI人才的需求相对较高。全球新兴成立的AI公司数量持续增加。开发者对AI工具的使用情况显示，GitHub Copilot和ChatGPT的使用量最高，云服务平台的使用也相当普遍。