2025年AI与数据工程领域十大趋势前瞻
2025年AI与数据工程领域十大趋势前瞻
2024年,业内专家曾预言这将是生成式AI的里程碑之年。然而,站在2024年的尾声,我们发现虽然部分预测已经实现,但通用人工智能的发展仍需更多时间。本文将从行业趋势剖析的视角,深入探讨AI和数据工程领域的十大关键趋势,帮助读者了解2025年AI技术的发展方向。
Image credit: Monte Carlo
01 我们正处于一个缺乏逻辑推理的世界(Tomasz)
在人工智能敌托邦的第三个年头,我们观察到企业开始在预期的一些领域创造价值------然而,并非全方位的突破。Tomasz认为,当前AI可以分为三个主要类别:
- 预测:能够补全句子、修正代码错误等的AI"copilots"。
- 搜索:利用大语料库回答问题的工具。
- 推理:能够处理复杂任务的多步骤操作流程。
尽管AI"copilots"和搜索功能取得了一定的成就(尤其是前者),但推理模型的发展似乎还跟不上步伐。Tomasz指出,这其中有一个显而易见的原因。那就是模型的准确性。
Tomasz解释说,当前的模型很难有效地将任务分解成不同的步骤,除非它们已经多次遇到过相同的模式。而对于这些模型可能承担的大部分工作来说,这种情况并不常见。
"目前,如果一个大模型被要求制作一份财务计划与分析图表,它能够完成。但如果有任何实质性的变化------比如,我们从按软件计费转变为按使用量计费,模型就会不知所措。"
因此,目前的情况是,AI copilots和部分准确的搜索结果占据了上风。
02 流程 > 工具(Barr)
新工具的价值,取决于支撑它的流程是否得力。随着"现代数据技术栈"的逐年演变,数据团队有时会发现自己永远处于一种疲于奔命的状态。他们过分关注平台能做什么,却忽略了如何高效使用这些功能这一更为关键的问题。
然而,随着企业界逐渐迈向production-ready AI(译者注:"production-ready AI"是指AI系统已经准备好在实际业务环境中投入使用,能够为企业或用户提供价值),如何将这些新工具投入使用变得尤为迫切。
以数据质量为例,2024年AI所需数据的地位日益凸显,数据质量也随之成为焦点。面对即将到来的production-ready AI,企业数据领导者无暇在数据质量菜单中挑挑拣拣------这里试试dbt测试,那里使用点解决方案。他们现在就需要交付价值,迫切需要能够立即上线并有效部署的可信赖解决方案。
面对临近的production-ready AI,企业数据领导者没有时间在数据质量菜单中挑三拣四。他们已经肩负着交付业务价值的重任,急需能够立即上线并有效部署的可信赖解决方案。
现实情况是,即使你拥有市场上最尖端的数据质量平台------最先进的automations技术,最优秀的copilots系统,最完美的集成(integrations),但如果不能迅速让企业运转起来,那么你所拥有的不过是预算表上的一个细列项目,以及桌面上一个新增的标签页而已。
在未来一年内,我预计数据团队会更倾向于采用经过验证的端到端解决方案,而不是零散的工具集,以便集中精力应对数据质量所有权、事件管理以及长期领域赋能等更关键的挑战。
能够满足这些核心需求的解决方案,将在AI领域脱颖而出,赢得最终的胜利。
03 AI正在提升投资回报率------但并非直接增加收入(Tomasz)
与所有数据产品一样,GenAI的价值体现在降低成本或创造收入两个方面。在创造收入方面,可能会涉及到AISDRS、数据增强设备或是推荐系统等技术。Tomasz指出,这些工具虽然能够拓宽销售渠道......但这个渠道的质量可能并不理想。因此,如果AI未能直接增加收入,那么它应当致力于降低成本------在这一点上,AI这项新兴技术已经有所建树。
"实际上,没有多少公司因此而关闭业务。它主要的作用在于降低成本。例如,Klarna裁减了三分之二的员工。微软和ServiceNow的工程效率提升了50--75%。"
Tomasz认为,AI应用如果符合以下三个条件之一,就有可能实现成本降低:
- 工作内容重复性高
- 劳动力市场面临挑战
- 招聘需求迫切
Tomasz提到的一个有效利用AI创造新收入的例子是EvenUp------这是一家自动化处理需求函的法律公司。像EvenUp这样支持模板化但提供高度定制化服务的公司,可能会在现有AI技术的帮助下,获得显著的效益提升。
04 AI的普及速度低于预期------但领导者们正在静待时机(Tomasz)
与去年纷纷提出"AI战略"的热潮相比,如今的领导者们似乎对AI技术有了更为审慎的态度。
"去年曾出现过一股浪潮,人们为了一睹为快而尝试推出各种软件。他们的董事会都在询问他们的人工智能战略。但现在,那些早期的尝试中有很多人已经放弃了。"
有些企业在初步尝试中并未发现AI的价值,而有些则因为技术本身的迅速发展而感到力不从心。Tomasz指出,这是投资AI公司面临的最大挑战之一。并非AI技术理论上没有价值,而是企业尚未掌握如何在实践中有效利用它。
Tomasz相信,下一阶段的AI普及将不同于第一波,因为领导者们将更明确自己的需求,以及如何满足这些需求。
就像在大幕拉开前的最后一次彩排,团队们已经知道他们在寻找什么,他们已经解决了与法律和采购相关的许多问题------尤其是数据丢失和数据保护相关的问题,他们正蓄势待发,只等合适的机会出现。
未来的挑战将是什么?"如何更快地发掘并实现价值?"
05 Small data是AI的未来(Tomasz)
开源(open source)与托管(managed)之争是一个老生常谈的话题,但当涉及到AI时,这个问题变得更加复杂。在企业层面,这不仅仅关乎控制权或互操作性,尽管这些因素确实存在,但更关键的是运营成本。
Tomasz认为,最大的B2C企业可能会直接使用现成的模型,而B2B企业则更倾向于开发自己的专有模型或采用开源模型。
"在B2B领域,你会看到整体上更小的模型,以及更多的开源模型。这是因为运行一个小的开源模型成本要低得多。"
但小模型的优势不仅仅在于成本,它们也能提升性能。像Google的大模型被设计用于应对各种场景,用户可以问大模型几乎任何问题,因此这些模型需要在庞大的数据语料库上进行训练,以提供相关的回答,比如水球、中国历史或法式吐司。
然而,模型训练的主题越多,就越容易混淆不同的概念------随着时间的推移,输出的错误也会越多。
"你可以使用像llama 2这样拥有80亿参数的模型,然后用10,000张support tickets(译者注:"10,000 support tickets"指的是10,000张支持工单,指企业在客户服务或技术支持过程中记录的问题或请求。每张工单可能包含客户遇到的问题、解决方案、沟通记录等信息。)对其进行微调,它的表现会显著提升,"Tomasz解释道。
此外,ChatGPT和其他托管解决方案频繁面临法律挑战,原因是它们的创建者可能并未合法获得用于训练模型的数据。在许多情况下,这种指控并非空穴来风。
除了成本和性能,这一问题可能会对专有模型的长期采用产生影响------尤其是在高度监管的行业,但其具体影响程度仍不确定。
当然,专有模型并未坐以待毙,Sam Altman肯定也不会轻言放弃。专有模型已经在通过大幅降价来刺激需求。像ChatGPT这样的模型已经将价格降低了约50%,并预计在未来6个月内再降50%。这种成本削减可能是B2C企业在AI军备竞赛中竞争的关键助力。
06 分析师和数据工程师的界限正在模糊(Barr)
在扩展数据管道生产时,数据团队通常会面临两大挑战:分析师的技术经验不足,而数据工程师的时间有限。这似乎是AI可以解决的问题。
在我们展望数据团队可能如何发展时,我认为有两个主要趋势可能会在2025年推动工程(engineering)和分析(analytical)职责的整合:
- 需求增长------随着业务领导者对数据和AI产品的需求不断增加,数据团队将不得不用更少的资源完成更多的任务。为了尽量减少瓶颈,领导者自然会授权原本专业化的团队为其数据管道及其利益相关者承担更多责任。
- 提高自动化水平------新需求总是会催生新创新。(在这种情况下,这意味着是AI驱动的数据管道。)随着技术变得更加自动化,工程师将能够用更少的资源完成更多工作,而分析师也将能够独立处理更多任务。
这一逻辑很简单------随着需求的增长,数据管道自动化自然会随之发展以满足需求。随着自动化技术的进步,创建和管理这些数据管道的门槛将降低。技能差距将缩小,而创造新价值的能力将提升。
向自助式(self-serve)AI驱动的数据管道管理迈进,意味着每个人工作中最繁琐的部分将被自动化取代------而他们在这个过程中创造和展示新价值的能力将得到提升。这听起来会是一个美好的未来。
07 合成数据很重要------但它是有代价的(Tomasz)
你可能见过"蛇吞象"的画面。如果仔细观察,会发现它与当代AI的发展有着惊人的相似之处。
目前互联网上大约有21--25万亿个token(单词)。当前正在使用的AI模型已经消耗了所有这些数据。为了让AI继续进步,它需要在一个更大的数据语料库上进行训练。数据越多,输出的上下文就越丰富,准确性也就越高。
那么,当AI研究人员用完了训练数据时,他们会做什么呢?
他们会自己制造数据。
随着训练数据变得越来越稀缺,像OpenAI这样的公司认为,合成数据将成为未来训练模型的重要组成部分。在过去两年里,整个行业已经围绕这一愿景发展起来------包括像Tonic这样生成合成结构化数据的公司,以及Gretel这样为金融和医疗保健等受监管行业创建合规数据的公司。
但合成数据是长期解决方案吗?可能不是。
合成数据的工作原理是利用模型来创建人工数据集,这些数据集模拟了人们可能在自然环境中找到的数据,然后用这些新数据来训练模型。在小范围内,这确实很有意义。但正如俗话所说,"过犹不及"......
你可以将其类比为"上下文营养不良(contextual malnutrition)"。就像食物一样,如果新鲜的有机数据是模型训练中最有营养的,那么从现有数据集中提炼出来的数据,本质上一定比原始数据"营养"更少。
加一点人工调味料是可以的------但如果长期依赖合成训练数据,而没有引入新的"天然"数据[1],模型最终会失效(或者至少,其表现会明显下降)。
这不是"是否"会发生的问题,而是"何时"会发生的问题。
根据Tomasz的说法,我们离模型崩溃还很远。但随着AI研究不断将模型推向其功能极限,不难想象AI最终会达到其功能平台极限------可能比我们预期的更早。
08 非结构化数据技术栈将崭露头角(Barr)
在生产中利用非结构化数据的想法并不新鲜------但在人工智能时代,非结构化数据已经扮演了全新的角色。根据IDC的一份报告,目前只有大约一半的企业非结构化数据得到了分析[2]。
这一切即将改变。
说到生成式人工智能,企业的成功在很大程度上取决于用于训练、微调和增强的大量非结构化数据。随着越来越多的企业希望将人工智能应用于企业使用场景,对非结构化数据,以及新兴的"非结构化数据技术栈[3]"的热情将继续增长。
一些团队甚至正在探索如何使用额外的LLMs(大语言模型)来为非结构化数据添加结构[4],以扩展其在其他训练和分析使用场景中的用途。
识别企业中存在的非结构化第一方数据,以及如何为利益相关者激活这些数据------对于寻求展示数据平台商业价值的数据领导者来说,是一个全新的机遇(并希望在此过程中为优先计划争取到一些额外的预算)。
如果说2024年是探索非结构化数据潜力的一年,那么2025年将完全是实现其价值的一年。问题是......哪些工具将脱颖而出?
09 Agentic AI对话表现出色------但部署却成问题(Tomasz)
如果你最近在风投圈子里转悠,可能会经常听到两个流行词汇:"copilot",这其实是指一种用于完成单个任务的AI(比如"修正我那糟糕的代码"),以及"agents",这是一种能够收集信息并据此执行多步骤任务的工作流程(例如"撰写关于我那糟糕代码的博客,并发布到我的WordPress上")。
2024年,AI copilots确实取得了不小的成就(问问Github、Snowflake、微软的paperclip团队就知道了),但AI agents的表现又如何呢?
尽管Agentic AI给客户支持团队带来了不少乐趣,但看起来它在短期内也就只能做到这个程度。这些早期的AI agents虽然标志着我们向前迈出的重要一步,但其工作流程的准确性仍然不尽人意。
要知道,对于人工智能来说,75%-90%的准确率已经是最先进的水平了,大多数AI的水平相当于高中生。如果三个步骤的准确率在75--90%,那么最终的准确率可能只剩下50%左右。
我们训练大象画画的准确率都比这高。
大多数AI agents如果以目前的性能投入生产,远不能为企业带来收益,很可能还会带来负面影响。Tomasz认为,我们需要先解决这个问题。
重要的是能够谈论这些AI agents,还没有人能够在项目演示之外取得过任何成功。硅谷的人们或许喜欢谈论AI agents,但这种讨论并不能转化为实际的性能表现。
10 数据管道规模不断扩大------但质量保障并未同步提升(Tomasz)
"在一次与众多AI领域领导者的晚宴上,我询问了有多少人对输出结果的质量感到满意,结果无人响应。在确保输出一致性方面,我们确实面临着严峻的质量挑战。"
Monte Carlo每年都会调查[5]数据专家的真实数据质量状况。今年,我们将焦点对准了AI的影响范围,得到的信号非常明确。
数据质量风险正在演变,但数据质量管理却未能跟上步伐。
"我们观察到一些团队正在大规模构建向量数据库或嵌入模型,规模化应用SQLLite,共计1亿个小数据库。它们开始在CDN层进行架构设计,以运行这些小型模型。iPhone也将搭载机器学习模型。我们预计将看到数据管道总数的大幅增长,但每个管道处理的数据量会更小。"
微调模式将导致企业内部数据管道数量急剧增加。然而,数据管道规模越大,保证数据质量就越发困难。
数据质量与数据管道的数量和复杂度直接相关。数据管道越多(且越复杂),出现问题的几率就越高,而及时发现问题的可能性就越小。
本文原文来自Towards Data Science。