跟AI聊天能及时获取可靠新闻吗?路透社做了一个测试
跟AI聊天能及时获取可靠新闻吗?路透社做了一个测试
大型语言模型(LLMs)通常不能用作新闻来源,部分原因是它们是根据来自网络的旧数据进行训练的。然而,一些生成式人工智能聊天机器人——如 ChatGPT 和 Google Bard——连接到网络,可以实时检索信息以响应用户提示。从理论上讲,这使得使用一些生成式人工智能聊天机器人从已建立的媒体和其他来源的网站获取最新的在线新闻成为可能。
目前很少有人使用人工智能聊天机器人来获取新闻。其中一个原因是,使用最广泛的生成式人工智能 ChatGPT 仅针对付费“企业”订阅者连接到网络。然而,未来的生成式人工智能工具似乎很有可能作为标准连接到网络,它们是否能够可靠地从网络检索和呈现最新信息的问题将变得非常重要。
今年一季度,路透社新闻研究所发起“AI如何回应用户的新闻获取需求”测试研究项目。该项目测试了两个使用最广泛的生成式人工智能 (AI) 聊天机器人——ChatGPT 和 Bard(现在称为 Gemini):如何为要求从特定渠道获得前五名新闻头条的用户提供最新消息。
根据对 10 个国家/地区收集的 ChatGPT 和 Bard 的 4,500 个标题请求(900 个输出)的分析,项目发现:
当被提示提供来自特定媒体的当前头条新闻时,ChatGPT 有 52-54% 的时间返回非新闻输出(几乎总是以“我无法”式消息的形式)。Bard则在95%的时间里都是这样的反馈。
对于 ChatGPT,只有 8-10% 的请求返回了当时该媒体主页上的头条新闻。这意味着,当 ChatGPT 确实返回类似新闻的输出时,提供的标题大多数时候并不涉及当前的头条新闻。
在剩下的请求中,大约三分之一(30%)返回的标题提到了相关新闻媒体的真实、现有的故事,但并非最新头条新闻。
约有3%的ChatGPT生成的内容包含了只能在其他媒体网站上找到的真实故事标题。另外3%的生成内容非常模糊和含糊,无法与现有的故事相匹配。这些生成的内容也可以被视为一种幻觉形式。
ChatGPT 的输出在很大程度上受到新闻网站是否选择阻止它的影响,并且来自相同提示的输出可能会随着时间的推移而发生变化,原因用户不清楚。
从ChatGPT生成的类新闻内容中,大多数(82%)包含了指向相关媒体的引用链接,但大部分时间(72%)这些链接指向的是主页,而不是具体的新闻故事(10%)。
尽管我们在分析中发现了很多实际的限制和缺陷,并且我们认为性能可能在变化(甚至可能下降),但重要的是要再次强调,在少数情况下,聊天机器人提供了与请求完全匹配的输出,即给出了指定新闻网站的前五条头条新闻,而且是当时的最新消息。但它们显然并非总是如此准确地完成我们提出的摘要要求,性能可能过于不一致和不可靠,无法形成用户习惯。
准确的输出示例,“我无法做到”的回应以及拒绝特定聊天机器人访问其内容的发布商之间的输出差异,提醒我们:生成式AI在被要求提供新闻时产生的结果不仅取决于涉及的语言模型的技术能力,还取决于技术公司和新闻发布商在管理通常已经复杂且具有争议的关系中所做的其他具体决策(Nielsen和Ganter,2022年)。
大量的类似“我无法做到”的回应可能表明科技公司在涉及新闻相关请求时存在一定程度的谨慎,越来越多的新闻发布商屏蔽AI爬虫也可能表明发布商在让生成式AI聊天机器人访问其内容方面存在谨慎,但完全有可能一些科技公司将与一些发布商达成协议(的确已有几项交易据报道已经达成),并在未来,只要涉及这些特定合作伙伴以及没有屏蔽AI爬虫的发布商,它们将提供更多“类似新闻”的输出,而对于来自许多其他发布商的新闻请求,则几乎没有提供或没有提供任何内容。
普林斯顿高等研究所的"证据新闻"和"科学、技术和社会价值观实验室"最近的一项研究发现,关于美国选举问题,五个不同的人工智能模型的回答"往往不准确,具有误导性,甚至是彻头彻尾的有害"(2024年)。
AI之于新闻,在融入了“生成”的概念后,一再挑战新闻的真实性与价值取向,AI大模型厂商与媒体发布商之间的合作形式不同于当下的社交平台具有统一的发布与分发规则,传播的“公平性”将会被打破。“后发展”时代,AI在各类消费应用上的探索实践遍地开花,AI将如何变革新闻消费值得科技公司、媒体发布商持续探索。
本文原文来自路透社新闻研究所