问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

科学家提出小型AI事实核查模型，可根据文本验证大模型答案准确性

创作时间:

作者:

@小白创作中心

科学家提出小型AI事实核查模型，可根据文本验证大模型答案准确性

引用

1

来源

1.

https://xueqiu.com/5983518614/293083117

大语言模型在生成回答时，常常会出现事实错误。近期，来自美国德克萨斯大学奥斯汀分校和AI研究企业Salesforce AI Research的团队，构建了一款名为MiniCheck的小型事实核查模型，可以根据文本快速可靠地验证模型生成的每个事实，并识别跨句子的信息合成。

为什么需要MiniCheck？

大语言模型虽然在诸多领域展现出强大的生成能力，但它们生成的内容往往不能保证完全准确且可靠。这主要是因为：

大语言模型自身拥有的参数知识不足以帮助它们生成正确的事实，导致“幻觉”问题普遍存在。
即便基于已有的文本生成回答，大语言模型也可能会错误地混合文本中的信息，这通常会在基于检索的问答、对输入文本进行摘要等任务中出现。

因此，开发一种既能根据文本检查大语言模型输出的回答是否存在事实错误，又具有可信、高效、低成本、保护隐私等优势的方法，就显得至关重要。

MiniCheck：性能与成本的完美平衡

MiniCheck模型由美国德克萨斯大学奥斯汀分校和Salesforce AI Research团队共同开发，能够在保持高性能的同时大幅降低成本。具体来说：

性能媲美GPT-4：MiniCheck能够达到与GPT-4相当的事实核查水平。
成本大幅降低：虽然性能与GPT-4相当，但MiniCheck的运行成本仅为GPT-4的1/400。

图：唐立言（来源：唐立言）

研究背景与挑战

德克萨斯大学奥斯汀分校的博士研究生唐立言是该研究的第一作者。他此前已在自然语言处理领域的文本评估方向发表了多篇论文，重点关注文本摘要中的事实一致性评估。通过这些研究，他发现：

大语言模型生成的摘要中仍存在大量无法由原始文本支持的内容。
不同领域的大语言模型生成的错误类型各不相同。
规模较大的大语言模型往往会产生更加细微且难以检测的错误。

研究方法与创新

研究团队面临的挑战是如何设计一个既能快速预测、成本低廉，又能达到顶级大语言模型性能的事实核查模型。为此，他们采用了以下策略：

生成结构化合成数据：通过生成结构化的合成数据，教授事实核查模型如何验证一个句子中的所有事实，并培养其跨越多个句子进行推理的能力。
零样本部署能力：克服现有事实核查模型需要在验证集上进行超参数调整才能表现良好的局限性，实现真正的零样本部署。
全面事实检测：解决大语言模型生成的句子中包含多个事实时容易忽略部分事实的问题。

应用前景

目前，研究团队正在开发一个网页程序，以更好地将MiniCheck模型集成到事实核查流程中。用户可以通过该程序输入需要验证的句子，程序将自动搜索相关文本并使用MiniCheck模型进行评估，给出句子是否能被检索到的相关文本支持的分数。

这项研究为事实核查提供了一个经济高效的解决方案，有望在不久的将来发挥重要作用。同时，研究团队也计划在此基础上开展更多相关研究，探索新的研究方向。

热门推荐

"孤独的根号三"：一个数学与浪漫完美结合的梗

"孤独的根号三"：一个数学与浪漫完美结合的梗

娇养父女：父爱的温暖与成长的力量

娇养父女：父爱的温暖与成长的力量

DeepSeek预测2025年绍兴楼市：区域分化加剧，核心区域稳健

DeepSeek预测2025年绍兴楼市：区域分化加剧，核心区域稳健

地球自转速度正在变化，人类活动是重要影响因素

地球自转速度正在变化，人类活动是重要影响因素

生辰取名与个人运势：如何通过名字影响命运

生辰取名与个人运势：如何通过名字影响命运

牙齿美白方法多，你要怎么选？

牙齿美白方法多，你要怎么选？

脑梗抽烟戒不掉怎么办

脑梗抽烟戒不掉怎么办

养狐狸宠物的注意事项（从喂养到驯化，这些细节要注意！）

养狐狸宠物的注意事项（从喂养到驯化，这些细节要注意！）

非标=没标？民宿行业管理标准落地艰难

非标=没标？民宿行业管理标准落地艰难

《泊秦淮》创作背景是什么？该如何理解？

《泊秦淮》创作背景是什么？该如何理解？

动作冒险游戏设计解析：《古墓丽影》系列成功之处

动作冒险游戏设计解析：《古墓丽影》系列成功之处

广东阳江沙扒湾旅游攻略：广东的“马尔代夫”等你来探索

广东阳江沙扒湾旅游攻略：广东的“马尔代夫”等你来探索

从零开始学习俄语配音：新手指南与实用建议

从零开始学习俄语配音：新手指南与实用建议

B站播放量最高的视频背后：揭秘如何创造爆款内容

B站播放量最高的视频背后：揭秘如何创造爆款内容

新书讲述中文输入法演化史

新书讲述中文输入法演化史

短视频新手入门指南：15个实用技巧助你快速掌握短视频制作

短视频新手入门指南：15个实用技巧助你快速掌握短视频制作

袁辉：志辉源石，做中国自己的葡萄酒文化

袁辉：志辉源石，做中国自己的葡萄酒文化

爱情与人性的冷冽真相：清醒者的独语

爱情与人性的冷冽真相：清醒者的独语

Nature | 卫生组织呼吁：将肾病列为全球重点非传染性疾病

Nature | 卫生组织呼吁：将肾病列为全球重点非传染性疾病

Nature最新研究：语言≠思维，这或将改变AI发展路线

Nature最新研究：语言≠思维，这或将改变AI发展路线

英国国际机场出境全流程指南

英国国际机场出境全流程指南

带货主播和公司是“合作关系”还是“劳动关系”？

带货主播和公司是“合作关系”还是“劳动关系”？

《龙珠》之父鸟山明逝世，一代漫画大师的传奇人生

《龙珠》之父鸟山明逝世，一代漫画大师的传奇人生

股票挂单的观察方法：股票挂单观察技巧

股票挂单的观察方法：股票挂单观察技巧

AI时代的软件工程：挑战与改变

AI时代的软件工程：挑战与改变

如何巧妙注册一个既好听又吸引人的域名名字？

如何巧妙注册一个既好听又吸引人的域名名字？

权益牛熊，转债如何跟随正股？——转债策略系列报告之二

权益牛熊，转债如何跟随正股？——转债策略系列报告之二

偶像市场经济：AKB48 × 乃木坂46的推活商法

偶像市场经济：AKB48 × 乃木坂46的推活商法

儿童滑雪入门指南（从零开始）

儿童滑雪入门指南（从零开始）

探索薛定谔的猫与量子力学的神秘世界

探索薛定谔的猫与量子力学的神秘世界

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号