科学家提出小型AI事实核查模型,可根据文本验证大模型答案准确性
创作时间:
作者:
@小白创作中心
科学家提出小型AI事实核查模型,可根据文本验证大模型答案准确性
引用
1
来源
1.
https://xueqiu.com/5983518614/293083117
大语言模型在生成回答时,常常会出现事实错误。近期,来自美国德克萨斯大学奥斯汀分校和AI研究企业Salesforce AI Research的团队,构建了一款名为MiniCheck的小型事实核查模型,可以根据文本快速可靠地验证模型生成的每个事实,并识别跨句子的信息合成。
为什么需要MiniCheck?
大语言模型虽然在诸多领域展现出强大的生成能力,但它们生成的内容往往不能保证完全准确且可靠。这主要是因为:
- 大语言模型自身拥有的参数知识不足以帮助它们生成正确的事实,导致“幻觉”问题普遍存在。
- 即便基于已有的文本生成回答,大语言模型也可能会错误地混合文本中的信息,这通常会在基于检索的问答、对输入文本进行摘要等任务中出现。
因此,开发一种既能根据文本检查大语言模型输出的回答是否存在事实错误,又具有可信、高效、低成本、保护隐私等优势的方法,就显得至关重要。
MiniCheck:性能与成本的完美平衡
MiniCheck模型由美国德克萨斯大学奥斯汀分校和Salesforce AI Research团队共同开发,能够在保持高性能的同时大幅降低成本。具体来说:
- 性能媲美GPT-4:MiniCheck能够达到与GPT-4相当的事实核查水平。
- 成本大幅降低:虽然性能与GPT-4相当,但MiniCheck的运行成本仅为GPT-4的1/400。
图:唐立言(来源:唐立言)
研究背景与挑战
德克萨斯大学奥斯汀分校的博士研究生唐立言是该研究的第一作者。他此前已在自然语言处理领域的文本评估方向发表了多篇论文,重点关注文本摘要中的事实一致性评估。通过这些研究,他发现:
- 大语言模型生成的摘要中仍存在大量无法由原始文本支持的内容。
- 不同领域的大语言模型生成的错误类型各不相同。
- 规模较大的大语言模型往往会产生更加细微且难以检测的错误。
研究方法与创新
研究团队面临的挑战是如何设计一个既能快速预测、成本低廉,又能达到顶级大语言模型性能的事实核查模型。为此,他们采用了以下策略:
- 生成结构化合成数据:通过生成结构化的合成数据,教授事实核查模型如何验证一个句子中的所有事实,并培养其跨越多个句子进行推理的能力。
- 零样本部署能力:克服现有事实核查模型需要在验证集上进行超参数调整才能表现良好的局限性,实现真正的零样本部署。
- 全面事实检测:解决大语言模型生成的句子中包含多个事实时容易忽略部分事实的问题。
应用前景
目前,研究团队正在开发一个网页程序,以更好地将MiniCheck模型集成到事实核查流程中。用户可以通过该程序输入需要验证的句子,程序将自动搜索相关文本并使用MiniCheck模型进行评估,给出句子是否能被检索到的相关文本支持的分数。
这项研究为事实核查提供了一个经济高效的解决方案,有望在不久的将来发挥重要作用。同时,研究团队也计划在此基础上开展更多相关研究,探索新的研究方向。
热门推荐
剑桥大学推荐:如何通过《Power Up》提升英语口语?
葛均波院士:心血管疾病诊断将达到非常智能的程度
翻拍《红楼梦》:尊重名著还是尊重网友,这是个问题
广昆高速南百改扩建项目全面开工建设
新年新计划,健康膳食不放松
中医疗法缓解过敏性鼻炎:天然疗法助您改善症状
花粉热来袭!正确服用氯雷他定攻略
下载YouTube视频违法吗?真相揭秘!
家庭储能设备有哪些?详细介绍
如何提高光伏电站发电量:全面科普与建议
青春期女生如何科学补铁?
青春期生理卫生知识讲座:你真的了解吗?
如何与青春期女儿相处:建立信任与理解的沟通之道
官方发布64个农业农村大数据应用软件系统,提升数字化能力,助力智慧农业发展
面对日常通勤成本,有哪些策略来优化交通费用并实现理财目标?
春节将至,“恐归族”的真实心声
90后女主播王音棋首秀春晚,能否成为下一个“董卿”?
王嘉宁妆容揭秘:央视春晚新宠儿的秘密
一件5港币的红衬衫:晓庆衫与一个时代的时尚记忆
点亮生命的无限可能:东莞市康复实验学校十年发展纪实
曼谷米其林一星痣姐热炒:吃货必打卡的传奇餐厅
隔天吃一次他汀,降脂效果更好吗?医生忠告:服用他汀,牢记5点
港珠澳大桥为何采用海底隧道设计?揭秘这座世界最长跨海大桥的建设奇迹
港珠澳大桥究竟有什么意义?跨越时空的奇迹
衣服顏色怎麼搭配?個人色彩搭配4大原則、技巧,簡單穿出高級感!
职场着装不同场合的搭配
王者荣耀:微信区与QQ区的人气之争
开国少将张铚光:从师长到大军区司令员的传奇人生
白金戒指好还是黄金戒指好?全方位对比分析
黄金戒指清洗的主要方法是什么?这些方法如何保持饰品光泽?