问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AgentReview：基于大语言模型的同行评审模拟框架

创作时间:

作者:

@小白创作中心

AgentReview：基于大语言模型的同行评审模拟框架

引用

CSDN

1.

https://blog.csdn.net/m0_59235699/article/details/143525542

AgentReview是一个基于大型语言模型（LLM）的同行评审模拟框架，能够有效拆解多个潜在因素的影响，并解决隐私问题。研究揭示了重要的洞察，包括由于评审者偏见导致的论文决定变化达37.1%，这得到了社会影响理论、利他主义疲劳和权威偏见等社会学理论的支持。

摘要总结

同行评审是科学出版完整性和发展的基础。传统的同行评审分析方法往往依赖对现有同行评审数据的探索和统计，这不足以充分解决过程的多变量特性，无法考虑潜在变量，并且由于数据的敏感性而受到隐私问题的进一步限制。本文介绍了AgentReview，这是第一个基于大型语言模型（LLM）的同行评审模拟框架，能够有效拆解多个潜在因素的影响，并解决隐私问题。我们的研究揭示了重要的洞察，包括由于评审者偏见导致的论文决定变化达37.1%，这得到了社会影响理论、利他主义疲劳和权威偏见等社会学理论的支持。我们相信，这项研究可以为改善同行评审机制的设计提供有价值的见解。

研究背景

研究问题：这篇文章要解决的问题是如何在保护审稿人隐私的前提下，通过大规模语言模型（LLM）代理模拟同行评审过程，揭示影响同行评审结果的多重潜在因素。
研究难点：该问题的研究难点包括：同行评审过程的多变量性质、难以测量的潜在变量以及数据隐私问题。
相关工作：该问题的研究相关工作包括对现有同行评审数据的分析和统计，但这些方法未能充分考虑过程的多元性、潜在变量和数据隐私问题。

研究方法

这篇论文提出了AGENTREVIEW，第一个基于LLM的同行评审模拟框架。具体来说，

框架概述：AGENTREVIEW通过集成LLM代理和基于代理的建模来模拟同行评审过程。该框架包括审稿人、作者和领域主席（AC）三个角色，所有角色均由LLM代理驱动。

评审过程设计：使用一个结构化的五阶段管道来模拟同行评审过程：
评审人评估：每个评审人独立评估稿件，生成包含四个部分（重要性与创新性、接受理由、拒绝理由和改进建议）的评论。
作者-评审人讨论：作者在评审人-AC讨论期间回应初始评论。
评审人-AC讨论：AC发起讨论，要求评审人重新考虑初始评分并更新评论。
元评审编写：AC综合讨论、反馈和自己的观察，编写元评审。
论文决定：AC审查所有元评审，做出接受或拒绝的决定。
数据选择：使用ICLR会议的真实提交数据，确保模拟评论与现实场景紧密相关。数据选择标准包括会议的国际影响力、论文的公开可用性、质量分布和时间跨度。
基线设置：建立一个没有特定LLM代理特征的基线设置，以便测量单个变量变化的影响。

实验设计

数据收集：从ICLR会议的真实提交中检索2020年至2023年的论文数据，涵盖口头报告、亮点、海报和拒绝四类论文。
样本选择：采用分层抽样技术从每类论文中选择样本，最终得到350篇拒绝论文、125篇海报、29篇亮点和19篇口头报告论文。
参数配置：在实验中，逐步替换正常评审人为负责任或不负责任的评审人，并分析其对评审结果的影响。

结果与分析

评审人的作用：
社会影响：评审人在反驳后通常会调整评分以与同伴保持一致，导致评分的标准差显著下降。
利他主义疲劳和同伴效应：一个不负责的评审人可以导致所有评审人的承诺显著下降。
群体思维和回音室效应：有偏见的评审人通过互动放大彼此的负面意见，导致评分下降。
权威偏见和晕轮效应：评审人倾向于认为知名作者的稿件更准确，当所有评审人知道作者身份的比例为10%时，决策变化显著。
锚定偏见：反驳阶段对最终结果的影响较小，可能是由于评审人过于依赖初步印象。

领域主席的作用：
包容性AC：最能与基线保持一致，有效整合多样化观点。
权威AC：决策与基线相关性较低，可能受个人偏见影响。
顺从AC：尽管与评审人评价高度语义重叠，但可能缺乏独立判断。
作者匿名性的影响：
权威偏见：评审人更倾向于给知名作者的稿件好评。

同行评审机制的影响：
反驳的影响：取消反驳阶段对最终决定影响较小，可能是由于锚定偏见。
整体评分的影响：取消整体评分显著改变了决策格局，可能导致不同的决定。

热门推荐

黑人运动员的力量与爆发力优势分析

黑人运动员的力量与爆发力优势分析

农村房屋继承全流程指南：从确定继承人到过户登记

农村房屋继承全流程指南：从确定继承人到过户登记

二手房契税怎么算，二手房契税满二和满五的区别

二手房契税怎么算，二手房契税满二和满五的区别

2025年首场强对流来袭！三部门发布防御提醒

2025年首场强对流来袭！三部门发布防御提醒

考研数学等价无穷小知识点汇总

考研数学等价无穷小知识点汇总

从北京出发，2小时高铁圈内热门目的地公布！

从北京出发，2小时高铁圈内热门目的地公布！

制作好PPT的八大习惯

制作好PPT的八大习惯

苍蝇的寿命有多长？

苍蝇的寿命有多长？

如何通过精读剑桥真题提高阅读成绩

如何通过精读剑桥真题提高阅读成绩

中航沈飞披露异动公告：歼35A由航空工业集团下属企业共同研制生产

中航沈飞披露异动公告：歼35A由航空工业集团下属企业共同研制生产

如何区分板块强弱股票：学习区分板块中强势和弱势股票的技巧

如何区分板块强弱股票：学习区分板块中强势和弱势股票的技巧

电销车险的效果如何？电销车险的优缺点是什么？

电销车险的效果如何？电销车险的优缺点是什么？

如何正确格式化U盘：步骤详解与注意事项解析

如何正确格式化U盘：步骤详解与注意事项解析

成都：探索优质教育资源均衡发展新路径推动全域义务教育优质共享

成都：探索优质教育资源均衡发展新路径推动全域义务教育优质共享

丝绸的历史与文化：从起源到现代的应用

丝绸的历史与文化：从起源到现代的应用

“渐变绿”的新能源车号牌，你想改改吗？

“渐变绿”的新能源车号牌，你想改改吗？

碳十三同位素在医学领域的应用

碳十三同位素在医学领域的应用

世界十大最美炮弹鱼

世界十大最美炮弹鱼

高胰岛素血症的五大症状及应对方法

高胰岛素血症的五大症状及应对方法

新能源重卡技术路线和市场格局分析

新能源重卡技术路线和市场格局分析

胶粘剂粘合表面处理有哪些不同的方法？

胶粘剂粘合表面处理有哪些不同的方法？

中国第三代风云气象卫星，构建智慧气象观测体系

中国第三代风云气象卫星，构建智慧气象观测体系

在英国送什么花好

在英国送什么花好

本地刑事律师的专业选择指南

本地刑事律师的专业选择指南

提升手机流畅度的技巧与方法

提升手机流畅度的技巧与方法

如何删除苹果云盘的数据

如何删除苹果云盘的数据

《红楼梦》人物关系深度解析

《红楼梦》人物关系深度解析

氢能自行车来了！首批落地广州番禺运行

氢能自行车来了！首批落地广州番禺运行

推动智慧药房建设，提升就医体验

推动智慧药房建设，提升就医体验

晚上吃红薯到底会长胖还是能减肥？

晚上吃红薯到底会长胖还是能减肥？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号