资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Debatrix：复旦大学开发的AI辩论评审系统

创作时间:

作者:

@小白创作中心

Debatrix：复旦大学开发的AI辩论评审系统

引用

来源

https://hub.baai.ac.cn/view/36001

复旦大学数据智能与社会计算实验室（Fudan DISC）最新推出Debatrix系统，这是一个基于大模型的多角度辩论评审框架。该系统能够有效评估多轮、长时间的辩论内容，并在两个公开辩论数据集上显著优于直接调用大模型的评估方法。

研究背景

辩论自古以来就是不同人群之间分析问题、交换意见并达成共识的重要形式。在竞技辩论和许多政治辩论中，通常只有获胜一方的观点会被采纳，因此一方面，辩论者必须运用各种策略说服听众支持自己一侧，另一方面，衡量哪一方的发言更有说服力同样至关重要。

在万物皆可用大模型自动化的时代，我们怎样才能构建一个大模型辩论评委，以评估一场广泛、生动、多回合的辩论？这项任务极具挑战性，因为评判一场辩论需要处理冗长的文本、错综复杂的论证关系和多维度的评估。同时，目前的研究主要集中在短对话上，很少涉及对整场辩论的评估。

如图，一位大模型辩论评委正在评判 Alice 和 Bob 之间的辩论。大模型需要了解双方的论点以及它们如何相互反驳（紫色气泡）；大模型还需要从多个维度评估双方的发言（橙色气泡）。然而，多轮辩论通常时间较长，会分散大模型的注意力，甚至超出上下文窗口（浅灰色气泡）。

研究贡献

在目前主流大语言模型的基础上，我们提出了Debatrix框架，使多回合辩论的分析和评估更符合多数听众的偏好。具体来说，Debatrix一方面纵向地、迭代地按照时间顺序分析辩论中的每轮发言，另一方面横向地在多个维度下分析辩论过程，并最终将各个维度的分析结果聚合为一个多维度综合分析。

为了与真实辩论场景保持一致，我们构建了PanelBench基准，将基于大模型的各种自动辩论评价方法的预测结果与实际辩论结果进行比较。研究结果表明，与直接调用大模型进行辩论评估相比，我们提出的Debatrix性能有显著提高。

Demo展示

一对一网络辩论（及Demo功能展示）
英国议会式辩论（二对二辩论，2020欧辩赛1/4决赛）

Debatrix：框架设计

我们提出的Debatrix是一个基于大模型的细粒度自动辩论评判框架，它可以按照时间轴和维度轴对辩论评价任务进行细分。

Debatrix的总体结构示意图如上。①：将（一轮）发言添加到上下文记忆中；②：检索与之相关的语境和分析片段；③：将本轮发言的分析结果添加到分析记忆中；④：辩论结束后获取所有发言的分析结果，进行最终评价。在这一框架下，Debatrix可以根据单个或多个维度的分析结果评价特定发言或特定辩手，并预测辩论胜负方。

时间轴：迭代发言分析

我们引导大模型对辩论发言逐一进行分析，通过记忆系统维护到目前为止的发言流和分析流，并在分析新发言时提供先前所有发言的内容分析。在处理完所有发言后，大模型会根据所有发言的分析结果做出最终决定。这种迭代方法可让大模型一次只专注于一轮发言，更高效、高质量地了解其内容与上下文。它还能对每轮发言、每位辩手做出细粒度的反馈，或决定辩论的最终获胜者。

维度轴：多维度协作分析

在分析每轮发言过程中，Debatrix还可以让大模型专注于特定的评判维度，如论证水平、语言风格或反驳力度。每个维度下，大模型都可以就这些特定的维度发表评论。辩论结束后，所有这些单独的分析都会合并成一个总体评价，从而提供综合多个维度的系统性辩论评判结果。

PanelBench：数据集

此外，我们还介绍了用于评估自动辩论评委的新基准——PanelBench。PanelBench包含两个带有评价结果的辩论集：DebateArt和BP-Competition；其中，DebateArt由包括分维度结果的一对一辩论构成，BP-Competition则包括由多名辩手联合对抗的高质量辩论。

DebateArt

DebateArt辩论集来源于在线辩论平台DebateArt，该平台参照竞技辩论的形式提供一对一辩论擂台。DebateArt辩论的发言次数和长度各不相同，并有分维度的投票结果。PanelBench包含来自DebateArt的100场有效辩论和有效投票。

DebateArt辩论集的长度统计

在DebateArt平台上，投票者必须考虑并投票决定四项指标，以获得比较表现的见解：论点（argument）、论据（source）、可读性（legibility）和行为（conduct）。为了与口语辩论保持一致，我们将可读性和行为这两个维度合并为一个语言（language）维度，代表辩手的语言风格。

DebateArt辩论集的获胜者统计；较小的D2G RMSE表明该维度的投票结果更接近最终不分维度的投票结果

BP-Competition

BP-Competition辩论集包括从世界级辩论比赛中转录的22场辩论。这些辩论遵循英国议会式（BP）辩论形式，由四支队伍（正反方各两队）参加，为PanelBench提供了内容丰富且复杂的高质量样本。

BP-Competition辩论集的长度统计

在BP辩论中，四支队伍（OG、OO、CG和CO）被分为正反两方，但每支队伍在辩论中都要与其他三支队伍（包括本方的另一支队伍）竞争。PanelBench要求评判四支队伍中哪支队伍最优秀。有些BP辩论的获胜者不止一个；PanelBench将预测任何获胜队伍视为正确。

BP-Competition辩论集的获胜者统计；总和大于22是因为胜者不唯一

实验结果

我们在PanelBench上进行了实验，以评估大模型的辩论评判性能。我们还将Debatrix框架（基于ChatGPT运行）与直接使用大模型进行评判进行了比较。对于DebateArt辩论集，我们通过两种方法预测获胜者，并计算与真正获胜者匹配时的均方根误差（正方胜、平局、反方胜分别对应0、0.5和1）：

得分比较：比较所有辩手的得分；对于来源和语言，得分差异在±3以内的为平局。
直接预测：直接预测获胜者。

对于BP-Competition辩论集，我们总是直接预测获胜者，并测量完成率和预测准确率。

Chronological和Dimensional分别只按照时间轴和维度轴分解；NonIterative仅输入之前发言的内容而非迭代使用其内容分析

实验结果表明，迭代发言分析对于ChatGPT处理超长辩论至关重要。同时，维度协作也有利于处理较短的辩论。不过，将两者结合起来会产生更好的性能。最后，通过迭代使用之前的内容分析，Debatrix在两个辩论集上的表现优于所有基线模型，包括能力更强大的GPT-4。

多轮辩论与长辩论

DebateArt辩论的发言次数和长度各不相同：在所有100场辩论中，有34场辩论的发言次数不少于8次，51场辩论的发言长度不少于4000个token。一方面，一些基准模型显示出部分优势，但无法覆盖所有情况。另一方面，Debatrix无论发言的数量或长度如何，都能保持相对较低的RMSE。这表明，Debatrix可以有效地帮助LLM评估长篇、多回合辩论，同时维持短篇辩论的评价能力。

论点维度分析

在所有评价维度中，论点是影响辩手说服力的主要维度。在DebateArt辩论集论点维度上的实验表明，与ChatGPT相比，规模更大、功能更强的GPT-4在这方面改进却十分有限。相反，按时间顺序分析每轮发言能带来显著的性能提升；在分析发言时迭代输入过去的内容分析也很有益处。这些方法使Debatrix得以更好地理解论点，而无需求助于更大的模型。

GPT-4的位置偏差

对BP-Competition辩论集实验结果的进一步调查显示，GPT-4总是预测在辩论赛后半段发言的CG和CO获胜；在大多数情况下，它选择最后发言的CO。与此同时，基于ChatGPT的Debatrix则给出了相对均衡的预测，与真实结果大致吻合。

我们推测，位置偏差（position bias）可能是导致GPT-4在判断BP辩论时失败的一个重要因素：大模型可能更喜欢最后发言的人，因为他可以反驳别人，同时又不会被反驳，因此看起来更有说服力。

总结

我们提出了一个基于大模型的细粒度自动辩论评价框架——Debatrix。我们将辩论评判任务按照时间顺序分解并迭代分析，以应对多回合的长篇辩论，同时分多个维度进行内容分析，最后生成系统化的评判。
我们引入了一个新的辩论评价基准——PanelBench，以评估我们的框架和其他自动辩论评判方法。该基准同时涵盖了多维度和多辩手的场景。
在上述这两种辩论情景下，Debatrix都明显改善了ChatGPT，帮助其评价超过上下文窗口的长篇辩论，并优于直接调用GPT-4。