CCAC 2025 第五届智慧论辩评测（AI-Debater）

本届智慧论辩评测包含网络媒体内容论辩理解、自主论辩生成、论辩赋能社会调查仿真三个任务。

网络媒体内容辩论理解数据集：中文数据集，包含论点所属的辩题类别、论点论据间的关系等标注信息。在PE论辩挖掘数据集的基础上使用DeepSeek-R1翻译，并由专业人员进行校对、修正，整理为json文件。

自主辩论生成数据集：中文数据集，包含辩题与一辩立论陈词稿的数据对。辩题来源于近年知名华语辩论赛赛题，由DeepSeek-R1，GPT4-turbo，Gemini-2.5等先进闭源大模型自动构建，并由专业人员进行校对、修正，整理为json文件。

社会调查仿真数据集：源于某国某年的真实社会调查数据，清洗标签缺失、拒绝回答等样本后整理为json文件。

赛道一：自主论辩任务

该赛道包含辩题识别，论据挖掘，辩论构建和自主论辩生成四个子任务。在最终评测中，取四个子任务的平均分数作为最终分数。

子任务一：辩题识别

介绍

给定一个论点和一个辩题对，判断当前论点是否属于当前辩题，属于当前辩题输出1，不属于当前辩题输出0。

数据样例

输入：{'辩题': '应该教学生竞争还是合作？', '论点': '我们应该更加重视小学教育中的合作'}
输出：1

评价指标

Acc

子任务二：论据挖掘

介绍

给定一个论点和一个论据，判断当前论据是否可以支持当前论点，可以支持当前论点输出1，不可以支持当前论点输出0。

数据样例

输入：{'论点': '通过合作，孩子们可以学习人际交往技能，这对所有学生的未来生活都很重要', '论据': '研究表明，在合作的过程中，孩子们可以学习如何倾听他人的意见，如何与他人沟通，如何全面思考，甚至在发生冲突时如何与其他团队成员妥协'}
输出：1

评价指标

Acc

子任务三：辩论构建

介绍

给定一篇立论陈词稿和陈词稿中的一个论点，判断当前论点在陈词稿中的结构类型。结构类型包括主要论点、普通论点和论点前提，直接输出论点结构类型。

数据样例

输入：{'陈词稿': '（以上省略）首先，通过合作，孩子们可以学到人际交往的技巧，这对所有学生未来的生活都意义重大。我们从团队合作中学到的不仅是如何与他人达成相同的目标，更重要的是如何与他人相处。（以下省略）', '论点': '通过合作，孩子们可以学到人际交往的技巧，这对所有学生未来的生活都意义重大。'}
输出：主要论点

评价指标

Acc

子任务四：自主论辩生成

介绍

给定一个辩题及对应持方，由参赛模型自动生成一篇一辩立论陈词稿。

数据样例

输入：{'辩题': '死刑是否应该合法化', '持方': '正方'}
输出：'尊敬的评委、对方辩友、各位观众：今天，我们讨论的辩题是"死刑应当合法化"。我方坚定认为，死刑作为刑罚体系的组成部分，具有不可替代的法治价值与社会功能。我将从以下四个层面阐述我方观点。(以下省略)'

评价指标

人工评价

赛道二：论辩赋能社会调查仿真

介绍

基于人口统计学信息构建大模型仿真个体，通过多智能体辩论机制激发观点交锋，促使个体在认知迭代中形成更精准的社会调查响应。

数据样例

输入：{'个体信息'：{"AGE": "Middle-aged (36-65 years old)","GENDER": "Male", …}, '问卷题目'：'Some people believe that we should spend less money for defense. Which of the following best describes your view? Options: A.Refused B.Decrease C.Increase'}
输出：C

评价指标

50%多智能体辩论得分: Debatrix（点此了解更多）与人工评价
50%最终回答F1 Score

参考文献

https://eval.ai/challenge/1449/leaderboard/3606
Jian Yuan, Liying Cheng, Ruidan He, Yinzi Li, Lidong Bing, Zhongyu Wei, Qin Liu, Chenhui Shen, Shuonan Zhang, Changlong Sun, Luo Si, Changjian JIang and Xunjing Huang. Overview of Argumentative Text Understanding for AI Debater Challenge. NLPCC 2021.
Lu Ji, Zhongyu Wei, Xiangkun Hu, Yang Liu, Qi Zhang and XuanJing Huang. Incorporating argument-level interactions for persuasion comments evaluation using co-attention model. COLING 2018.
Lu Ji, Zhongyu Wei, Jing Li, Qi Zhang and Xuanjing Huang. Discrete Argument Representation Learning for Interactive Argument Pair Identification. NAACL 2021.
Jian Yuan, Zhongyu Wei, Donghua Zhao, Qi Zhang and Changjian Jiang. Leveraging Argumentation Knowledge Graph for Interactive Argument Pair Identification. ACL 2021 findings.
Xinyu Hua, Zhe Hu, and Lu Wang. Argument Generation with Retrieval, Planning, and Realization. ACL 2019.
Milad Alshomary, Shahbaz Syed, Arkajit Dhar, Martin Potthast, and Henning Wachsmuth. Counter-Argument Generation by Attacking Weak Premises. ACL 2021 findings.
Liying Cheng, Lidong Bing, Ruidan He, Qian Yu, Yan Zhang, and Luo Si. IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks. ACL 2022.
Jiayu Lin, Rong Ye, Meng Han, Qi Zhang, Ruofei Lai, Xinyu Zhang, Zhao Cao, Xuanjing Huang, and Zhongyu Wei. Argue with Me Tersely: Towards Sentence-Level Counter-Argument Generation. EMNLP 2023.
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. Self-Instruct: Aligning Language Models with Self-Generated Instructions. ACL 2023.
Jingcong Liang, Rong Ye, Meng Han, Ruofei Lai, Xinyu Zhang, Xuanjing Huang, Zhongyu Wei. Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM. arXiv:2403.08010.
Slonim, N., Bilu, Y., Alzate, C. et al. An autonomous debating system. Nature 591, 379–384 (2021).
Mou X, Ding X, He Q, et al. From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents[J]. arXiv preprint arXiv:2412.03563, 2024.
Lin J, Chen G, Jin B, et al. Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks[J]. arXiv preprint arXiv:2407.14829, 2024.
Zhang X, Lin J, Sun L, et al. Electionsim: Massive population election simulation powered by large language model driven agents[J]. arXiv preprint arXiv:2410.20746, 2024.