本届智慧论辩评测包含网络媒体内容论辩理解、自主论辩生成、论辩赋能社会调查仿真三个任务。
给定一个论点和一个辩题对,判断当前论点是否属于当前辩题,属于当前辩题输出1,不属于当前辩题输出0。
Acc
给定一个论点和一个论据,判断当前论据是否可以支持当前论点,可以支持当前论点输出1,不可以支持当前论点输出0。
Acc
给定一篇立论陈词稿和陈词稿中的一个论点,判断当前论点在陈词稿中的结构类型。结构类型包括主要论点、普通论点和论点前提,直接输出论点结构类型。
Acc
给定一个辩题及对应持方,由参赛模型自动生成一篇一辩立论陈词稿。
人工评价
基于人口统计学信息构建大模型仿真个体,通过多智能体辩论机制激发观点交锋,促使个体在认知迭代中形成更精准的社会调查响应。
50%多智能体辩论得分: Debatrix(点此了解更多)与人工评价
50%最终回答F1 Score