赛道一

医患对话理解
【赛道简介】

随着“互联网+医疗”的迅速发展,在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、 疾病的诊断并且提供相关的医疗建议。在政策和疫情的影响之下,在线问诊需求增长迅速,然而医生资源是稀缺的, 由此促使了自动化医疗问诊的发展。自动化医疗问诊可以实现人机对话来辅助问诊过程,医患对话理解是其中重要的模块。 医患对话理解主要包括两个任务,分别是命名实体识别和症状检查识别。

  • 任务一:命名实体识别。本任务是从医患对话文本中识别出重要的实体, 共有五类医疗相关实体,采用字级别的“BIO”标注体系进行标注。
  • 任务二:症状识别。本任务是在医患对话文本中,识别出病人具有的症状信息(共329种归一化后的症状),每种症状都可分为三类,分别是有、没有和不确定,任务要求参赛团队根据对话历史, 自动识别出病人有哪些症状。

【评价方法】

  • 任务一:使用F1值作为评价指标。
  • 任务二:使用F1值作为评价指标。
  • 总分:任务一、二得分的平均值。


赛道二

医疗报告生成
【赛道简介】

医生与病人进行自动化问诊之后,需要就诊疗过程进行就诊报告的撰写,对病人的整体情况情况进行描述。 为了缓解医生撰写就诊报告的压力,我们提出针对医患问诊过程,进行医疗报告的自动生成。

  • 任务一:医疗报告生成。本任务旨在以医疗报告的形式展示对医患对话的 理解和总结归纳的能力。任务要求参赛团队能依据病人自述和医患对话,输出具有规定格式的医疗报告。 报告需要包含6个部分:主诉、现病史、辅助检查、既往史、诊断和建议。

【评价方法】

  • 任务一:包括自动化评测和人工评测。
    • 自动化评测:以数据集中每个样本对应的两份医疗报告为参考, 计算生成医疗报告的ROUGE值。
    • 人工评测:在竞赛提交通道关闭后,自动评测排名前列的参赛队伍进入人工评测环节。 人工会从生成医疗报告的准确性、信息量、流畅性等几个维度进行评测。
  • 总分:任务一得分平均值(第二阶段得分为自动测评与人工测评得分的平均值)。


赛道三

智能化医疗诊断
【赛道简介】

对于一个正常的线下问诊流程,病人会首先介绍自己的当前信息并提问,医生在得知病人的基本情况后, 通常需要连续问病人几个与症状、检查相关的问题后,便可告知病人可能患有的疾病类型并提供用药或者检查建议, 因此就诊的过程即是一个带有目的的序列化交互的过程。智能化医疗诊断是任务型对话系统的重点研究方向, 此次智能化医疗诊断比赛含有一个任务。

  • 任务一:面向疾病识别的对话系统。此任务要求参赛系统根据给出的显性信息 (病人自述中提及的症状),与病人模拟器进行互动以获取更多病人的症状, 依据交互内容判断疾病。

【评价方法】

基于规定轮次内模型对疾病判断的准确率和症状判断的召回率进行计算,

  • 任务一:0.8 * 疾病判断的正确率 + 0.2 * 症状判断的召回率

【说明】

赛道三要求选手们提供一个可交互的程序来模拟实际问诊过程,baseline中使用了基于强化学习的方式,参赛者可以自己选择合适的方式模拟该过程,如用基于规则的方法。

更具体地,在交互阶段,我们给定模型以初始输入,即患者初始症状 explicit symptom,如“有发热症状,无拉肚子症状”,患者往往不会把一次性把症状表述清楚, 所以模型可以与用户模拟器进行进一步交互,询问用户是否还有其他症状implicit symptom,用户和模拟器的交互轮次不超过11轮,否则用户模拟器会报异常。 模型应该根据当前询问到的病人信息尽可能准确地判断用户还可能具备什么症状,否则可能询问到无效信息。

用户模拟器在初始化时,接受数据集路径参数以供查询,在查询阶段,接受疾病id和症状两个参数,当查询轮次小于最大轮次时, 会返回“0”—用户无此症状,“1”—用户有此症状,“2”—不确定三种可能,否则将直接抛出异常。 详情可见评测文件夹中user_simulator.py

在一定轮数之后,程序需要对疾病进行判断,并且给出收集到的症状情况,我们会使用疾病判断的正确率和对病人所有应问询症状的召回率进行评分。


数据集

第一赛段,发布的医患对话数据集包括超过2000组医患对话案例样本,覆盖4种儿科疾病,样本平均对话次数约为40次, 平均每个样本的对话字数约为523个。第二赛段,新增2种儿科疾病,超过800组对话数据。数据的标注由中山医院医学背景的老师同学完成。

  • 赛道一标签:每个样本包括一个样本id、疾病种类、主诉(即患者的提问)、 若干句医生和患者之间的对话文本、每句对话的话语意图标签和实体标签以及医疗报告。 实体标签共有五种重要的实体,分别是症状、药品名、药物类别、检查和操作。
  • 赛道二标签:诊疗报告具有规定的格式, 每个样本有两份参考诊疗报告。
  • 赛道三标签:每个样本包含一个样本id、疾病类别、病人自述文本、 直接信息 (病人自述中明确提及的症状信息)、间接信息(结合整段医患对话得到的实体及标签, 表示患者是否已经有该症状。0代表没有,1代表有,2代表不确定)。

奖项设置

三个赛道分开排名,分开颁奖,分别设置以下奖项。

  • 一等奖(一名,奖金8000元)
  • 二等奖(二名,每名奖金3000元)
  • 三等奖(三名,每名奖金1000元)