1. 任务描述
  近两年大语言模型掀起新一轮自然语言处理领域的研究浪潮,展现出了类通用人工智能(AGI)的能力,受到业界广泛关注。国内的大模型经过俩年多的发展,得到了突飞猛进的进步,特别是医疗大模型有了长足的发展。在医疗大模型蓬勃发展的当下,几乎很多医疗相关的NLP任务都已经有评测任务,而基于典型的病历的诊断一致性任务目前还未有一个完整的评测任务与标准。
  为了推动医疗大模型在临床上的应用落地与医疗大模型社区的蓬勃发展。医学期刊知识挖掘与服务重点实验室(中华医学会杂志社)、哈尔滨工业大学(深圳)和医渡科技旗下开心健康公司等专家学者,在第十届中国健康处理大会(CHIP 2024)上推出了基于典型病历的诊断一致性公开评测。通过产学研合作,从科学、严谨的评测维度,持续完善医疗大模型在实际临床场景中的应用效果,加快推动人工智能技术(特别是医疗大模型)的落地。
  在此次CHIP大会上,三方将推出一套基于真实病历的诊断一致性评测任务。该任务集成了多种常见疾病的诊断病历信息,旨在通过精准还原医生在诊断疾病的决策过程,对医疗大模型的诊断能力进行全面、客观的评估。通过这一评测,参会者可以更加深入地了解人工智能技术在不同病种、不同诊疗环节中的表现,为未来的应用研究提供有力的数据支持。
该任务的特点:
  真实性: 病历相关信息包含了常规的基本信息、主诉、现病史、既往史以及检验检查等,符合真实的临床的医疗诊断。
  疾病范围广: 病历包含了多个科室的多种常见的疾病,更好的考察模型在医学的多科的综合能力。
  考察更深刻全面: 题目包含了单选题与多选题,其中多选题包含了主诊断以及相关的既往疾病以及并发症,考察很深刻全面,有一定的挑战难度。

2. 任务详情
  本任务是基于典型病历的诊断一致性评测,选手根据病历相关信息以及题目的选项给出正确的选项。为了降低难度,题目会有部分为单选题,选手可以根据不同的题目类型构造不同的instruction。


3. 数据说明
  数量:总数据量为:3237条数据,其中训练集为2590条,测试集647条。
  • 数据形式:
      {
         "text": str,
         "id": str,
         "question_type": str,
         "options":dict,
         "answer_idx": list,
      }
  • 标签含义:
      id 为数据的唯一ID,标识为数据唯一性。
      text 为病历的相关信息,病历信息中主要包含患者基本信息、主诉、现病史、个人史、家族史、既往史、体格检查、检验检查等。
      question_type 为题目类型,题目有两种类型单选题与多选题。
      options 为疾病选项,键值对格式。
      answer_idx 为答案选项,数据格式为list。
  •  数据样例
  • 多选题样例
    { "text": "个人信息\n\n- 年龄:48 岁\n- 性别:女\n\n主诉\n\n发现直肠癌及肝转移瘤 6 个月。\n\n现病史\n\n患者于 2022 年 10 月体检行腹部 B 超发现肝占位,完善腹部 CT 后考虑直肠占位、肝占位,后行电子肠镜及病理检查提示腺癌,部分为黏液腺癌。就诊于外院,行 COIBx 方案化疗 10 个周期,期间无明显不适。2023 年 4 月 10 日入院后复查腹部 CT 示直肠上段肠壁增厚,符合直肠癌,肝内多发转移瘤。同时肿瘤标志物升高。2023 年 6 月 12 日上腹部 MRI 示肝内多发占位,考虑转移瘤、胆囊结石。2023 年 6 月 19 日全腹部血管增强 CT 示肝介入治疗术后改变,肝多发病灶较前变化不著,直肠上段肠壁增厚,符合直肠癌;肝钙化灶;胆囊结石;肝右动脉起源异位。\n\n既往史\n\n无肿瘤相关病史家族史及传染病史。\n\n个人史\n\n无特殊。\n\n**六、家族史**\n\n无肿瘤家族史。\n\n体格检查\n\n无。\n\n检查检验\n\n- 2022 年 10 月 9 日化疗前上腹部 MRI:肝脏多发大小不等结节及肿块影,双叶多段分布,大者约 8.4 cm×8.1 cm。考虑肝转移瘤。\n- 2022 年 10 月 10 日直肠 MRI:直肠上段肠壁不均匀增厚形成肿物,考虑恶性、侵及肠壁全层,建议结合临床及镜检,病变周围、骶前、直肠系膜筋膜内多发肿大淋巴结,警惕转移,建议追随。\n- 2022 年 10 月 11 日病理检查:直肠活检腺癌,中分化。\n- 2023 年 4 月 10 日入院后腹部 CT:直肠上段肠壁增厚,符合直肠癌,肝内多发转移瘤,大者约 58 mm×47 mm。\n- 2023 年 6 月 12 日上腹部 MRI:肝内多发占位,结合病史,考虑转移瘤、胆囊结石。\n- 2023 年 6 月 19 日全腹部血管增强 CT:肝介入治疗术后改变,肝多发病灶较前变化不著,直肠上段肠壁增厚,符合直肠癌;肝钙化灶;胆囊结石;肝右动脉起源异位。\n- 肿瘤标志物:TPS 487.219 U/L,CEA 215.00 ng/ml,CA72-4 154.00 U/ml;CA-199 为 2.06 U/ml,CEA 为 35.09 ng/ml。",
      "diagnosis": "肝继发恶性肿瘤;直肠恶性肿瘤;胆囊结石",
      "id": "1496982",
      "question_type": "多选题",
      "answer": [ " 肝继发恶性肿瘤", " 直肠恶性肿瘤", " 胆囊结石" ],
      "options"": {
        "A": "肝继发恶性肿瘤",
        "B": "直肠恶性肿瘤",
        "C": "胆囊结石",
        "D": "肝血管瘤",
        "E": "肝囊肿",
        "F": "结肠癌",
        "G": "胰腺癌",
      },
      "answer r_idx"": [ "A", "B", "C" ]
    }
  • 单选题样例
    { "text": "个人信息:男性,14 岁。\n主诉:反复自杀 2 年,沉迷手机、情绪不稳 1 年余。\n现病史:患儿近 2 年有多次自伤自杀史,如跳楼、跳水、吞服蟑螂丸等。2020 年 2 月疫情期间,患儿不愿上网课,沉迷手机,睡眠差,脾气暴躁,砸家里门窗、电器,与父亲对打,生活懒散,间断上学。曾在外院就诊,诊断不详,拒绝服药。近 1 年来间断上学,每次上学只能坚持几天。2021 年 9 月 19 日患儿喝农药后被送至医院抢救,9 月 25 日出院,建议至本院就诊。9 月 26 日患儿住院治疗,诊断为“通常在童年和青少年期发病的行为和情绪障碍”,给予丙戊酸镁和喹硫平口服治疗,11 天后患儿表示愿意回家上学,家属办理自动出院。出院后患儿仍脾气大,在家打父亲,砸门,玩游戏,不愿上学,较任性,家属难以管理。\n既往史:3 岁时因吐词不清行舌部手术,6 岁时因车祸至左腿骨折手术治疗。否认药物过敏史,否认肝炎、结核等传染病病史。\n个人史:自小生长发育正常,第一胎,足月剖腹产,6 岁时父母离异,随父亲生活,母亲每年探视一两次,父亲未再婚,母亲已再婚,初中文化,病前性格外向,无烟酒等嗜好。\n家族史:阳性,患儿大姑有精神异常史,服农药死亡,具体不详。\n体格检查:全身散发皮疹,无破溃,左腿可见一长约 15cm 手术瘢痕,双侧瞳孔等大等圆,直径 3mm,心肺听诊无异常,神经系统检查未见阳性病理征。\n检查检验:颅脑 CT 平扫未见明显异常。胸部正位片示两肺、心膈未见明显异常。血常规、肝功能、电解质、血糖、血脂、甲状腺功能未见明显异常。甲肝抗体、乙肝抗体、丙肝抗体、梅毒抗体、HIV 抗体、尿毒品均为阴性。精神状况检查:意识清楚,定向力完整,接触交谈被动,问话能答,对答切题,否认幻觉、错觉及感知综合障碍,思维联想速度可,存在牵连观念,情绪不稳,自诉烦躁,在家跟奶奶及父亲难以沟通,看不起奶奶及父亲,自我评价低,觉得不如其他人,因为心情不好、自卑所以沉迷网络,觉得自己拖了班级后腿,所以不想去上学,情感反应尚协调。意志减退,生活懒散,智力、记忆力可,自知力不全。",
      "diagnosis": "通常在童年和青少年期发病的行为和情绪障碍",
      "id": "1499668",
      "question_type": "单选题",
      "answer": [ " 通常在童年和青少年期发病的行为和情绪障碍" ],
      "options"": {
        "A": "通常在童年和青少年期发病的行为和情绪障碍",
        "B": "精神分裂症",
        "C": "抑郁症",
        "D": "双向情感障碍",
      },
      "answer r_idx"": ["A"]
    }
  • 4. 评价指标
      典型病历诊断一致性使用了经典的micro评分机制,micro的Precision, Recall, F1分数。这里的诊断一致性预测包含预测选项answer_idx。
      当模型预测的answer_idx 在ground truth包含的数量,则true positive (TP) 加对应的数量,例如: answer_idx 为[A,B,D],ground truth为[A,B,C],则true positive (TP) 加2。而如果模型预测的选项answer_idx有不在ground truth中,则false positive (FP)加对不在数量的选项。例如: answer_idx 为[A,B,D],ground truth为[A,B,C],则false positive (FP) 加1。

    5. 获奖队伍材料提交
    测试数据排名前三的队伍还需提交以下材料:
      1.相关代码及说明。
      2.方法描述文档。
      3.如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
      选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址: 24B951051@stu.hit.edu.cn ,邮件的标题为:“CHIP2024-典型病历诊断一致性任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
      说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。

    6. 参赛规则
       1. 每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
       2. 允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
       3. 获奖选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
       4. 获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
       5. 欢迎国内外在校生及企业人员参加,个人不可参赛,比赛组织方成员不可参赛。
       6. 组队人数限制1-5人。
       7. 每日提交结果次数为3次。
       8. 该任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。

    7. 报名方式
       本次评测任务依托阿里云天池平台展开,参赛链接见 https://tianchi.aliyun.com/competition/entrance/532278 。请加入以下钉钉群,任务相关事宜讨论群。
    sponsors
    8. 日程安排
      报名参赛开始时间:10月 25日
      训练数据发布时间:10月 25日
      测试数据发布时间:10月 25日
      测试结果提交截止时间: 11月 10日
      评测论文提交截止时间:11月25日
      会议日期(评测报告及颁奖):11月15日-11月17日

    9. 日程安排
    任务联系人
     滕召荣, 医渡科技旗下开心健康, zhaorong.teng@yiducloud.cn
     冯洋, 医渡科技旗下开心健康, yang.feng@yiducloud.cn
     王泽华,哈尔滨工业大学(深圳), 24B951051@stu.hit.edu.cn
    任务组织
     医学期刊知识挖掘与服务重点实验室(中华医学杂志社) 魏均民
     医学期刊知识挖掘与服务重点实验室(中华医学杂志社) 马明
     医渡科技旗下开心健康 闫峻
     医渡科技旗下开心健康 姜树嘉
     中国临床案例成果数据库(中华医学杂志社) 李静
     哈尔滨工业大学(深圳) 汤步洲