评测四:CHIP-YIER医疗大模型评测任务

1. 任务简介
  在现代医疗领域,医疗大模型的应用已经成为改善患者护理和诊断的重要工具。然而,确保这些模型在临床应用中的准确性和可靠性至关重要。本评测任务旨在通过逻辑推理医疗大模型的评测,检验其在医学术语、医学知识、临床规范诊疗和医学计算等其他医学方面的表现。

2. 任务详情
  在这个任务中,模型将需要对医学术语、医学知识、临床规范诊疗和医学计算进行理解和逻辑推理。主要任务涵盖以下方面:模型需要精准理解和合理推演医疗领域的术语和知识;模型须能基于医学公式进行计算和推导,准确把握患者症状,并提供恰如其分的专业临床诊疗知识。

3. 数据说明
  评测数据将基于真实临床情境进行构建,包括医学考研题、临床执业医师题、医学教材、医学文献/指南、公开医学病历等构建的一系列选择题。数据集将包含不同疾病、病情严重程度、患者特点等多样性因素,以确保评估的全面性和真实性。数据集将被分为训练集和测试集,以保证模型在不同数据分布上的泛化能力。

  • 数据形式:
  • {
       "context":str,
       "question":str,
       "selection":[str1,str2,str3,str4],
       "answer_choices":[str2, str4],
       "sample_id":str,
       "source":str
       }
      注:
        context:是指医学文本,部分题型无医学文本时请忽略;
        question:是指题干问题;
        selection:是指题干对应的候选文本项;
        answer_choices:答案内容,来自于selection的一个或者多个;
        sample_id:是指评测团队拟定的题号;
        source:是指该题的来源途径,如执业医师真题、临床考验真题、医学专家自拟题。

  • 数据样例:
  • case1:
  • {
       "context":"(左侧前列腺)穿刺活检:腺癌(GLeason评分4+3=7分,分级分组3组,),癌组织约占穿刺总体积70%。(右侧前列腺)穿刺活检:腺癌(GLeason评分4+4=8分,分级分组4组,),癌组织约占穿刺总体积60%。",
       "question":"从上述文本中结构化出的【肿瘤部位】正确的是()",
       "selection":[“前列腺”,“卵巢”,“盆腔”,“腹部”,“以上都不对”],
       "answer_choices":[“前列腺”],
       "sample_id":"sample_13451",
       "source":"医学专家自拟题"
       }

  • case2:
  • {
       "context":"",
       "question":"关于补体调控叙述正确的是",
       "selection":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤","产生病理效应","细胞表面结合有多种补体调节因子","补体调节蛋白有十余种”],
       "answer_choices":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤","细胞表面结合有多种补体调节因子”],
       "sample_id":"sample_1",
       "source":"临床考研真题"
       }

    4. 训练评测数据

  • 数据发布:
  • 评测数据发布本次评测数据分为两次发布:
        9月10日:
        发布训练集,共1000条数据
        9月25日:
        发布测试集,共500条数据。测试集中answer_choices字段为空。

  • 评测指标:
  • 由于数据集中答案为多选项,因此本评测采用微平均(Micro Average)F1值作为评测指标。
       通过将所有答案的真正例、假正例和假负例的数量加总,然后计算总体的精确率(Precision)、召回率(Recall)和 F1 分数(F1-Score)。
        微平均精确率 = (总正确答案数) / (模型总召回答案数)
        微平均召回率 = (总正确答案数) / (测试数据中总答案数)
        微平均 F1 = 2 * (微平均精确率 * 微平均召回率) / (微平均精确率 + 微平均召回率)

  • 结果提交格式:
  • 在每一测试数据的json中插入模型预测答案,key为“predict_answers”,value为正确答案的list。

  • 结果提交格式:
  • https://tianchi.aliyun.com/competition/entrance/532150/submission/1178

  • 最终排名前五的队伍还需提交:
  •    1.相关代码和说明
       2.方法描述文档

    5. 评测组织者
      1.焦增涛,医渡云(北京)技术有限公司, zengtao.jiao@yiducoud.cn
      2.张小珍,医渡云(北京)技术有限公司, xiaozhen.zhang@yiducloud.cn

    6. 参赛规则
     注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
     1.参赛选手需要提交“参赛队名、队长信息(姓名、邮箱、联系电话)、参赛单位名称”等信息。
     2.报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
     3.每支队伍需指定一名队长,队伍名称不超过 15 个字符,队伍成员不超过 4人。
     4.每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
     5.允许使用公开和选手个人/组织内部的代码、工具、数据,但需要保证参赛结果可以复现
     6.针对测试集,选手不允许执行任何人工标注。
     7.使用大语言模型技术,可自研大模型,也可以基于开源大模型微调,结果可复现就行。
     8.参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
     9.欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。
     10.参赛报名链接: CHIP2023-YIER医疗大模型__天池大赛-阿里云天池的赛制 (aliyun.com)

    用【钉钉】扫描下方二维码为您解答比赛相关规则

    sponsors