评测四: CHIP-YIER医疗大模型评测任务

评测四:CHIP-YIER医疗大模型评测任务

1. 任务简介
在现代医疗领域，医疗大模型的应用已经成为改善患者护理和诊断的重要工具。然而，确保这些模型在临床应用中的准确性和可靠性至关重要。本评测任务旨在通过逻辑推理医疗大模型的评测，检验其在医学术语、医学知识、临床规范诊疗和医学计算等其他医学方面的表现。

2. 任务详情
在这个任务中，模型将需要对医学术语、医学知识、临床规范诊疗和医学计算进行理解和逻辑推理。主要任务涵盖以下方面：模型需要精准理解和合理推演医疗领域的术语和知识；模型须能基于医学公式进行计算和推导，准确把握患者症状，并提供恰如其分的专业临床诊疗知识。

3. 数据说明
评测数据将基于真实临床情境进行构建，包括医学考研题、临床执业医师题、医学教材、医学文献/指南、公开医学病历等构建的一系列选择题。数据集将包含不同疾病、病情严重程度、患者特点等多样性因素，以确保评估的全面性和真实性。数据集将被分为训练集和测试集，以保证模型在不同数据分布上的泛化能力。

数据形式:

{
   "context":str,
   "question":str,
   "selection":[str1,str2,str3,str4],
   "answer_choices":[str2, str4],
   "sample_id":str,
   "source":str
   }
  注：
    context：是指医学文本，部分题型无医学文本时请忽略；
    question：是指题干问题；
    selection：是指题干对应的候选文本项；
    answer_choices：答案内容，来自于selection的一个或者多个；
    sample_id：是指评测团队拟定的题号；
    source：是指该题的来源途径，如执业医师真题、临床考验真题、医学专家自拟题。

数据样例：

case1:

{
   "context":"（左侧前列腺）穿刺活检：腺癌（GLeason评分4+3=7分，分级分组3组，），癌组织约占穿刺总体积70%。（右侧前列腺）穿刺活检：腺癌（GLeason评分4+4=8分，分级分组4组，），癌组织约占穿刺总体积60%。",
   "question":"从上述文本中结构化出的【肿瘤部位】正确的是（）",
   "selection":[“前列腺”,“卵巢”,“盆腔”,“腹部”,“以上都不对”],
   "answer_choices":[“前列腺”],
   "sample_id":"sample_13451",
   "source":"医学专家自拟题"
   }

case2:

{
   "context":"",
   "question":"关于补体调控叙述正确的是",
   "selection":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤"，"产生病理效应","细胞表面结合有多种补体调节因子","补体调节蛋白有十余种”],
   "answer_choices":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤"，"细胞表面结合有多种补体调节因子”],
   "sample_id":"sample_1",
   "source":"临床考研真题"
   }

4. 训练评测数据

数据发布：

评测数据发布本次评测数据分为两次发布：
    9月10日：
    发布训练集，共1000条数据
    9月25日：
    发布测试集，共500条数据。测试集中answer_choices字段为空。

评测指标：

由于数据集中答案为多选项，因此本评测采用微平均（Micro Average）F1值作为评测指标。
   通过将所有答案的真正例、假正例和假负例的数量加总，然后计算总体的精确率（Precision）、召回率（Recall）和 F1 分数（F1-Score）。
    微平均精确率 = (总正确答案数) / (模型总召回答案数)
    微平均召回率 = (总正确答案数) / (测试数据中总答案数)
    微平均 F1 = 2 * (微平均精确率 * 微平均召回率) / (微平均精确率 + 微平均召回率)

结果提交格式：

在每一测试数据的json中插入模型预测答案，key为“predict_answers”，value为正确答案的list。

结果提交格式：

https://tianchi.aliyun.com/competition/entrance/532150/submission/1178

最终排名前五的队伍还需提交：

1.相关代码和说明
2.方法描述文档

5. 评测组织者
1.焦增涛，医渡云（北京）技术有限公司， zengtao.jiao@yiducoud.cn
2.张小珍，医渡云（北京）技术有限公司， xiaozhen.zhang@yiducloud.cn

6. 参赛规则
注意，以下通用规则适用于本评测任务。在此基础上，参赛选手还需遵循具体大赛的特有规则。如有冲突，以后者为准。
1.参赛选手需要提交“参赛队名、队长信息（姓名、邮箱、联系电话）、参赛单位名称”等信息。
2.报名截止到测试数据集发布，在测试数据集发布之后，未报名的选手/队伍不能再报名或提交。
3.每支队伍需指定一名队长，队伍名称不超过 15 个字符，队伍成员不超过 4人。
4.每名选手只能参加一支队伍，一旦发现某选手以注册多个账号的方式参加多支队伍，将取消所有相关队伍的参赛资格。
5.允许使用公开和选手个人/组织内部的代码、工具、数据，但需要保证参赛结果可以复现
6.针对测试集，选手不允许执行任何人工标注。
7.使用大语言模型技术，可自研大模型，也可以基于开源大模型微调，结果可复现就行。
8.参赛选手最终需要提交可运行的代码和方法描述文档，若在排行榜上的结果无法复现，将取消参赛资格。
9.欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。
10.参赛报名链接： CHIP2023-YIER医疗大模型__天池大赛-阿里云天池的赛制 (aliyun.com)

用【钉钉】扫描下方二维码为您解答比赛相关规则

sponsors