评测四:CHIP-YIER医疗大模型评测任务
1. 任务简介
在现代医疗领域,医疗大模型的应用已经成为改善患者护理和诊断的重要工具。然而,确保这些模型在临床应用中的准确性和可靠性至关重要。本评测任务旨在通过逻辑推理医疗大模型的评测,检验其在医学术语、医学知识、临床规范诊疗和医学计算等其他医学方面的表现。
2. 任务详情
在这个任务中,模型将需要对医学术语、医学知识、临床规范诊疗和医学计算进行理解和逻辑推理。主要任务涵盖以下方面:模型需要精准理解和合理推演医疗领域的术语和知识;模型须能基于医学公式进行计算和推导,准确把握患者症状,并提供恰如其分的专业临床诊疗知识。
3. 数据说明
评测数据将基于真实临床情境进行构建,包括医学考研题、临床执业医师题、医学教材、医学文献/指南、公开医学病历等构建的一系列选择题。数据集将包含不同疾病、病情严重程度、患者特点等多样性因素,以确保评估的全面性和真实性。数据集将被分为训练集和测试集,以保证模型在不同数据分布上的泛化能力。
数据形式:
{
"context":str,
"question":str,
"selection":[str1,str2,str3,str4],
"answer_choices":[str2, str4],
"sample_id":str,
"source":str
}
注:
context:是指医学文本,部分题型无医学文本时请忽略;
question:是指题干问题;
selection:是指题干对应的候选文本项;
answer_choices:答案内容,来自于selection的一个或者多个;
sample_id:是指评测团队拟定的题号;
source:是指该题的来源途径,如执业医师真题、临床考验真题、医学专家自拟题。
数据样例:
case1:
{
"context":"(左侧前列腺)穿刺活检:腺癌(GLeason评分4+3=7分,分级分组3组,),癌组织约占穿刺总体积70%。(右侧前列腺)穿刺活检:腺癌(GLeason评分4+4=8分,分级分组4组,),癌组织约占穿刺总体积60%。",
"question":"从上述文本中结构化出的【肿瘤部位】正确的是()",
"selection":[“前列腺”,“卵巢”,“盆腔”,“腹部”,“以上都不对”],
"answer_choices":[“前列腺”],
"sample_id":"sample_13451",
"source":"医学专家自拟题"
}
case2:
{
"context":"",
"question":"关于补体调控叙述正确的是",
"selection":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤","产生病理效应","细胞表面结合有多种补体调节因子","补体调节蛋白有十余种”],
"answer_choices":[“补体激活过程中生成的中间产物不稳定","只有结合在细胞表面的抗原抗体复合物才能触发经典途径","补体系统活化失控可造成自身损伤","细胞表面结合有多种补体调节因子”],
"sample_id":"sample_1",
"source":"临床考研真题"
}
4. 训练评测数据
数据发布:
评测数据发布本次评测数据分为两次发布:
9月10日:
发布训练集,共1000条数据
9月25日:
发布测试集,共500条数据。测试集中answer_choices字段为空。
评测指标:
由于数据集中答案为多选项,因此本评测采用微平均(Micro Average)F1值作为评测指标。
通过将所有答案的真正例、假正例和假负例的数量加总,然后计算总体的精确率(Precision)、召回率(Recall)和 F1 分数(F1-Score)。
微平均精确率 = (总正确答案数) / (模型总召回答案数)
微平均召回率 = (总正确答案数) / (测试数据中总答案数)
微平均 F1 = 2 * (微平均精确率 * 微平均召回率) / (微平均精确率 + 微平均召回率)
结果提交格式:
在每一测试数据的json中插入模型预测答案,key为“predict_answers”,value为正确答案的list。
结果提交格式:
最终排名前五的队伍还需提交:
1.相关代码和说明
2.方法描述文档
5. 评测组织者
1.焦增涛,医渡云(北京)技术有限公司,
zengtao.jiao@yiducoud.cn
2.张小珍,医渡云(北京)技术有限公司,
xiaozhen.zhang@yiducloud.cn
6. 参赛规则
注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
1.参赛选手需要提交“参赛队名、队长信息(姓名、邮箱、联系电话)、参赛单位名称”等信息。
2.报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
3.每支队伍需指定一名队长,队伍名称不超过 15 个字符,队伍成员不超过 4人。
4.每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
5.允许使用公开和选手个人/组织内部的代码、工具、数据,但需要保证参赛结果可以复现
6.针对测试集,选手不允许执行任何人工标注。
7.使用大语言模型技术,可自研大模型,也可以基于开源大模型微调,结果可复现就行。
8.参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
9.欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。
10.参赛报名链接:
CHIP2023-YIER医疗大模型__天池大赛-阿里云天池的赛制 (aliyun.com)
用【钉钉】扫描下方二维码为您解答比赛相关规则