1. 任务简介
淋巴瘤是一种源于淋巴系统的恶性肿瘤,它源自淋巴细胞或淋巴组织的异常增殖。淋巴瘤包括多种亚型,最常分为霍奇金淋巴瘤和非霍奇金淋巴瘤二大类,在全球范围内具有较高的发病率。临床诊断编码是将临床诊断信息转化为特定编码系统的过程,以便记录、传输和分析医学数据。编码系统旨在提供一种标准化的方式,以确保医疗信息的一致性和可比性。对于淋巴瘤的临床诊断,医生需要根据患者的病史、体格检查、实验室检查和影像学表现,尤其是病理诊断等多个方面的信息进行综合评估,然后将诊断结果以特定的编码形式进行记录。淋巴瘤临床诊断的完全肿瘤登记编码任务的难度在于其复杂性和多样性。淋巴瘤亚型众多,每种亚型都具有独特的临床特征和诊断标准。准确编码淋巴瘤是一项具有挑战性的任务。大模型在淋巴瘤临床诊断编码任务中具有巨大的潜力。医疗大模型可以通过学习大规模的医学文献、病例报告和临床指南等数据,掌握丰富的医学知识。它们可以自动化地解析和理解复杂的临床信息,从而提供准确的编码建议。此外,大模型还有望通过模拟编码员的思维过程,提供个性化的编码建议,帮助编码员做出更好的诊断编码。本任务围绕淋巴瘤,针对完全肿瘤登记编码问题,探索大模型的准确性和效率。通过对比大模型与人类的编码结果,可以评估大模型的优势和局限性,并促进大模型在临床实践中的应用。
2. 任务详情
给定淋巴瘤病例的个案报道文本,文本一般包括患者基本资料、检查、诊断和治疗等信息,要求给出对应的临床诊断编码。临床诊断编码以上海市疾病预防控制中心编著的《肿瘤命名与编码》为准,上海科学普及出版社2022年11月第1版。
肿瘤编码包括ICD-10和ICD-O-3,可分为3个部分,结构如下所示:
Ⅰ部分:①-③为ICD-10编码。
Ⅱ部分:①-③为ICD-O-3解剖部位编码。
Ⅲ部分:ICD-O-3病理学编码,其中①-④为ICD-O-3形态学编码,⑤为ICD-O-3行为学编码,⑥为ICD-O-3组织学等级和分化程度编码。
行为学编码包括:
组织学等级和分化程度编码包括:
3. 数据说明
该任务数据来自于已发表的中文医学临床案例报告。通过筛选,我们总共收集了与淋巴瘤疾病相关的病例报道162份。其中训练集54份,测试集A榜54份,测试集B榜54份。A榜数据在比赛期间用于参赛团队调试模型。B榜数据用于评测任务的最终排名。
数据样例如下:
其中,各个部分的介绍如下:
text: 是一个长文本,详细描述了患者的病史,一般包括基本信息、临床表现、检查结果、诊断过程、治疗方案、治疗结果和随访情况等。
date_of_first_diagnosis: 患者首次被诊断为淋巴瘤的日期。
text: gender: 患者的性别。
text: location: 部位。
text: pathological_classification: 病理分期。
text: ICD-10: ICD-10编码。
ICD-O-P: 解剖部位编码。
ICD-O-M: 形态学编码和行为学编码。
ICD-O-H: 组织学等级和分化程度编码。
输入:
text: 上述信息中,text是患者的信息,作为模型的输入。
输出:
text: date_of_first_diagnosis、gender、location和pathological_classification是与编码相关的信息,有助于编码,模型需要进行抽取,但不用于最终排名打分。肿瘤编码部分,ICD-O-P需要提取,但是在本任务中不用于最终排名打分。模型最终的评估包括ICD-10、ICD-O-M、ICD-O-H,用作最终模型性能评估,三部分的权重分别为0.3、0.5和0.2。
4. 评价指标 本评测任务采用Accuracy为评估指标。肿瘤编码的各部分分别计算Accuracy,并按照相应系数计算总体Accuracy。定义如下:
总体Accuracy = 0.1*(I部分①②.③)+0.1*(II部分①②.③)+0.5*(III部分①②③④)+0.1*(III部分/⑤)+0.2*(III部分⑥)
最终排名以总体Accuracy为准。
5. 获奖队伍材料提交
B榜最终排名前三的队伍还需提交以下材料:
1.相关代码及说明。
2.方法描述文档。
3.如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址: zonghui0228@163.com ,邮件的标题为:“CHIP2024-淋巴瘤任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。
6. 参赛规则
1)每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
2)允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
3)获奖选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
4)获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
5)欢迎国内外在校生及企业人员参加,个人不可参赛,比赛组织方成员不可参赛。
6)组队人数限制1-5人。
7)每日提交结果次数为3次。
8)该任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。
7. 报名方式
本次评测任务依托阿里云天池平台展开,参赛链接见 https://tianchi.aliyun.com/competition/entrance/532260 。请加入以下钉钉群,任务相关事宜讨论群。
8. 报名方式
报名参赛开始时间:9月20日
训练数据发布时间:9月20日
A榜测试数据发布时间:9月20日
A榜测试结果提交截止时间:10月20日
B榜测试数据发布时间:10月20日
报名参赛截止时间:10月20日
B榜测试结果提交截止时间:10月25日
评测论文提交截止时间:11月15日
会议日期(评测报告及颁奖):11月15日-11月17日
9. 任务组织者
宗辉,四川大学华西医院
陶亮,上海商学院
李作峰,专委会委员
汤步洲,哈尔滨工业大学(深圳)鹏城实验室
淋巴瘤是一种源于淋巴系统的恶性肿瘤,它源自淋巴细胞或淋巴组织的异常增殖。淋巴瘤包括多种亚型,最常分为霍奇金淋巴瘤和非霍奇金淋巴瘤二大类,在全球范围内具有较高的发病率。临床诊断编码是将临床诊断信息转化为特定编码系统的过程,以便记录、传输和分析医学数据。编码系统旨在提供一种标准化的方式,以确保医疗信息的一致性和可比性。对于淋巴瘤的临床诊断,医生需要根据患者的病史、体格检查、实验室检查和影像学表现,尤其是病理诊断等多个方面的信息进行综合评估,然后将诊断结果以特定的编码形式进行记录。淋巴瘤临床诊断的完全肿瘤登记编码任务的难度在于其复杂性和多样性。淋巴瘤亚型众多,每种亚型都具有独特的临床特征和诊断标准。准确编码淋巴瘤是一项具有挑战性的任务。大模型在淋巴瘤临床诊断编码任务中具有巨大的潜力。医疗大模型可以通过学习大规模的医学文献、病例报告和临床指南等数据,掌握丰富的医学知识。它们可以自动化地解析和理解复杂的临床信息,从而提供准确的编码建议。此外,大模型还有望通过模拟编码员的思维过程,提供个性化的编码建议,帮助编码员做出更好的诊断编码。本任务围绕淋巴瘤,针对完全肿瘤登记编码问题,探索大模型的准确性和效率。通过对比大模型与人类的编码结果,可以评估大模型的优势和局限性,并促进大模型在临床实践中的应用。
2. 任务详情
给定淋巴瘤病例的个案报道文本,文本一般包括患者基本资料、检查、诊断和治疗等信息,要求给出对应的临床诊断编码。临床诊断编码以上海市疾病预防控制中心编著的《肿瘤命名与编码》为准,上海科学普及出版社2022年11月第1版。
肿瘤编码包括ICD-10和ICD-O-3,可分为3个部分,结构如下所示:
C_ | _ | ._ | C_ | _ | ._ | M-_ | _ | _ | _ | /_ | _ |
D_ | _ | ._ | C_ | _ | ._ | M-_ | _ | _ | _ | /_ | _ |
Ⅰ① | ② | .③ | Ⅱ① | ② | .③ | Ⅲ-① | ② | ③ | ④ | /⑤ | ⑥ |
Ⅱ部分:①-③为ICD-O-3解剖部位编码。
Ⅲ部分:ICD-O-3病理学编码,其中①-④为ICD-O-3形态学编码,⑤为ICD-O-3行为学编码,⑥为ICD-O-3组织学等级和分化程度编码。
行为学编码包括:
编码 | 意义 |
---|---|
/0 | 良性 |
/1 | 良性或恶性未确定/交界性 潜在低度恶性/潜在恶性未肯定 |
/2 | 原位肿瘤/上皮内的/非浸润性/非侵袭性 |
/3 | 恶性,原发部位 |
/6 | 恶性,转移部位/恶性,继发部位 |
/9 | 恶性,原发部位或转移部位未确定 |
编码 | 意义 | |
---|---|---|
1 | Ⅰ级/高分化/已分化/分化好 | |
2 | Ⅱ级/中分化/已中等分化 | |
3 | Ⅲ级/低分化/分化差/异型性 | |
4 | Ⅳ级/未分化/间变性/去分化/多形性 | |
5 | T-细胞/前-T/T前体细胞 | 仅适用于淋巴瘤白血病(M-9590~9989) |
6 | B-细胞/前-B/B-前体细胞 | |
7 | 无标记淋巴细胞/非T-非B/淋巴细胞的未分化/间变性 | |
8 | 自然杀伤(NK)细胞 | |
9 | 等级或分化程度未确定,未指出或不适用的 细胞类型未确定,未指出或不适用的 |
该任务数据来自于已发表的中文医学临床案例报告。通过筛选,我们总共收集了与淋巴瘤疾病相关的病例报道162份。其中训练集54份,测试集A榜54份,测试集B榜54份。A榜数据在比赛期间用于参赛团队调试模型。B榜数据用于评测任务的最终排名。
数据样例如下:
text: 是一个长文本,详细描述了患者的病史,一般包括基本信息、临床表现、检查结果、诊断过程、治疗方案、治疗结果和随访情况等。
date_of_first_diagnosis: 患者首次被诊断为淋巴瘤的日期。
text: gender: 患者的性别。
text: location: 部位。
text: pathological_classification: 病理分期。
text: ICD-10: ICD-10编码。
ICD-O-P: 解剖部位编码。
ICD-O-M: 形态学编码和行为学编码。
ICD-O-H: 组织学等级和分化程度编码。
输入:
text: 上述信息中,text是患者的信息,作为模型的输入。
输出:
text: date_of_first_diagnosis、gender、location和pathological_classification是与编码相关的信息,有助于编码,模型需要进行抽取,但不用于最终排名打分。肿瘤编码部分,ICD-O-P需要提取,但是在本任务中不用于最终排名打分。模型最终的评估包括ICD-10、ICD-O-M、ICD-O-H,用作最终模型性能评估,三部分的权重分别为0.3、0.5和0.2。
4. 评价指标 本评测任务采用Accuracy为评估指标。肿瘤编码的各部分分别计算Accuracy,并按照相应系数计算总体Accuracy。定义如下:
总体Accuracy = 0.1*(I部分①②.③)+0.1*(II部分①②.③)+0.5*(III部分①②③④)+0.1*(III部分/⑤)+0.2*(III部分⑥)
最终排名以总体Accuracy为准。
5. 获奖队伍材料提交
B榜最终排名前三的队伍还需提交以下材料:
1.相关代码及说明。
2.方法描述文档。
3.如果方法使用了额外公开的数据资源,要求说明并提供资源文件或地址,包括但不限于代码、工具和数据。要求所使用的资源是公开可获取的。
选手需要将以上材料在任务提交截止日期前发送至邮箱,邮箱地址: zonghui0228@163.com ,邮件的标题为:“CHIP2024-淋巴瘤任务-参赛队伍名称”。代码及文档需打包成一个文件(zip,rar等均可),作为邮件附件传送,要求提交所有的程序代码及相关的配置说明。
说明: 若没有提交上述材料,将视为自动放弃参与评奖。评奖资格将会自动顺延至排名紧随其后的队伍。要求提交所有的程序代码及相关的配置说明,程序应当可以运行,可以供组织者验证,若排行榜上的结果无法复现,将取消比赛资格。
6. 参赛规则
1)每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
2)允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
3)获奖选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
4)获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
5)欢迎国内外在校生及企业人员参加,个人不可参赛,比赛组织方成员不可参赛。
6)组队人数限制1-5人。
7)每日提交结果次数为3次。
8)该任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。
7. 报名方式
本次评测任务依托阿里云天池平台展开,参赛链接见 https://tianchi.aliyun.com/competition/entrance/532260 。请加入以下钉钉群,任务相关事宜讨论群。
报名参赛开始时间:9月20日
训练数据发布时间:9月20日
A榜测试数据发布时间:9月20日
A榜测试结果提交截止时间:10月20日
B榜测试数据发布时间:10月20日
报名参赛截止时间:10月20日
B榜测试结果提交截止时间:10月25日
评测论文提交截止时间:11月15日
会议日期(评测报告及颁奖):11月15日-11月17日
9. 任务组织者
宗辉,四川大学华西医院
陶亮,上海商学院
李作峰,专委会委员
汤步洲,哈尔滨工业大学(深圳)鹏城实验室