评测研讨会

简介

CHIP 2022组织了以下五个评测任务：

1）面向“基因-疾病”的关联语义挖掘任务：在海量科学文献中，“基因-疾病”的关联机理通过突变、基因等系列分子对象及其触发词获得描述，自然语言处理为自动挖掘这一隐性知识条目提供了可能，亦为健康医学信息的自动化处理提供解决方案。本任务包括三个子任务：1、触发词实体识别；2、语义角色标注，3、“基因，调控类型，疾病”三元组抽取。所有数据取自AGAC语料库。

2）临床医疗因果实体关系抽取任务：现代医疗很强调解释性，医生在诊断，治疗和评估上，都要求从患者为中心出发，突出医疗的因果关系。因此互联网上存在大量的医疗的问答和知识类的文本中存在大量的因果关系解释，在帮助患者的同时，对于医疗搜索和诊断业务来说也具有巨大的价值，从中可以挖掘抽取医疗因果关系构建因果关系解释网络，构建医疗因果知识图谱，提升对医疗结果的逻辑性和可解释性的判断能力。继在 CHIP2021 大会发布“ 医疗对话临床发现阴阳性判别任务 ”后，阿里巴巴夸克医疗团队今年发布了“医疗因果关系抽取任务”。

3）从医疗文本中抽取诊疗决策树：作为辅助诊疗系统、医疗教学等智慧医疗系统的核心，诊疗决策树的获取往往依赖医学专家的手工构建，需要大量的领域知识且费时费力。临床诊疗可以看作是一个根据不同的条件进行判断，然后做出不同决策的过程。这种临床诊疗过程可以被建模为临床诊疗决策树。临床诊疗决策树是一棵由条件节点和决策节点组成的树型结构，条件节点表示需要做出的条件判断，决策节点表示需要做出的诊疗决策。本任务目标是从给定的医疗文本抽取出诊疗决策树。诊疗决策树表示简化的决策过程，即根据条件判断的不同结果做出下一个条件判断或决策。本任务既要求模型能够将文本中的核心实体和关系挖掘出来，也需要将这些信息进行串联，形成一个完整的决策流程。

4）医疗纸质文档电子档(ePaper)OCR识别：当前医院中使用的病历材料依然以纸质为主，其中信息包含：客户信息，诊断信息，用药信息，费用信息等。在医疗行业、保险行业中，这些信息具有很高的商业及科研价值，且提取难度较高，目前还多依赖人工录入。随着OCR与NLP等人工智能技术在生产生活中的应用的逐渐发展普及，与传统人工录入相比，利用OCR及NLP技术的应用可以有效提升工作效率，并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。本次任务数据集中包括：出院小结、门诊发票、购药发票、住院发票这四类病历材料。主要针对需求：生活场景图片，提取数据，并生成电子结构化数据。

5）临床诊断编码任务：作疾病分类与手术操作分类编码是对患者疾病诊断和治疗信息的加工过程，是病案信息管理的重要环节。病案编码已成为医院科学化、信息化管理的重要依据之一，它在评估医疗质量与医疗效率、设计临床路径方案、重点学科评价、医院评审、疾病诊断分级、传染病报告、医疗付款、合理用药监测等方面的应用越来越广泛、越来越深入。本次评测任务主要目标是针对中文电子病历中进行诊断编码。给定一次就诊的相关诊断信息（包括入院诊断、术前诊断、术后诊断、出院诊断），以及手术名称、药品名称、医嘱名称，要求给出其对应的国家临床版2.0标准词。所有就诊数据均来自于真实医疗数据，并以《疾病分类与代码国家临床版2.0》词表为标准进行了标注。