评测二:中文医学文本实体关系抽取

任务简介

实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。

任务详情

给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如

(“subject_type”:“疾病”,“predicate”: “药物治疗”,“object_type”:“药物”) (“subject_type”:“疾病”,“predicate”: “实验室检查”,“object_type”:“检查”)

任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。

输入/输出:

  1. 输入:schema约束集合及句子sentence
  2. 输出:句子sentence中包含的符合给定schema约束的三元组知识Triples

数据简介

本次竞赛使用的数据集是郑州大学自然语言处理实验室、北京大学计算语言学教育部重点实验室、哈尔滨工业大学(深圳)、鹏城实验室人工智能研究中心智慧医疗课题组联合构建,基于schema的中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)。数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。

同时相比于医学教材,临床实践文本指代关系明显,往往一段话中不会直接提及该主题疾病,因此针对临床实践类语料进行预处理,设计规则在每句之前增加主题疾病实体,并以@和原文分割。抽取语料时,如果三元组来源于上下多个句子,此时将句子进行拼接,"spo_list"中的Combined字段记录拼接信息。若句子中存在多个三元组,则记录在"spo_list"字段中,"text"字段记录来源文本。

{"text": "慢性胰腺炎@### 低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并且已经开始被用于非肿瘤性疼痛的治疗。", "spo_list": [ {"Combined": true, "predicate": "放射治疗", "subject": "慢性胰腺炎", "subject_type": "疾病", "object": {"@value": "外照射"}, "object_type": {"@value": "其他治疗"}}, {"Combined": true, "predicate": "放射治疗", "subject": "非肿瘤性疼痛", "subject_type": "疾病", "object": {"@value": "外照射"}, "object_type": {"@value": "其他治疗"}} ] }

下表中展示了数据集中包含的53个schema,包含10种同义词子关系(表1中合并为一种),43种其他子关系。数据集中的语料来自医学教材和临床实践等医学文本。数据集划分方式:训练集(17,924)、测试集Test1(4,482)、测试集Test2(5,602)。 其中训练集用于训练,可供自由下载,测试集Test1供参赛者在平台上自主验证,测试集Test2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。

序号 关系类型 关系子类型 样例
1 疾病_其他 预防 {'Combined': False, 'predicate': '预防', 'subject': '麻风病', 'subject_type': '疾病', 'object': '利福平', 'object_type': '其他'}
2 阶段 {'Combined': False, 'predicate': '阶段', 'subject': '肿瘤', 'subject_type': '疾病', 'object': 'I期', 'object_type': '其他'}
3 就诊科室 {'Combined': False, 'predicate': '就诊科室', 'subject': '腹主动脉瘤', 'subject_type': '疾病', 'object': '初级医疗保健医处', 'object_type': '其他'}
4 疾病_其他治疗 辅助治疗 {'Combined': False, 'predicate': '辅助治疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '非手术破坏', 'object_type': '其他治疗'}
5 化疗 {'Combined': False, 'predicate': '化疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '局部化疗', 'object_type': '其他治疗'}
6 放射治疗 {'Combined': False, 'predicate': '放射治疗', 'subject': '非肿瘤性疼痛', 'subject_type': '疾病', 'object': '外照射', 'object_type': '其他治疗'}
7 疾病_手术治疗 手术治疗 {'Combined': False, 'predicate': '手术治疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '传统手术切除', 'object_type': '手术治疗'}
8 疾病_检查 实验室检查 {'Combined': True, 'predicate': '实验室检查', 'subject': 'HS', 'subject_type': '疾病', 'object': '酸化甘油试验', 'object_type': '检查'}
9 影像学检查 {'Combined': True, 'predicate': '影像学检查', 'subject': '反应性关节炎', 'subject_type': '疾病', 'object': 'X 光', 'object_type': '检查'}
10 辅助检查 {'Combined': False, 'predicate': '辅助检查', 'subject': '类风湿关节炎', 'subject_type': '疾病', 'object': '关节压痛计数', 'object_type': '检查'}
11 组织学检查 {'Combined': False, 'predicate': '组织学检查', 'subject': '幽门螺杆菌感染', 'subject_type': '疾病', 'object': '组织切片法', 'object_type': '检查'}
12 内窥镜检查 {'Combined': True, 'predicate': '内窥镜检查', 'subject': '支气管哮喘', 'subject_type': '疾病', 'object': '支气管镜检査', 'object_type': '检查'}
13 筛查 {'Combined': False, 'predicate': '筛查', 'subject': '急性胰腺炎', 'subject_type': '疾病', 'object': '格拉斯哥预后标准', 'object_type': '检查'}
14 疾病_流行病学 多发群体 {'Combined': True, 'predicate': '多发群体', 'subject': 'SLE', 'subject_type': '疾病', 'object': '近亲发病率也高', 'object_type': '流行病学'}
15 发病率 {'Combined': True, 'predicate': '发病率', 'subject': '脆性X综合征', 'subject_type': '疾病', 'object': '2. 6%', 'object_type': '流行病学'}
16 发病年龄 {'Combined': False, 'predicate': '发病年龄', 'subject': '胰腺癌', 'subject_type': '疾病', 'object': '65到75岁', 'object_type': '流行病学'}
17 多发地区 {'Combined': False, 'predicate': '多发地区', 'subject': '肺癌', 'subject_type': '疾病', 'object': '北美', 'object_type': '流行病学'}
18 发病性别倾向 {'Combined': False, 'predicate': '发病性别倾向', 'subject': '食管癌', 'subject_type': '疾病', 'object': '男性', 'object_type': '流行病学'}
19 死亡率 {'Combined': True, 'predicate': '死亡率', 'subject': '成骨肉瘤', 'subject_type': '疾病', 'object': '很高', 'object_type': '流行病学'}
20 传播途径 {'Combined': False, 'predicate': '传播途径', 'subject': 'HGA', 'subject_type': '疾病', 'object': '通过蜱叮咬传播', 'object_type': '流行病学'}
21 多发季节 {'Combined': True, 'predicate': '多发季节', 'subject': '支原体肺炎', 'subject_type': '疾病', 'object': '秋、冬季', 'object_type': '流行病学'}
22 疾病_疾病 并发症 {'Combined': False, 'predicate': '并发症', 'subject': '登革热', 'subject_type': '疾病', 'object': '横纹肌溶解症', 'object_type': '疾病'}
23 病理分型 {'Combined': False, 'predicate': '病理分型', 'subject': '高苯丙氨酸血症', 'subject_type': '疾病', 'object': '苯丙氨酸羟化酶缺乏', 'object_type': '疾病'}
24 相关(导致) {'Combined': True, 'predicate': '相关(导致)', 'subject': '肾间质炎症', 'subject_type': '疾病', 'object': '特发性高钙尿症', 'object_type': '疾病'}
25 鉴别诊断 {'Combined': True, 'predicate': '鉴别诊断', 'subject': '阵发性室上性心动过速', 'subject_type': '疾病', 'object': '窦性心动过速', 'object_type': '疾病'}
26 相关(转化) {'Combined': False, 'predicate': '相关(转化)', 'subject': '多发性骨髓瘤', 'subject_type': '疾病', 'object': '感染', 'object_type': '疾病'}
27 相关(症状) {'Combined': True, 'predicate': '相关(症状)', 'subject': 'EB病毒感染', 'subject_type': '疾病', 'object': '呼吸道感染', 'object_type': '疾病'}
28 疾病_症状 临床表现 {'Combined': False, 'predicate': '临床表现', 'subject': '类癌综合征', 'subject_type': '疾病', 'object': '外周水肿', 'object_type': '症状'}
29 治疗后症状 {'Combined': True, 'predicate': '治疗后症状', 'subject': '尤因肉瘤', 'subject_type': '疾病', 'object': '肿瘤生长的暂时性停顿', 'object_type': '症状'}
30 侵及周围组织转移的症状 {'Combined': True, 'predicate': '侵及周围组织转移的症状', 'subject': '喉癌', 'subject_type': '疾病', 'object': '颈部肿物', 'object_type': '症状'}
31 疾病_社会学 病因 {'Combined': True, 'predicate': '病因', 'subject': '哮喘', 'subject_type': '疾病', 'object': '剧烈运动', 'object_type': '社会学'}
32 高危因素 {'Combined': False, 'predicate': '高危因素', 'subject': 'HIV 感染', 'subject_type': '疾病', 'object': '成年毒品注射者', 'object_type': '社会学'}
33 风险评估因素 {'Combined': True, 'predicate': '风险评估因素', 'subject': 'FUO', 'subject_type': '疾病', 'object': '传染病接触史', 'object_type': '社会学'}
34 病史 {'Combined': True, 'predicate': '病史', 'subject': '猝死', 'subject_type': '疾病', 'object': '不明原因的晕厥史', 'object_type': '社会学'}
35 遗传因素 {'Combined': True, 'predicate': '遗传因素', 'subject': '急性淋巴细胞白血病', 'subject_type': '疾病', 'object': '同卵双胞胎', 'object_type': '社会学'}
36 发病机制 {'Combined': True, 'predicate': '发病机制', 'subject': 'HSPN', 'subject_type': '疾病', 'object': '纤维蛋白的沉积', 'object_type': '社会学'}
37 病理生理 {"Combined": false, "predicate": "病理生理", "subject": "幽门痉挛", "subject_type": "疾病", "object": "自主神经调节功能差", "object_type": "社会学"}
38 疾病_药物 药物治疗 {'Combined': True, 'predicate': '药物治疗', 'subject': '佝偻病', 'subject_type': '疾病', 'object': '补充维生素D', 'object_type': '药物'}
39 疾病_部位 发病部位 {'Combined': False, 'predicate': '发病部位', 'subject': '肿瘤', 'subject_type': '疾病', 'object': '卵巢', 'object_type': '部位'}
40 转移部位 {'Combined': False, 'predicate': '转移部位', 'subject': '肿瘤', 'subject_type': '疾病', 'object': '累及一侧或双侧卵巢', 'object_type': '部位'}
41 外侵部位 {'Combined': False, 'predicate': '外侵部位', 'subject': '侵袭性鳞状细胞癌', 'subject_type': '疾病', 'object': '皮肤深层', 'object_type': '部位'}
42 疾病_预后 预后状况 {'Combined': False, 'predicate': '预后状况', 'subject': '产毒素性大肠杆菌肠炎', 'subject_type': '疾病', 'object': '病程5~10天', 'object_type': '预后'}
43 预后生存率 {'Combined': True, 'predicate': '预后生存率', 'subject': '横纹肌肉瘤', 'subject_type': '疾病', 'object': '80%', 'object_type': '预后'}
44 同类型实体之间 同义词 {'Combined': False, 'predicate': '同义词', 'subject': '快速连续静脉肾盂造影', 'subject_type': '检查', 'object': 'IVP', 'object_type': '检查'}

评价标准

参赛者在测试集(Test1和Test2)上给出的SPO结果和测试集标注结果进行精准匹配,采用Precision,Recall和F1值作为评价指标。

本次评测将采取刷榜方式,任务测试集发布后,允许参赛队伍多次向平台提交结果,文件命名参考具体任务说明,并以队伍名作为前缀。格式与任务描述中的示例输出相同,排名实时更新。参赛队伍可在Test2发布之前随时上传Test1的计算结果(每天可提交1次),管理系统会及时更新各队伍的最新排名情况;

测试集Test2发布后,允许参赛队伍多次提交测试集Test2结果文件(每天可提交1次)。

最终提交文件要求:最终排名前五的队伍需提交的材料如下。

  1. 问答任务测试集结果文件,用result.txt命名(UTF-8格式)
  2. 相关代码及说明
  3. 方法描述文档

以上三个文件需在任务提交截止日期前发送至邮箱guantf@gs.zzu.edu.cn。邮件的标题为:“医学信息抽取-医学实体-参赛队名称”,例如“医学信息抽取-医学实体-天天向上队”。

代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用code.xxx命名,要求提交所有的程序代码及相关的配置说明,程序应当可以运行且所得结果与result.txt相符。如果方法使用了额外资源,要求说明并提供资源文件或地址。

评测规则

注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。

  1. 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,报名方式稍后在评测网站发布。
  2. 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
  3. 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过4人。
  4. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
  5. 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具。允许使用外部数据,但该数据必须是公开的,并在提交最终结果时一并提交(如数据过大,需提供下载地址)。
  6. 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
  7. 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。

报名方式

网址: http://biendata.com/competition/chip_2020_2

联系人:

  1. 关同峰:guantf@gs.zzu.edu.cn
  2. 李雯昕:wencyli@gs.zzu.edu.cn
  3. 张欢: zhuang_huan@pku.edu.cn
  4. 朱田恬:zhu.tiantian110@gmail.com

任务组织者:

  1. 昝红英,郑州大学 鹏城实验室
  2. 穗志方,北京大学 鹏城实验室
  3. 陈清财,哈尔滨工业大学(深圳) 鹏城实验室

评测主席

  • 雷健波,北京大学医学信息学中心(jianbolei@qq.com)
  • 李作峰,飞利浦亚洲研究院(lizuofengcn@163.com)
  • 汤步洲,哈尔滨工业大学(深圳)鹏城实验室(tangbuzhou@hit.edu.cn)