评测二:中文医学文本实体关系抽取
任务简介
实体和关系抽取作为信息抽取的重要子任务,近些年众多学者利用多种技术在该领域开展深入研究。将这些技术应用于医学领域,抽取非结构化和半结构化的医学文本构建成医学知识图谱,可服务于下游子任务。非结构化的医学文本,如医学教材每一个自然段落,临床实践中每种疾病下的主题,电子病历数据中的主诉、现病史、鉴别诊断等,都是由中文自然语言句子或句子集合组成。实体关系抽取是从非结构化医学文本中找出医学实体,并确定实体对关系事实的过程。
任务详情
给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如
任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
输入/输出:
- 输入:schema约束集合及句子sentence
- 输出:句子sentence中包含的符合给定schema约束的三元组知识Triples
数据简介
本次竞赛使用的数据集是郑州大学自然语言处理实验室、北京大学计算语言学教育部重点实验室、哈尔滨工业大学(深圳)、鹏城实验室人工智能研究中心智慧医疗课题组联合构建,基于schema的中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)。数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。
同时相比于医学教材,临床实践文本指代关系明显,往往一段话中不会直接提及该主题疾病,因此针对临床实践类语料进行预处理,设计规则在每句之前增加主题疾病实体,并以@和原文分割。抽取语料时,如果三元组来源于上下多个句子,此时将句子进行拼接,"spo_list"中的Combined字段记录拼接信息。若句子中存在多个三元组,则记录在"spo_list"字段中,"text"字段记录来源文本。
下表中展示了数据集中包含的53个schema,包含10种同义词子关系(表1中合并为一种),43种其他子关系。数据集中的语料来自医学教材和临床实践等医学文本。数据集划分方式:训练集(17,924)、测试集Test1(4,482)、测试集Test2(5,602)。 其中训练集用于训练,可供自由下载,测试集Test1供参赛者在平台上自主验证,测试集Test2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。
序号 | 关系类型 | 关系子类型 | 样例 |
---|---|---|---|
1 | 疾病_其他 | 预防 | {'Combined': False, 'predicate': '预防', 'subject': '麻风病', 'subject_type': '疾病', 'object': '利福平', 'object_type': '其他'} |
2 | 阶段 | {'Combined': False, 'predicate': '阶段', 'subject': '肿瘤', 'subject_type': '疾病', 'object': 'I期', 'object_type': '其他'} | |
3 | 就诊科室 | {'Combined': False, 'predicate': '就诊科室', 'subject': '腹主动脉瘤', 'subject_type': '疾病', 'object': '初级医疗保健医处', 'object_type': '其他'} | |
4 | 疾病_其他治疗 | 辅助治疗 | {'Combined': False, 'predicate': '辅助治疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '非手术破坏', 'object_type': '其他治疗'} |
5 | 化疗 | {'Combined': False, 'predicate': '化疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '局部化疗', 'object_type': '其他治疗'} | |
6 | 放射治疗 | {'Combined': False, 'predicate': '放射治疗', 'subject': '非肿瘤性疼痛', 'subject_type': '疾病', 'object': '外照射', 'object_type': '其他治疗'} | |
7 | 疾病_手术治疗 | 手术治疗 | {'Combined': False, 'predicate': '手术治疗', 'subject': '皮肤鳞状细胞癌', 'subject_type': '疾病', 'object': '传统手术切除', 'object_type': '手术治疗'} |
8 | 疾病_检查 | 实验室检查 | {'Combined': True, 'predicate': '实验室检查', 'subject': 'HS', 'subject_type': '疾病', 'object': '酸化甘油试验', 'object_type': '检查'} |
9 | 影像学检查 | {'Combined': True, 'predicate': '影像学检查', 'subject': '反应性关节炎', 'subject_type': '疾病', 'object': 'X 光', 'object_type': '检查'} | |
10 | 辅助检查 | {'Combined': False, 'predicate': '辅助检查', 'subject': '类风湿关节炎', 'subject_type': '疾病', 'object': '关节压痛计数', 'object_type': '检查'} | |
11 | 组织学检查 | {'Combined': False, 'predicate': '组织学检查', 'subject': '幽门螺杆菌感染', 'subject_type': '疾病', 'object': '组织切片法', 'object_type': '检查'} | |
12 | 内窥镜检查 | {'Combined': True, 'predicate': '内窥镜检查', 'subject': '支气管哮喘', 'subject_type': '疾病', 'object': '支气管镜检査', 'object_type': '检查'} | |
13 | 筛查 | {'Combined': False, 'predicate': '筛查', 'subject': '急性胰腺炎', 'subject_type': '疾病', 'object': '格拉斯哥预后标准', 'object_type': '检查'} | |
14 | 疾病_流行病学 | 多发群体 | {'Combined': True, 'predicate': '多发群体', 'subject': 'SLE', 'subject_type': '疾病', 'object': '近亲发病率也高', 'object_type': '流行病学'} |
15 | 发病率 | {'Combined': True, 'predicate': '发病率', 'subject': '脆性X综合征', 'subject_type': '疾病', 'object': '2. 6%', 'object_type': '流行病学'} | |
16 | 发病年龄 | {'Combined': False, 'predicate': '发病年龄', 'subject': '胰腺癌', 'subject_type': '疾病', 'object': '65到75岁', 'object_type': '流行病学'} | |
17 | 多发地区 | {'Combined': False, 'predicate': '多发地区', 'subject': '肺癌', 'subject_type': '疾病', 'object': '北美', 'object_type': '流行病学'} | |
18 | 发病性别倾向 | {'Combined': False, 'predicate': '发病性别倾向', 'subject': '食管癌', 'subject_type': '疾病', 'object': '男性', 'object_type': '流行病学'} | |
19 | 死亡率 | {'Combined': True, 'predicate': '死亡率', 'subject': '成骨肉瘤', 'subject_type': '疾病', 'object': '很高', 'object_type': '流行病学'} | |
20 | 传播途径 | {'Combined': False, 'predicate': '传播途径', 'subject': 'HGA', 'subject_type': '疾病', 'object': '通过蜱叮咬传播', 'object_type': '流行病学'} | |
21 | 多发季节 | {'Combined': True, 'predicate': '多发季节', 'subject': '支原体肺炎', 'subject_type': '疾病', 'object': '秋、冬季', 'object_type': '流行病学'} | |
22 | 疾病_疾病 | 并发症 | {'Combined': False, 'predicate': '并发症', 'subject': '登革热', 'subject_type': '疾病', 'object': '横纹肌溶解症', 'object_type': '疾病'} |
23 | 病理分型 | {'Combined': False, 'predicate': '病理分型', 'subject': '高苯丙氨酸血症', 'subject_type': '疾病', 'object': '苯丙氨酸羟化酶缺乏', 'object_type': '疾病'} | |
24 | 相关(导致) | {'Combined': True, 'predicate': '相关(导致)', 'subject': '肾间质炎症', 'subject_type': '疾病', 'object': '特发性高钙尿症', 'object_type': '疾病'} | |
25 | 鉴别诊断 | {'Combined': True, 'predicate': '鉴别诊断', 'subject': '阵发性室上性心动过速', 'subject_type': '疾病', 'object': '窦性心动过速', 'object_type': '疾病'} | |
26 | 相关(转化) | {'Combined': False, 'predicate': '相关(转化)', 'subject': '多发性骨髓瘤', 'subject_type': '疾病', 'object': '感染', 'object_type': '疾病'} | |
27 | 相关(症状) | {'Combined': True, 'predicate': '相关(症状)', 'subject': 'EB病毒感染', 'subject_type': '疾病', 'object': '呼吸道感染', 'object_type': '疾病'} | |
28 | 疾病_症状 | 临床表现 | {'Combined': False, 'predicate': '临床表现', 'subject': '类癌综合征', 'subject_type': '疾病', 'object': '外周水肿', 'object_type': '症状'} |
29 | 治疗后症状 | {'Combined': True, 'predicate': '治疗后症状', 'subject': '尤因肉瘤', 'subject_type': '疾病', 'object': '肿瘤生长的暂时性停顿', 'object_type': '症状'} | |
30 | 侵及周围组织转移的症状 | {'Combined': True, 'predicate': '侵及周围组织转移的症状', 'subject': '喉癌', 'subject_type': '疾病', 'object': '颈部肿物', 'object_type': '症状'} | |
31 | 疾病_社会学 | 病因 | {'Combined': True, 'predicate': '病因', 'subject': '哮喘', 'subject_type': '疾病', 'object': '剧烈运动', 'object_type': '社会学'} |
32 | 高危因素 | {'Combined': False, 'predicate': '高危因素', 'subject': 'HIV 感染', 'subject_type': '疾病', 'object': '成年毒品注射者', 'object_type': '社会学'} | |
33 | 风险评估因素 | {'Combined': True, 'predicate': '风险评估因素', 'subject': 'FUO', 'subject_type': '疾病', 'object': '传染病接触史', 'object_type': '社会学'} | |
34 | 病史 | {'Combined': True, 'predicate': '病史', 'subject': '猝死', 'subject_type': '疾病', 'object': '不明原因的晕厥史', 'object_type': '社会学'} | |
35 | 遗传因素 | {'Combined': True, 'predicate': '遗传因素', 'subject': '急性淋巴细胞白血病', 'subject_type': '疾病', 'object': '同卵双胞胎', 'object_type': '社会学'} | |
36 | 发病机制 | {'Combined': True, 'predicate': '发病机制', 'subject': 'HSPN', 'subject_type': '疾病', 'object': '纤维蛋白的沉积', 'object_type': '社会学'} | |
37 | 病理生理 | {"Combined": false, "predicate": "病理生理", "subject": "幽门痉挛", "subject_type": "疾病", "object": "自主神经调节功能差", "object_type": "社会学"} | |
38 | 疾病_药物 | 药物治疗 | {'Combined': True, 'predicate': '药物治疗', 'subject': '佝偻病', 'subject_type': '疾病', 'object': '补充维生素D', 'object_type': '药物'} |
39 | 疾病_部位 | 发病部位 | {'Combined': False, 'predicate': '发病部位', 'subject': '肿瘤', 'subject_type': '疾病', 'object': '卵巢', 'object_type': '部位'} |
40 | 转移部位 | {'Combined': False, 'predicate': '转移部位', 'subject': '肿瘤', 'subject_type': '疾病', 'object': '累及一侧或双侧卵巢', 'object_type': '部位'} | |
41 | 外侵部位 | {'Combined': False, 'predicate': '外侵部位', 'subject': '侵袭性鳞状细胞癌', 'subject_type': '疾病', 'object': '皮肤深层', 'object_type': '部位'} | |
42 | 疾病_预后 | 预后状况 | {'Combined': False, 'predicate': '预后状况', 'subject': '产毒素性大肠杆菌肠炎', 'subject_type': '疾病', 'object': '病程5~10天', 'object_type': '预后'} |
43 | 预后生存率 | {'Combined': True, 'predicate': '预后生存率', 'subject': '横纹肌肉瘤', 'subject_type': '疾病', 'object': '80%', 'object_type': '预后'} | |
44 | 同类型实体之间 | 同义词 | {'Combined': False, 'predicate': '同义词', 'subject': '快速连续静脉肾盂造影', 'subject_type': '检查', 'object': 'IVP', 'object_type': '检查'} |
评价标准
参赛者在测试集(Test1和Test2)上给出的SPO结果和测试集标注结果进行精准匹配,采用Precision,Recall和F1值作为评价指标。
本次评测将采取刷榜方式,任务测试集发布后,允许参赛队伍多次向平台提交结果,文件命名参考具体任务说明,并以队伍名作为前缀。格式与任务描述中的示例输出相同,排名实时更新。参赛队伍可在Test2发布之前随时上传Test1的计算结果(每天可提交1次),管理系统会及时更新各队伍的最新排名情况;
测试集Test2发布后,允许参赛队伍多次提交测试集Test2结果文件(每天可提交1次)。
最终提交文件要求:最终排名前五的队伍需提交的材料如下。
- 问答任务测试集结果文件,用result.txt命名(UTF-8格式)
- 相关代码及说明
- 方法描述文档
以上三个文件需在任务提交截止日期前发送至邮箱guantf@gs.zzu.edu.cn。邮件的标题为:“医学信息抽取-医学实体-参赛队名称”,例如“医学信息抽取-医学实体-天天向上队”。
代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用code.xxx命名,要求提交所有的程序代码及相关的配置说明,程序应当可以运行且所得结果与result.txt相符。如果方法使用了额外资源,要求说明并提供资源文件或地址。
评测规则
注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
- 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,报名方式稍后在评测网站发布。
- 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
- 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过4人。
- 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
- 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具。允许使用外部数据,但该数据必须是公开的,并在提交最终结果时一并提交(如数据过大,需提供下载地址)。
- 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
- 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。
报名方式
网址: http://biendata.com/competition/chip_2020_2
联系人:
- 关同峰:guantf@gs.zzu.edu.cn
- 李雯昕:wencyli@gs.zzu.edu.cn
- 张欢: zhuang_huan@pku.edu.cn
- 朱田恬:zhu.tiantian110@gmail.com
任务组织者:
- 昝红英,郑州大学 鹏城实验室
- 穗志方,北京大学 鹏城实验室
- 陈清财,哈尔滨工业大学(深圳) 鹏城实验室
评测主席
- 雷健波,北京大学医学信息学中心(jianbolei@qq.com)
- 李作峰,飞利浦亚洲研究院(lizuofengcn@163.com)
- 汤步洲,哈尔滨工业大学(深圳)鹏城实验室(tangbuzhou@hit.edu.cn)