评测一: 中文医学文本命名实体识别
任务简介
实体识别作为信息抽取的一个重要子任务,近些年已经取得了阶段性成果。对于医学领域的自然语言文献,例如医学教材、医学百科、临床病例、医学期刊、入院记录、检验报告等,这些文本中蕴含大量医学专业知识和医学术语。将实体识别技术与医学专业领域结合,利用机器读取医学文本,可以显著提高临床科研的效率和质量,并且可服务于下游子任务。要想让机器“读懂”医学数据,核心在于让计算机在大量医学文本中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。医学领域中非结构化的文本,都是由中文自然语言句子或句子集合组成。实体抽取是从非结构化医学文本中找出医学实体,如疾病、症状的过程。
任务详情
本评测任务为面向中文医学文本的命名实体识别,即给定schema及句子sentence,对于给定的一组纯医学文本文档,任务的目标是识别并抽取出与医学临床相关的实体,并将他们归类到预先定义好的类别。将医学文本命名实体划分为九大类,包括:疾病,临床表现,药物,医疗设备,医疗程序,身体,医学检验项目,微生物类,科室。标注之前对文章进行自动分词处理,所有的医学实体均已正确切分。
命名实体标注的基本原则:
- “临床表现”实体类别中允许嵌套,该实体内部允许存在其他八类实体;
- 除了“临床表现”实体之外的医学实体,在标注时遵循“最大单位标注法”,即如果一个实体类别里包含其他的实体,只需要将最大的实体标注出来,不需要做嵌套标注。
- 为了保证医学实体意义的可理解性和完整性,九类实体内部可以包含必要的标点符号,实体可以是一个词、短语或句子。
输入/输出:
- 输入:句子sentence
- 输出:句子sentence中包含的医学实体位置和实体类型
数据简介
本次竞赛使用的数据集是由北京大学计算语言学教育部重点实验室、郑州大学信息工程学院自然语言处理实验室、哈尔滨工业大学(深圳)、以及鹏城实验室人工智能研究中心智慧医疗课题组联合构建。总字数达到220万,包含47194个句子,938个文件,平均每个文件的字数为2355。数据集包含504种常见的儿科疾病、7,085种身体部位、12,907种临床表现、4,354种医疗程序等九大类医学实体。
句子记录来源文本,记录医学实体的位置以及标签,医学实体的位置和标签之间以四个空格分隔。该示例中存在临床表现实体中嵌套身体实体。其中“呼吸肌麻痹”、“呼吸中枢受累”为临床表现实体,实体内部分别嵌套“呼吸肌”、“呼吸中枢”身体实体。
“呼吸肌麻痹和呼吸中枢受累患者因呼吸不畅可并发肺炎、肺不张等。|||0 2 bod|||0 4 sym|||6 9 bod|||6 11 sym|||15 18 sym|||22 23 dis|||25 27 dis|||”
下表中展示实体的标记方案及样例。数据集中的语料来自临床儿科学,数据集划分方式:训练集(15,000),验证集(5,000),测试集Test1(3,000),测试集Test2(3,618)。 其中训练集用于训练,可供自由下载,测试集分为两个,测试集Test1供参赛者在平台上自主验证,测试集Test2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。
序号 | 命名实体类别 | 子类 | 标签 | 样例 |
---|---|---|---|---|
1 | 疾病 | 疾病或综合症 | dis | 尿潴留者易继发泌尿系感染。|||0 2 dis|||7 11 dis||| |
中毒或受伤 | ||||
器官或细胞受损 | ||||
2 | 临床表现 | 症状 | sym | 逐渐出现呼吸困难、阵发性喘憋,发作时呼吸快而浅,并伴有呼气性喘鸣,明显鼻扇及三凹征。|||4 7 sym|||9 13 sym|||18 31 sym|||35 35 bod|||33 36 sym|||38 40 sym||| |
体征 | ||||
3 | 医疗程序 | 检查程序 | pro | 用免疫学方法检测某种病原体的特异抗原很有诊断价值,因其简单快速,常常用于早期诊断,诊断意义常较抗体检测更为可靠。|||1 7 pro|||47 50 pro||| |
治疗或预防程序 | ||||
4 | 医疗设备 | 检查设备 | equ | (一)病原体的检出1.病原体的直接检出很多感染性疾病可以通过肉眼或显微镜直接检出病原体而确诊,这些病原体都有其形态学特征而易于认定。|||33 35 equ||| |
治疗设备 | 寄生虫成虫可以在患儿的大便中看到,通过显微镜可以从大便查出各种寄生虫虫卵及阿米巴原虫等。|||0 4 mic|||31 33 mic||| | |||
5 | 药物 | 药物 | dru | 已有2种EBV疫苗用于志愿者:表达EBVgp320的重组痘病毒疫苗和提纯病毒gp320膜糖蛋白的疫苗,有望开发应用于EBV感染的预防。|||4 8 dru|||15 32 dru|||34 49 dru|||58 62 dis||| |
6 | 医学检验项目 | 医学检验项目 | ite | 配方中的重要参数包括渗透压、肾溶质负荷、热能密度、黏稠度和组成成分等。|||10 12 ite|||14 18 ite|||20 23 ite|||25 27 ite|||29 32 ite||| |
7 | 身体 | 身体物质 | bod | 脾破裂罕见,却为严重并发症,故检查脾脏时不宜重按。|||0 0 bod|||0 2 sym|||17 18 bod||| |
身体部位 | ||||
8 | 科室 | 科室 | dep | 因此,应强调定期眼科随访。|||8 9 dep||| |
9 | 微生物类 | 微生物类 | mic | 寄生虫成虫可以在患儿的大便中看到,通过显微镜可以从大便查出各种寄生虫虫卵及阿米巴原虫等。|||0 4 mic|||31 33 mic||| |
评价标准
参赛者在测试集上给出的SPO结果和测试集标注结果进行精准匹配, 采用F1值、宏平均、微平均的方式作为评价指标。
本次评测将采取刷榜方式,任务测试集发布后,允许参赛队伍多次向平台提交结果,文件命名参考具体任务说明,并以队伍名作为前缀。格式与任务描述中的示例输出相同,排名实时更新。参赛队伍可在Test2发布之前随时上传Test1的计算结果(每天可提交1次),管理系统会及时更新各队伍的最新排名情况;
测试集Test2发布后,允许参赛队伍多次提交测试集Test2结果文件(每天可提交1次)。
最终提交文件要求:最终排名前五的队伍需提交的材料如下。
- 问答任务测试集结果文件,用result.txt命名(UTF-8格式)
- 相关代码及说明
- 方法描述文档
以上三个文件需在任务提交截止日期前发送至邮箱wencyli@gs.zzu.edu.cn。邮件的标题为:“医学信息抽取-医学实体-参赛队名称”,例如“医学信息抽取-医学实体-天天向上队”。
代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用code.xxx命名,要求提交所有的程序代码及相关的配置说明,程序应当可以运行且所得结果与result.txt相符。如果方法使用了额外资源,要求说明并提供资源文件或地址。
评测规则
注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
- 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,报名方式稍后在评测网站发布。
- 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
- 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过4人。
- 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
- 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具。允许使用外部数据,但该数据必须是公开的,并在提交最终结果时一并提交(如数据过大,需提供下载地址)。
- 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
- 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。
报名方式
网址: http://biendata.com/competition/chip_2020_1
联系人:
- 张欢: zhuang_huan@pku.edu.cn
- 李雯昕:wencyli@gs.zzu.edu.cn
- 关同峰:guantf@gs.zzu.edu.cn
- 朱田恬:zhu.tiantian110@gmail.com
任务组织者:
- 常宝宝,北京大学 鹏城实验室
- 张坤丽,郑州大学 鹏城实验室
- 陈清财,哈尔滨工业大学(深圳) 鹏城实验室
评测主席
- 雷健波,北京大学医学信息学中心(jianbolei@qq.com)
- 李作峰,飞利浦亚洲研究院(lizuofengcn@163.com)
- 汤步洲,哈尔滨工业大学(深圳)鹏城实验室(tangbuzhou@hit.edu.cn)