评测六:中药说明书实体识别

任务简介

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为为中医规范诊疗奠定较好基础。挑战旨在通过抽取中药药品说明书中的关键信息,以实现构建中医药药品知识库的目标。

任务详情

本次标注数据源来自中药药品说明书,共包含1997份去重后的药品说明书,其中1200份用于训练数据,400份用作初赛测试数据,剩余的397份用作复赛的测试数据。本次复赛测试数据不对外开放,不可下载且不可见,选手需要在天池平台通过镜像方式提交。共定义了13类实体,具体类别定义如下:

  • 药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散
  • 药物成分(DRUG_INGREDIENT):  中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞
  • 疾病(DISEASE):  疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病
  • 症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛
  • 证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。_ 例子:血瘀、气滞、气血不足、气血两虚_
  • 疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病
  • 食物(FOOD): 指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜
  • 食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物
  • 人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女
  • 药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药
  • 药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片
  • 药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉
  • 中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

数据说明

  • 基于brat(http://brat.nlplab.org/) 开源工具标注。 训练数据包括.txt文件为原始文档,.ann文件为标注信息(如果需要在brat工具可视化查看标注文件,conf文件见附件);测试数据提供txt文本,类训练数据,选手需要为每一个txt文本输出对应的ann文本。
  • 每行包括:实体ID号(以T开头)、实体类别、起始位置、结束位置以及实体内容。其中“实体ID号”和“实体类别”,“结束位置”和“实体内容”之间以tab分隔,“实体类别”、“起始位置”、“结束位置”以空格分隔。 遵循brat默认标注格式。

评价标准:

本次挑战是标准的NER任务,以Micro Strict F1作为最终衡量标准。指标详细定义请参照:https://tianchi.aliyun.com/competition/entrance/531824/information 页面中的“评估标准章节”。

报名方式及任务提交:

选手请在阿里天池平台进行报名:https://tianchi.aliyun.com/competition/entrance/531824/introduction

时间安排:

  1. 报名时间:8月26日—10月19日
  2. 训练数据&初赛数据发布时间:9月21日
  3. 初赛时间:9月21日-10月21日
  4. 复赛时间:10月22日-11月6日
  5. 天池决赛答辩时间:2020年11月

任务组织者:

  1. 陈漠沙,阿里巴巴达摩院机器智能技术语言实验室

评测主席

  • 雷健波,北京大学医学信息学中心(jianbolei@qq.com)
  • 李作峰,飞利浦亚洲研究院(lizuofengcn@163.com)
  • 汤步洲,哈尔滨工业大学(深圳)鹏城实验室(tangbuzhou@hit.edu.cn)

附件:

brat工具标注配置文件:annotation.conf.zip