评测二: 中文医学文本小样本命名实体识别评测任务

1. 任务简介
  中文医学命名实体识别是实现智慧医疗的基础任务,挖掘文本中蕴含的大量疾病、症状和治疗的信息。当前深度学习技术已在该任务上取得显著成果,然而医学领域的数据往往难以获取,不能满足领域迁移和模型训练的要求。小样本学习则更加符合现实应用,关注如何在少量标注数据的情况下保持较高的准确率,并具备良好的泛化能力。

2. 任务详情
  中文医学文本小样本命名实体识别数据集(Chinese Medical text Few-Shot Entity Recognition Dataset,CMFD)包含 15 种标签: itemsociologydiseaseetiologybodyageadjuvanttherapyelectroencephalogramequipmentdrugproceduretreatmentmicroorganismdepartmentepidemiologysymptomothers (不属于实体类型的一种)。数据集考虑了实体类型长尾分布的问题。小样本学习是机器学习的一种特殊情况,限制了目标任务的训练数据量。对于N-way-K-shot命名实体识别任务(N=5,K=1或5),每条数据包含N个类型,且每个类型至少K个实例,构成该数据的support set用于训练,此外还包括相应的query set用于测试。

3. 数据说明
  本评测任务综合了多来源的医学数据,涵盖了儿科疾病、妇产科、心血管疾病和以肺癌、肝癌、乳腺癌为主的重大疾病。 提供两种小样本设置(5-way-1-shot和 5-way-5-shot),每种设置下包含 600 条数据,每条数据包含五个类型, 已经按照类别分布采样,保证训练集中每种类别都至少有一个样例的基础上数据尽可能的。 数据以 4:1:1 的比例划分为训练集、验证集和测试集,每条数据以 json的格式存储, 包含 support 和 query 两个子集,若干个医学句子,句子中实体的标签为序列标注的格式。具体可见下表。
数据集 数据(条) 句子(条) 类型
5w1s train_data 400 2960 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'
dev_data 100 964 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
test_data 100 946 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
5w5s train_data 400 14224 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'
dev_data 100 4707 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
test_data 100 4707 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

  • 数据样例(5-way-1-shot)
      { "support": { "sentences": ["镜下血尿发生率为 49.8%~86.7%,一般 24~48 小时后消失。", "(2)布地奈德(budesonide,BUD):普米克都保或pMDI、英福美;BUD比BDP有较高的受体亲和性和水溶性,而与BMP接近。", " 痰培养、血培养可明确病原。", "患儿由于负氮平衡会导致肌无力和疲劳加重,尤其是婴儿。"], "labels": [ ["equ", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "O", "O", "O"], ["ite", "ite", "ite", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dis", "dis", "dis", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O"] ] }, "query": { "sentences": [ "可通过高通气降低血二氧化碳分压或(和)应用碳酸氢钠液体提高血pH,但两者的意义不同。", "ISKDC4a指50%以上肾小球受累。", "还原糖检查可用改良斑氏试剂或nitest试纸比色。"], "labels": [ ["O", "O", "O", "O", "O", "O", "O", "O", "ite", "ite", "ite", "ite", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "O", "O", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["dis", "dis", "dis", "dis", "dis", "dis", "dis", "O", "O", "O", "O", "O", "O", "sym", "sym", "sym", "sym", "sym", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "O", "O", "O"] ]}, "types": ["sym", "equ", "dru", "dis", "ite"]}
  • 数据格式说明
      "support" : 包含support set中的sentences及其对应的labels
      "query" : 包含query set中的sentences及其对应的labels
      "sentences" : 一个包含若干句子的列表
      "labels" : 一个二维数组,第0维元素为列表,第1维元素中的数据对应sentences中每个字符的标签的缩写。注:测试集中该项为空列表
      "types" : 该条数据中的五种实体类别
  • 4. 评测方式

  • 评价指标
      precision,recall和F1-measure的微平均值
  • 结果提交格式
      需要提交两个文件:5w1s 和 5w5s 的,包含模型预测的 query 的 labels 结果 的 json 格式文件,与数据样例一致。两个文件分别命名为 5w1s_pred.json 和 5w5s_pred.json
  • 结果提交
      上传至评测网站
  • 最终排名前五的队伍还需提交:
      1. 相关代码及说明
      2. 方法描述文档
  • 5. 评测任务组织者

  • 组织者
      1. 昝红英,郑州大学,自然语言处理实验室
      2. 张坤丽,郑州大学,自然语言处理实验室
  • 联系人
      1. 张程豪: zchcolorful@163.com
      2. 李云龙: 1457527772@qq.com
  • 评测任务网页链接:

    https://tianchi.aliyun.com/competition/entrance/532142/introduction

    6. 参赛规则
      注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
       1. 参赛选手需要提交“参赛队名、队长信息(姓名、邮箱、联系电话)、参赛单位名称”等信息。
       2. 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
       3. 每支队伍需指定一名队长,队伍名称不超过 15 个字符,队伍成员不超过 4人。
       4. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
       5. 允许使用公开和选手个人/组织内部的代码、工具、数据,但需要保证参赛结果可以复现。
       6. 针对测试集,选手不允许执行任何人工标注。
       7. 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
       8. 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。