评测二: 中文医学文本小样本命名实体识别评测任务

1. 任务简介
中文医学命名实体识别是实现智慧医疗的基础任务，挖掘文本中蕴含的大量疾病、症状和治疗的信息。当前深度学习技术已在该任务上取得显著成果，然而医学领域的数据往往难以获取，不能满足领域迁移和模型训练的要求。小样本学习则更加符合现实应用，关注如何在少量标注数据的情况下保持较高的准确率，并具备良好的泛化能力。

2. 任务详情
中文医学文本小样本命名实体识别数据集(Chinese Medical text Few-Shot Entity Recognition Dataset，CMFD)包含 15 种标签： item、 sociology、 disease、 etiology、 body、 age、 adjuvant、 therapy、 electroencephalogram、 equipment、 drug、 procedure、 treatment、 microorganism、 department、 epidemiology、 symptom和 others (不属于实体类型的一种)。数据集考虑了实体类型长尾分布的问题。小样本学习是机器学习的一种特殊情况，限制了目标任务的训练数据量。对于N-way-K-shot命名实体识别任务（N=5，K=1或5），每条数据包含N个类型，且每个类型至少K个实例，构成该数据的support set用于训练，此外还包括相应的query set用于测试。

3. 数据说明
本评测任务综合了多来源的医学数据，涵盖了儿科疾病、妇产科、心血管疾病和以肺癌、肝癌、乳腺癌为主的重大疾病。提供两种小样本设置(5-way-1-shot和 5-way-5-shot)，每种设置下包含 600 条数据，每条数据包含五个类型，已经按照类别分布采样，保证训练集中每种类别都至少有一个样例的基础上数据尽可能的。数据以 4：1：1 的比例划分为训练集、验证集和测试集，每条数据以 json的格式存储，包含 support 和 query 两个子集，若干个医学句子，句子中实体的标签为序列标注的格式。具体可见下表。

数据集数据(条) 句子(条) 类型

5w1s train_data 400 2960 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'

dev_data 100 964 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

test_data 100 946 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

5w5s train_data 400 14224 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'

dev_data 100 4707 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

test_data 100 4707 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

	数据集	数据(条)	句子(条)	类型
5w1s	train_data	400	2960	'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'
dev_data	100	964	'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
test_data	100	946	'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
5w5s	train_data	400	14224	'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru'
dev_data	100	4707	'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'
test_data	100	4707	'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep'

数据样例（5-way-1-shot）
{ "support": { "sentences": ["镜下血尿发生率为 49.8%～86.7%，一般 24～48 小时后消失。", "（2）布地奈德（budesonide，BUD）：普米克都保或pMDI、英福美；BUD比BDP有较高的受体亲和性和水溶性，而与BMP接近。", " 痰培养、血培养可明确病原。", "患儿由于负氮平衡会导致肌无力和疲劳加重，尤其是婴儿。"], "labels": [ ["equ", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "O", "O", "O"], ["ite", "ite", "ite", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dis", "dis", "dis", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O"] ] }, "query": { "sentences": [ "可通过高通气降低血二氧化碳分压或（和）应用碳酸氢钠液体提高血pH，但两者的意义不同。", "ISKDC4a指50%以上肾小球受累。", "还原糖检查可用改良斑氏试剂或nitest试纸比色。"], "labels": [ ["O", "O", "O", "O", "O", "O", "O", "O", "ite", "ite", "ite", "ite", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "O", "O", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["dis", "dis", "dis", "dis", "dis", "dis", "dis", "O", "O", "O", "O", "O", "O", "sym", "sym", "sym", "sym", "sym", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "O", "O", "O"] ]}, "types": ["sym", "equ", "dru", "dis", "ite"]}

数据格式说明
  "support" : 包含support set中的sentences及其对应的labels
  "query" : 包含query set中的sentences及其对应的labels
  "sentences" : 一个包含若干句子的列表
  "labels" : 一个二维数组，第0维元素为列表，第1维元素中的数据对应sentences中每个字符的标签的缩写。注：测试集中该项为空列表
  "types" : 该条数据中的五种实体类别

4. 评测方式

评价指标
precision，recall和F1-measure的微平均值

结果提交格式
需要提交两个文件：5w1s 和 5w5s 的，包含模型预测的 query 的 labels 结果的 json 格式文件，与数据样例一致。两个文件分别命名为 5w1s_pred.json 和 5w5s_pred.json

结果提交
上传至评测网站

最终排名前五的队伍还需提交：
1. 相关代码及说明
2. 方法描述文档

5. 评测任务组织者

组织者
1. 昝红英，郑州大学，自然语言处理实验室
2. 张坤丽，郑州大学，自然语言处理实验室

联系人
1. 张程豪： zchcolorful@163.com
2. 李云龙： 1457527772@qq.com

评测任务网页链接：

https://tianchi.aliyun.com/competition/entrance/532142/introduction

6. 参赛规则
  注意，以下通用规则适用于本评测任务。在此基础上，参赛选手还需遵循具体大赛的特有规则。如有冲突，以后者为准。
   1. 参赛选手需要提交“参赛队名、队长信息（姓名、邮箱、联系电话）、参赛单位名称”等信息。
   2. 报名截止到测试数据集发布，在测试数据集发布之后，未报名的选手/队伍不能再报名或提交。
   3. 每支队伍需指定一名队长，队伍名称不超过 15 个字符，队伍成员不超过 4人。
   4. 每名选手只能参加一支队伍，一旦发现某选手以注册多个账号的方式参加多支队伍，将取消所有相关队伍的参赛资格。
   5. 允许使用公开和选手个人/组织内部的代码、工具、数据，但需要保证参赛结果可以复现。
   6. 针对测试集，选手不允许执行任何人工标注。
   7. 参赛选手最终需要提交可运行的代码和方法描述文档，若在排行榜上的结果无法复现，将取消参赛资格。
   8. 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。