评测二: 中文医学文本小样本命名实体识别评测任务
1. 任务简介
中文医学命名实体识别是实现智慧医疗的基础任务,挖掘文本中蕴含的大量疾病、症状和治疗的信息。当前深度学习技术已在该任务上取得显著成果,然而医学领域的数据往往难以获取,不能满足领域迁移和模型训练的要求。小样本学习则更加符合现实应用,关注如何在少量标注数据的情况下保持较高的准确率,并具备良好的泛化能力。
2. 任务详情
中文医学文本小样本命名实体识别数据集(Chinese Medical text Few-Shot Entity Recognition Dataset,CMFD)包含 15 种标签:
item、
sociology、
disease、
etiology、
body、
age、
adjuvant、
therapy、
electroencephalogram、
equipment、
drug、
procedure、
treatment、
microorganism、
department、
epidemiology、
symptom和
others
(不属于实体类型的一种)。数据集考虑了实体类型长尾分布的问题。小样本学习是机器学习的一种特殊情况,限制了目标任务的训练数据量。对于N-way-K-shot命名实体识别任务(N=5,K=1或5),每条数据包含N个类型,且每个类型至少K个实例,构成该数据的support set用于训练,此外还包括相应的query set用于测试。
3. 数据说明
本评测任务综合了多来源的医学数据,涵盖了儿科疾病、妇产科、心血管疾病和以肺癌、肝癌、乳腺癌为主的重大疾病。
提供两种小样本设置(5-way-1-shot和 5-way-5-shot),每种设置下包含 600 条数据,每条数据包含五个类型,
已经按照类别分布采样,保证训练集中每种类别都至少有一个样例的基础上数据尽可能的。
数据以 4:1:1 的比例划分为训练集、验证集和测试集,每条数据以 json的格式存储,
包含 support 和 query 两个子集,若干个医学句子,句子中实体的标签为序列标注的格式。具体可见下表。
数据集 | 数据(条) | 句子(条) | 类型 | |
---|---|---|---|---|
5w1s | train_data | 400 | 2960 | 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru' |
dev_data | 100 | 964 | 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep' | |
test_data | 100 | 946 | 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep' | |
5w5s | train_data | 400 | 14224 | 'ite', 'soc', 'tre', 'bod', 'sym', 'dis', 'dep', 'dru' |
dev_data | 100 | 4707 | 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep' | |
test_data | 100 | 4707 | 'eti', 'EEG', 'age', 'adj', 'equ', 'mic', 'epi', 'dep' |
{ "support": { "sentences": ["镜下血尿发生率为 49.8%~86.7%,一般 24~48 小时后消失。", "(2)布地奈德(budesonide,BUD):普米克都保或pMDI、英福美;BUD比BDP有较高的受体亲和性和水溶性,而与BMP接近。", " 痰培养、血培养可明确病原。", "患儿由于负氮平衡会导致肌无力和疲劳加重,尤其是婴儿。"], "labels": [ ["equ", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "dru", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "dru", "dru", "dru", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "O", "O", "O"], ["ite", "ite", "ite", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "dis", "dis", "dis", "O", "sym", "sym", "O", "O", "O", "O", "O", "O", "O", "O", "O"] ] }, "query": { "sentences": [ "可通过高通气降低血二氧化碳分压或(和)应用碳酸氢钠液体提高血pH,但两者的意义不同。", "ISKDC4a指50%以上肾小球受累。", "还原糖检查可用改良斑氏试剂或nitest试纸比色。"], "labels": [ ["O", "O", "O", "O", "O", "O", "O", "O", "ite", "ite", "ite", "ite", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "O", "O", "O", "ite", "ite", "ite", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"], ["dis", "dis", "dis", "dis", "dis", "dis", "dis", "O", "O", "O", "O", "O", "O", "sym", "sym", "sym", "sym", "sym", "O"], ["O", "O", "O", "O", "O", "O", "O", "O", "O", "dru", "dru", "dru", "dru", "O", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "equ", "O", "O", "O"] ]}, "types": ["sym", "equ", "dru", "dis", "ite"]}
"support" : 包含support set中的sentences及其对应的labels
"query" : 包含query set中的sentences及其对应的labels
"sentences" : 一个包含若干句子的列表
"labels" : 一个二维数组,第0维元素为列表,第1维元素中的数据对应sentences中每个字符的标签的缩写。注:测试集中该项为空列表
"types" : 该条数据中的五种实体类别
4. 评测方式
precision,recall和F1-measure的微平均值
需要提交两个文件:5w1s 和 5w5s 的,包含模型预测的 query 的 labels 结果 的 json 格式文件,与数据样例一致。两个文件分别命名为 5w1s_pred.json 和 5w5s_pred.json
上传至评测网站
1. 相关代码及说明
2. 方法描述文档
5. 评测任务组织者
1. 昝红英,郑州大学,自然语言处理实验室
2. 张坤丽,郑州大学,自然语言处理实验室
1. 张程豪: zchcolorful@163.com
2. 李云龙: 1457527772@qq.com
评测任务网页链接:
https://tianchi.aliyun.com/competition/entrance/532142/introduction