中文医疗信息处理挑战榜CBLUE上线
CBLUE的全名是Chinese Biomedical Language Understanding Evaluation,是由中国中文信息学会医疗健康与生物信息处理专业委员发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、夸克、鹏城实验室、北京大学、哈尔滨工业大学(深圳)、同济大学、郑州大学等开展智慧医疗研究的单位共同协办。
CBLUE挑战榜覆盖了医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类和医学问答4大类常见的医学自然语言处理任务,共包含8个子任务,榜单为多个任务提供了统一的评测方式,目的是考察模型的泛化能力。榜单任务数据集由CHIP[1]大会往届的学术评测比赛和部分医疗搜索场景业务数据集组成,业务数据集的特点是数据真实且有噪音,因此对模型的鲁棒性提出了更高的要求。
CBLUE榜单的任务简介如下:
-
医学信息抽取:
- CMeEE (Chinese Medical Entity Extraction dataset):医学实体识别任务。评测任务共标注了 938 个文件, 47,194 个句子,包含了 504 种常见的儿科疾病、 7,085 种身体部位、 12,907 种临床表现、 4,354 种医疗程序等 9 大类医学实体,训练、验证和测试集分别为 15,000 、 5,000 和 3,000 条。数据集来源于CHIP2020学术评测比赛,由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供。
- CMeIE (Chinese Medical Information Extraction dataset):医学关系抽取任务。评测数据集来源于儿科和百余种常见疾病(其中儿科训练语料来源于 518 种儿科疾病,常见疾病训练语料来源于 109 种常见疾病),共标注了 2.8万 疾病语句、近 7.5万 三元组数据和 53 种关系类型。数据集来源于CHIP2020学术评测比赛,由“郑州大学”、“北京大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供。
-
医学术语归一化:
- CHIP-CDN (CHIP - Clinical Diagnosis Normalization dataset):医学术语标准化任务,要求将给定的医学症状实体映射到医学标准字典ICD-10上(如:“右肺结节住院” ->“肺占位性病变”)。评测任务包括训练集 6,000 条,验证集 2,000 条和测试集 10,000 条。数据集来源于CHIP2020学术评测比赛,由医渡云(北京)技术有限公司提供。
-
医学文本分类:
- CHIP-CTC (CHIP - Clinical Trial Criterion dataset):医学文本分类问题。主要针对临床试验筛选标准进行分类,共有 44 个类别。评测任务包括训练集 22,962 条,验证集 7,682 条和测试集 10,000 条。数据集来源于CHIP2019学术评测比赛,由同济大学生命科学与技术学院提供。
- KUAKE-QIC (KUAKE - Query Intention Classification dataset),医学文本分类问题。针对医疗搜索引擎用户查询进行意图识别,共有 11 种类别。评测任务包括训练集 6,931 条,验证集 1,955 条和测试集 1,994 条。数据集由夸克提供。
-
医学问答:
- CHIP-STS (CHIP - Semantic Textual Similarity dataset):医学句子语义匹配问题。数据集包含5大类疾病,给定来自不同病种的问句对,要求判定两个句子语义是否相同或者相近,是 2 分类问题(0/1两类标签)。评测任务包括训练集 16,000 条,验证集 4,000 条和测试集 10,000 条。数据集来源于CHIP2019学术评测会议,由平安医疗科技公司提供提供。
- KUAKE-QTR (KUAKE – Query/Title Relevance dataset):典型的“检索词-页面标题”相关度匹配问题,是一个 4 分类问题(相关性分为0~3分4档)。评测任务包括训练集 24,174 条,验证集 2,913 条和测试集 5,465 条。数据集由夸克提供。
- KUAKE-QQR (KUAKE – Query/Query Relevance dataset):典型的“检索词-检索词”相关度匹配问题,主要用于解决搜索长尾词的检索结果提升问题,是一个 3 分类问题(相关性分为0~2分3档)。评测任务包括训练集 15,000 条,验证集 1,600 条和测试集 1,596 条。数据集由夸克提供。
作为国内首个医疗信息处理领域公开的benchmark,中国中文信息学会医疗健康与生物信息处理专业委员会副主任兼秘书长汤步洲老师表示,以合法开放共享的理念组织医学信息学领域的基础和核心任务的评测,构建公开统一共识的医学信息系统性能评估平台,可以推动医学信息学的快速发展,并助力健康中国战略!
相信CBLUE的建设能有效推动医学标准数据集的建设和领域技术的发展,并在医学AI人才培养、医学临床研究和医疗人工智能技术落地上都发挥重要作用。希望医界、学界和业界的同行们一起加入到CBLUE多任务排行榜的挑战和建设中,共同助力医疗健康行业的发展。
打榜流程请进入CBLUE专题页进行查看: https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge 挑战榜长期开放,每个月排名前5的选手均会获得由天池平台定制的奖品(UTC+8,以当月最后1天系统排名为准,多次进入top5的选手不可重复领取)。