评测研讨会

简介

今年 CHIP 2023 组织了以下六个评测任务:

1)CHIP-PromptCBLUE 医疗大模型评测任务: 以 ChatGPT、GPT-4 等为代 表的大语言模型掀起了新一轮自然语言处理领域的研究浪潮,展现出了类通 用人工智能(AGI)的能力,受到业界广泛关注。PromptCBLUE-v2 是对 CBLUE 基准进行二次开发,将 18 种不同的医疗场景 NLP 任务全部转化为 基于提示的语言生成任务,形成首个中文医疗场景的 LLM 评测基准,有利于 帮助开源社区和业界快速评测公开的或者自有的 LLM 模型。PromptCBLUE 评测开放两个榜单:(1)不微调赛道,(2)参数高效微调赛道。本次 CHIP-PromptCBLUE-v2 评测任务是 CCKS-PromptCBLUE 评测任务的全面升级

2)中文医学文本小样本命名实体识别评测任务: 中文医学命名实体识别是实现 智慧医疗的基础任务,挖掘文本中蕴含的大量疾病、症状和治疗的信息。当 前深度学习技术已在该任务上取得显著成果,然而医学领域的数据往往难以 获取,不能满足领域迁移和模型训练的要求。小样本学习则更加符合现实应 用,关注如何在少量标注数据的情况下保持较高的准确率,并具备良好的泛 化能力。中文医学文本小样本命名实体识别数据集(Chinese Medical text Few-Shot Entity Recognition Dataset,CMFD)包含 15 种标签。数据集 考虑了实体类型长尾分布的问题。小样本学习是机器学习的一种特殊情况, 限制了目标任务的训练数据量。本评测任务综合了多来源的医学数据,涵盖 了儿科疾病、妇产科、心血管疾病和以肺癌、肝癌、乳腺癌为主的重大疾病。

3)药品纸质文档识别与实体关系抽取任务: 在医药流通行业,开展经营活动时 积累了大量的纸质单据,如药品注册批件,药品 GMP 证书,药品生产许可 证,药品说明书等。其中,药品说明书是载明药品的重要信息的法定文件, 是选用药品的法定指南,具有较高的价值。药品说明书的更新频率往往高于 临床诊疗指南、医学教科书等常见语料来源,且提取难度较高,不同生产厂 商的药品说明书虽然包含的内容相似,但版式上存在较多差异,且蕴含了结 构化和非结构化的信息。从非结构化的文本中抽取药品与其他实体之间的关 系,构建成医学知识图谱,可更好地服务于下游处方审核、辅助诊疗、患者 健康宣教等任务。按照药监局管理规定,药品说明书必须注明药品名称、成 分、适应症、用法用量,不良反应等内容。本任务的目标既要求针对药品说 明书的扫描件进行 OCR 识别,提取规定段落,形成结构化的数据,同时也 需要从指定段落的非结构化文本中,将核心实体和关系挖掘出来。

4)CHIP-YIER 医疗大模型评测任务: 在现代医疗领域,医疗大模型的应用已经 成为改善患者护理和诊断的重要工具。然而,确保这些模型在临床应用中的 准确性和可靠性至关重要。本评测任务旨在通过逻辑推理医疗大模型的评测, 检验其在医学术语、医学知识、临床规范诊疗和医学计算等其他医学方面的 表现。在这个任务中,模型将需要对医学术语、医学知识、临床规范诊疗和 医学计算进行理解和逻辑推理。主要任务涵盖以下方面:模型需要精准理解 和合理推演医疗领域的术语和知识;模型须能基于医学公式进行计算和推导, 准确把握患者症状,并提供恰如其分的专业临床诊疗知识。评测数据将基于 真实临床情境进行构建,包括医学考研题、临床执业医师题、医学教材、医 学文献/指南、公开医学病历等构建的一系列选择题。数据集将包含不同疾病、 病情严重程度、患者特点等多样性因素,以确保评估的全面性和真实性。数 据集将被分为训练集和测试集,以保证模型在不同数据分布上的泛化能力。

5)医疗文献 PICOS 识别任务: 随着近代医学信息学和资料库的发展,医学相 关从业者越来越倾向于采用循证医学的思量来指导自己的学习和工作。循证 医学需要大量的查询资料和文献信息,PICOS 检索方式提升了循证检索的效 率。继在 CHIP2021 大会发布“医疗对话临床发现阴阳性判别任务”和 CHIIP2022 大会发布“医疗因果关系抽取任务”,阿里巴巴夸克医疗团队今 年发布了“医疗论文 PICOS 关键信息抽取任务”。PICOS 原则简介:P (Population):研究对象,患有某种疾病的特定人群;I(Intervention): 干预措施,干预组的治疗方案或暴露因素;C(Comparison):对照措施, 对照组的治疗方案或暴露因素;O(Outcome):结局,重要临床结局,如 有效性、生存率;S(Study design):即研究设计的类型。

6)中文糖尿病问题分类评测任务: 随着互联网的快速发展,庞大的二型糖尿病 患者和高危人群对糖尿病专业信息获取的需求日益突出,糖尿病作为一种典 型慢性疾病已成为全球重大公共卫生挑战之一,糖尿病自动问答服务对患者 和高危人群的日常健康服务也发挥着越来越重要的作用。中文糖尿病问题分 类评测任务旨在自动为患者提出的有关糖尿病问题进行分类。该任务将有助 于增强搜索结果的性能并推动糖尿病自动问答服务的发展。任务数据集包含 的中文糖尿病问题一共分为 6 类,包括诊断、治疗、常识、健康生活方式、 流行病学、其他。