评测一: 医学对话临床发现阴阳性判别任务

Task1: Classifying Positive and Negative Clinical Findings in Medical Dialog Task

任务简介

临床发现(Clinical Finding)是临床医学下，病人状态描述的概念集合，每一个临床发现的概念都具有明确的涵义（比如腹泻，呕吐，高温，物理降温，降温药物治疗），医学为了保证其严谨性对每一个概念都进行了明确的定义和说明。

医学临床报告是病人状态的汇总性的描述，为了尽可能全面和精准的对病人的状态进行客观描述，需要利用严谨的临床发现的概念对病人状态进行表达，其中最基本的状态就是阴性和阳性，也就是病人是否存在或者发生某一种明确的临床发现（Clinical Finding）。

目前互联网医疗患者会对自己的症状进行一些口语化的描述，一般称之为主诉，同时医生也为针对性的进行一些问诊，来进行一些主诉的细化和补充。针对互联网医疗对话场景，阿里巴巴夸克团队计划在CHIP会议上开展一系列学术评测任务，本次评测是第一期，主要是对互联网在线问诊记录中的临床发现的部分进行阴阳性的分类判别。

任务详情

本次标注数据全部来源于春雨医生的互联网在线问诊的公开数据。阴阳性的定义一般认为是患者主诉病情描述和医生诊断判别中的阴性和阳性。SOAP(Subjective,Objective,Assessment,Plan) 评估记录法是目前国际上最常用以问题为导向的医学记录方法，阴阳性需要处理主要是S和A中相关的实体的判别。数据预处理是先对齐进行SOAP分类，然后对S和A的部分进行NER识别，然后在此基础上进行阴阳性的标注。注：并不是对话中所有的临床发现的NER的部分都需要进行识别和标注，只需要对表述病人主客观存在的临床发现，以及对应的诊断结果进行判别。

阴阳性标注标准

一、标注属性

阴性、阳性、其他、不标注

二、标注标准

共分为四类，本期评测涉及到对话类的，医患的交互中的症状/疾病，需要考虑上下文联系、逻辑关系，来对症状的阴阳性和“其他”（一般用户没有回答，或者回答不明确，不知道）来做判断。
  （1）阳性(pos)：已有症状疾/病等相关，医生诊断（包含多个诊断结论），以及假设未来可能发生的疾病等，如：“如果不治疗的话，大概率会引起A疾病”，“A疾病”标注为阳性
  （2）阴性(neg)：未患有的疾病症状相关；
  （3）其他(other)：未知的标注其他，一般指用户没有回答、不知道或者回答不明确/模棱两可不好推断的情况。
  （4）不标注(empty)：无实际意义的不标注，一般是医生的解释说的是一般知识，和病人当前的状态条件独立不具有标注意义，及有些检查项带疾病名称的，识别的疾病（乙肝五项/ 乙肝抗体），药品名中出现的“疾病”不标注。

三、标注例子

例子1：
    病人：医生您好，从昨天晚上开始肚子一直疼，，吃了布洛芬有所缓解。---- “肚子一直疼”标记阳性
    医生：肚子疼，是上腹部疼么？---- “肚子疼”标记阳性，是基于上文推断；“上腹部疼”标记阴性，基于下文推断。
    病人：不是，主要是下腹部疼。---- “下腹部疼”标记阳性 ;
    医生：是针扎样的疼么？---- “针扎样的疼”标注其他 ;
    病人：不知道，描述不出来，有点抽筋的那种疼。 ---- “针扎样的疼”标注其他 ;
    ……
    医生：这种情况考虑为急性肠胃炎导致的，急性肠胃炎可能除了腹疼之外，可能还会引起腹泻等，需要即时补充水分。---- “腹疼”和“腹泻”均标注为不标注，是医生解释医学常识。 .

   例子2：
    医生：有尿急尿频吗？ ----“尿急”、“尿频”标注阳性
    患者：有点。

   例子3：
    医生：请问白带有异味吗？外阴痒吗？----“白带有异味”标注阳性、“外阴痒”标注阴性
    患者：外阴在一个月之前有些发痒，但是现在不痒，白带闻起来有点腥臭味----第一处“痒”标注阳性，第二处“痒”标注阴性

   例子4：
    医生：有头晕呕吐吗？----“头晕”标注其他
    患者：不确定是不是头晕，感觉不头晕但好像又是头晕 ---- 三个“头晕”均标注其他，用户的回答模棱两可不好判断，标注“其他”

   例子5：
    医生：腹泻几次了？有呕吐腹痛吗？----“腹泻”标阳性，“呕吐”- 阳性 “腹痛”- 阳性
    患者：从昨天到今天三四次，也没敢吃东西，吃点就要去厕所，其他都还好，昨天吃了不新鲜的水果，
    患者：吃完过一会儿就肚子痛，没吐，晚上喝点粥不知道能不能好点---- “肚子痛”标阳性，“吐”标阴性

   例子6：
    患者：坐起来就不怎么痛，躺着就痛，站着不动也不怎么痛，走路慢点也还好，快点就痛 ----四个“痛”，分别标注阴性，阳性，阴性和阳性

   例子7：
    患者：我前天打篮球扭到了脚踝，现在脚踝处很疼，并且已经肿了，该怎么治疗
    医生：你这属于踝关节扭伤，现在需要消肿，止痛治疗； ----“肿”、“痛”均标注阳性

   例子8：
    患者：我害怕是糖尿病。----“糖尿病”标注阴性，
    医生：你这个不是糖尿病，这种情况考虑是肠炎，肠胃炎。可以服用一些治疗肠炎药物，如康恩贝肠炎宁胶囊；----“糖尿病”标记阴性，第一个“肠炎”，“肠胃炎”均标注阳性，第二、三个“肠炎”均标记为不标注

数据说明

·标注样本举例：

·导出数据示例（实际开放给选手的数据格式）：

[ { "text":"胃肠感冒拉水第三天了", "ner":[ { "name":"腹泻", "mention":"拉水", "range":[ 4, 6 ], "type":"clinical_findings", "attr":"阳性" }, { "name":"胃肠型感冒", "mention":"胃肠感冒", "range":[ 0, 4 ], "type":"clinical_findings", "attr":"阳性" } ], "sender":"患者" }, { "text":"你好，有没有其发烧？有没有呕吐？", "ner":[ { "name":"呕吐", "mention":"呕吐", "range":[ 13, 15 ], "type":"clinical_findings", "attr":"阳性" }, { "name":"发热", "mention":"发烧", "range":[ 7, 9 ], "type":"clinical_findings", "attr":"阴性" } ], "sender":"医生" }, { "text":"没发烧", "ner":[ { "name":"发热", "mention":"发烧", "range":[ 1, 3 ], "type":"clinical_findings", "attr":"阴性" } ], "sender":"患者" }, { "text":"半夜吐了一次不多", "ner":[ { "name":"呕吐", "mention":"吐", "range":[ 2, 3 ], "type":"clinical_findings", "attr":"阳性" } ], "sender":"患者" }, { "text":"其他时间都是拉水便", "ner":[ { "name":"水样便", "mention":"拉水便", "range":[ 6, 9 ], "type":"clinical_findings", "attr":"阳性" } ], "sender":"患者" } ]

·数据格式说明：以json格式提供，包括如下字段：

text：段落文本
sender：患者或者医生
NER：实体的识别以及阴阳性的标签
- mention：短文中出现的和实体匹配的字段
- name：mention对应的标准名。 ·注：不是所有的mention都有对应的标准名
- range：mention在句子中的上下标
- type：实体类型，均统一成“clinical_findings”，不再区分症状或者疾病
- attr: 阴性/阳性/其他/不标注

本次评测共提供6000段对话语料作为训练集，测试分为两阶段，A、B榜单各提供2000段对话用来做测试数据，其中B榜提交时间会限制在48H内。

评价标准

测试数据只需要预测"attr"的部分，本评测采用Macro-F1作为评估指标。假设我们有n个类别，C1, … …, Ci, … …, Cn，计算公示如下：

准确率Pi = 正确预测为类别Ci的样本个数 / 预测为Ci类的样本个数。

召回率Ri = 正确预测为类别Ci的样本个数 / 真实的Ci类的样本个数。

注：评价指标可能会追加个别类别（如“阴性”）的评分项，由任务组织方做出最终解释。

数据下载及任务提交

具体可以参照： https://tianchi.aliyun.com/dataset/dataDetail?dataId=108859
评测比赛沟通群：请加钉钉群： 31756844

参赛规则

报名截止到测试数据集发布，在测试数据集发布之后，未报名的选手/队伍不能再报名或提交。
每名选手只能参加一支队伍，一旦发现某选手以注册多个账号的方式参加多支队伍，将取消所有相关队伍的参赛资格。
允许使用公开和选手个人/组织内部的代码、工具、数据，但需要保证参赛结果可以复现。
针对测试集，选手不允许执行任何人工标注。
参赛选手最终需要提交可运行的代码和方法描述文档，若在排行榜上的结果无法复现，将取消参赛资格。
欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。

时间安排

报名时间：8月1日—10月29日
训练数据&初赛数据发布时间：9月12日—9月17日
初赛时间：9月1日-10月31日
复赛时间：11月3日-11月5日
代码审核时间：11月8日-11月14日
评测论文提交时间：11月15日
CHIP会议日期(评测报告及颁奖)：12月4日—6日

任务组织者

尹康平、董良，阿里巴巴夸克
陈漠沙、谭传奇，阿里云天池/阿里巴巴达摩院
汤步洲，哈尔滨工业大学（深圳），鹏城实验室

评测主席

雷健波，北京大学医学信息学中心（jianbolei@qq.com）
李作峰，飞利浦亚洲研究院（lizuofengcn@163.com）
汤步洲，哈尔滨工业大学（深圳）鹏城实验室（tangbuzhou@hit.edu.cn）