评测二: 医疗因果实体关系抽取任务

Task2: Medical Causal Entity and Relation Extraction Task

1. 任务背景
现代医疗很强调解释性，医生在诊断，治疗和评估上，都要求从患者为中心出发，突出医疗的因果关系。因此互联网上存在大量的医疗的问答和知识类的文本中存在大量的因果关系解释，在帮助患者的同时，对于医疗搜索和诊断业务来说也具有巨大的价值，从中可以挖掘抽取医疗因果关系构建因果关系解释网络，构建医疗因果知识图谱，提升对医疗结果的逻辑性和可解释性的判断能力。继在 CHIP2021 大会发布“ 医疗对话临床发现阴阳性判别任务 ”后，阿里巴巴夸克医疗团队今年发布了“医疗因果关系抽取任务”。

2. 任务介绍

任务定义
  因果关系细化的标注，是需要在存在因果关系的片段基础上，需要进行医学概念的片段标注以及医学概念片段之间的关系角色进行标注。具体来说，细分的医学概念片段分为如下3种类型：
1. 因果关系：
  因果关系是指某种原因直接导致某种结果。
  例子：人体的胃肠道功能紊乱，导致患者吸收能力变差。
  解释：胃肠道功能紊乱是吸收能力变差的一个直接原因，吸收能力变差是胃肠功能紊乱的直接结果。
2. 条件关系：
  条件关系是指医学概念片段中一些特定的条件，用于修饰特定的因果关系，注意：条件并不能直接导致某个结果的发生。
  例子1：对阿莫西林过敏的患者不可以使用, 服用阿莫西林可能会引起皮疹、药物热和哮喘等过敏反应,因此使用前一定要做青霉素皮试试验。
  解释：其中，对阿莫西林过敏是服用阿莫西林导致皮疹的条件。
  例子2：如果已经怀孕，出现小腹疼痛或者阴道出血，可以视为先兆流产。
  解释：在怀孕的前提/条件下，如果出现了小腹疼痛过着阴道出血一般是先兆流产导致的；也就是在某种特定的条件下，所修饰的因果关系才能产生。
3. 上下位关系：
  上下位关系指的是概念之间的大小关系。
  例子：阿尔茨海默症是一种精神类疾病，生活中比较常见。
  解释：其中，阿尔茨海默症是精神类疾病的一种，因此与精神类疾病构成了上下位关系。

标注准则
1. 标注的实体尽可能的完整包含有用的信息比如症状的程度，频率等，无关信息不在标注范围，如：“不及时治疗在局部可能会引起疼痛”中会标注出“局部可能会引起疼痛”，仅标注“疼痛”会存在信息丢失；如果涉及人群涌来区分疾病特点的，需要把人群也标注上，如“宝宝咳嗽”。
2. 疾病和临床之间的表现关系，本次标注任务归为因果关系；例如“感冒常见症状是咳嗽”中，“感冒”和“咳嗽”之间是因果关系。
3. 针对多个实体连在一起的长mention，本任务按照如下规则进行标注：如果每个实体具备独立意义则分开标注，如：“过量饮酒、使用激素、劳累等引起的股骨头缺血性病变”中标注（“过量饮酒”，“股骨头缺血性病变”），（“使用激素”，“股骨头缺血性病变”）和（“劳累”，“股骨头缺血性病变”）3对因果关系；如果是非连续（dis-continued）实体，本任务合并标注为长mention，如：“食用奶酪、巧克力、可乐会导致过度肥胖”中标注（“食用奶酪、巧克力、可乐”，“过度肥胖”）1对因果关系。
4. 本任务只标注一度关系，不标注推导关系，如“A导致B，B又导致C”，则本任务只标注（A，B）和（B，C）两对因果关系，（A，C）不标注；同样的，对于上下位或者别名的情况，仅标注最直观的实体，如“A，又称为B，会导致C”，只标注（A，C）即可。
5. 本任务基于段落标注，因此会存在跨句子的关系标注。
6. 部分记录为常识性描述，可能不存在本任务定义的3类关系。

标注示例

{ "text": "在心率规整的情况下,脉搏的频率与心率是一样的,成年人的脉搏一般在60-100次之间,大部分在70-80次之间,怀孕后的女性由于生理性贫血的影响以及循环血量增加使心脏的负担加重,可能会使心率相对增快。", "relation_of_mention": [ { "head": { "mention": "怀孕后的女性", "start_idx": 55, "end_idx": 61 }, "relation": 2, "tail": { "type": "relation", "head": { "mention": "生理性贫血", "start_idx": 63, "end_idx": 68 }, "relation": 1, "tail": { "mention": "心脏的负担加重", "start_idx": 80, "end_idx": 87 } } }, { "head": { "mention": "怀孕后的女性", "start_idx": 55, "end_idx": 61 }, "relation": 2, "tail": { "type": "relation", "head": { "mention": "循环血量增加", "start_idx": 73, "end_idx": 79 }, "relation": 1, "tail": { "mention": "心脏的负担加重", "start_idx": 80, "end_idx": 87 } } }, { "head": { "mention": "心脏的负担加重", "start_idx": 80, "end_idx": 87 }, "relation": 1, "tail": { "type": "mention", "mention": "心率相对增快", "start_idx": 92, "end_idx": 98 } } ] }

数据说明
以 json 格式提供，包括如下字段：

text：段落文本

relation_of_mention ：关系三元组列表，列表每个元素为一个关系三元组，由 "head", "relation" 和 "tail" 3个字段组成。

♢ "relation"包括三种关系，数字1，2，3分别代表“因果”，“条件”和“上下位”关系。注意关系是有顺序的：因果关系，head和tail分别是原因和结果；条件关系，head和tail分别代表条件和所修饰的因果关系；上下位关系，head和tail分别表示上位词和下位词。
♢ "head"包括"mention", "start_idx"和"end_idx"三个字段，分别表示实体片段，文本起始、结束下标，span下标采用左闭右开表示法。
♢ "tail"包括"type"和其他字段，"type"字段主要用于区分条件关系和另外两种关系。当"relation"是因果关系或者上下位关系时，type为"mention"，尾实体也是一个实体，同头实体，包括"mention"，"start_idx"和"end_idx"三个字段；当"relation"为条件关系时，type的值为"relation"，尾实体是头实体所修饰的因果关系，同因果关系的定义，包括"head", "relation"和"tail"3个字段。

3. 评测数据
本次评测共提供2,000段对话语料作为训练集。测试分为两阶段，A、B榜单各提供1000段对话用来做测试数据，其中B榜提交时间会限制在48H内。

4. 评价标准
  本评测采用Macro-F1作为评估指标。假设我们有n个类别，C1 , … …, Ci , … …, Cn，计算公示如下：
  准确率Pi = 正确预测为类别Ci的样本个数 / 预测为Ci类的样本个数。
  召回率Ri = 正确预测为类别Ci的样本个数 / 真实的Ci类的样本个数。
  最终的Macro-F1计算公示如下：

  注意：只有 (头实体mention, 关系类型, 尾实体mention) 都预测正确，才算作一条正确预测的记录。特别的对条件关系来讲，只有当(条件mention, 条件关系, (原因mention, 因果关系, 结果mention))都预测正确，才算作预测正确。

5. 报名方式及任务提交
报名连接： https://tianchi.aliyun.com/dataset/dataDetail?dataId=129573 请选手到天池平台填写申请表（请如实填写姓名、邮箱、机构、使用用途），任务组织方审核通过后即表示报名成功，选手可在网页上下载数据，提交结果。
参加评测比赛的选手请加入钉钉群（群号：31756844），比赛相关的通知以及技术答疑均在钉钉群展开。

6. 参赛规则
1.每名选手只能注册一个账号，一旦发现选手注册多个账号进行提交，将取消所有账号的参赛资格。
2.允许使用外部资源，包括但不限于代码、工具和数据，要求所使用的资源是公开可获取的。
3.禁止人工标注测试集。
4.优胜选手最终需要提交可运行的代码和方法描述文档，若排行榜上的结果无法复现，将取消参赛资格。
5.欢迎国内外在校生及社会在职人士参加，比赛组织方成员不可参赛。

7. 任务组织者
1.童毅轩、尹康平、李子昊，阿里巴巴夸克
2.陈漠沙/谭传奇，阿里云天池、阿里巴巴达摩院
3.郎珍珍，阿里云智能互联（医学专家）
4.汤步洲，哈尔滨工业大学（深圳）鹏城实验室

8. 评测时间安排
报名时间：2022年6月1日-10月12日

训练数据发布时间：2022年7月8日

A榜测试集发布时间：2022年7月8日

A榜时间：2022年7月8日-10月9日，选手每天有2次提交机会。

B榜测试集发布时间：2022年10月10日

B榜时间：2022年10月10日-10月12日，选手每天有5次提交机会。

代码审核时间：2022年10月15日-10月17日

评测论文提交时间：2022年10月（CHIP会议前1个月）

评测学术委员会评测论文审阅：2022年12月

评测论文修回：2022年12月（2周修改周期）

评测论文集中投稿：2023年1月-

2. 任务介绍

3. 评测数据 本次评测共提供2,000段对话语料作为训练集。测试分为两阶段，A、B榜单各提供1000段对话用来做测试数据，其中B榜提交时间会限制在48H内。

7. 任务组织者 1.童毅轩、尹康平、李子昊，阿里巴巴夸克 2.陈漠沙/谭传奇，阿里云天池、阿里巴巴达摩院 3.郎珍珍，阿里云智能互联（医学专家） 4.汤步洲，哈尔滨工业大学（深圳） 鹏城实验室

3. 评测数据
本次评测共提供2,000段对话语料作为训练集。测试分为两阶段，A、B榜单各提供1000段对话用来做测试数据，其中B榜提交时间会限制在48H内。

7. 任务组织者
1.童毅轩、尹康平、李子昊，阿里巴巴夸克
2.陈漠沙/谭传奇，阿里云天池、阿里巴巴达摩院
3.郎珍珍，阿里云智能互联（医学专家）
4.汤步洲，哈尔滨工业大学（深圳）鹏城实验室