1. 任务背景
   中医药是中华文明的瑰宝,凝聚着博大智慧,为人民健康作出了重要贡献。但中医药的科学道理很难以通俗易懂的方式展现,所以,在中医药现代化过程中,一直面临着“说清楚、讲明白”的挑战。
  随着人工通用智能(Artificial General Intelligence,AGI)的迅速发展,拥有巨大参数量的大语言模型(Large Language Models),如ChatGPT、GLM-130B在NLP领域表现瞩目, 这些预训练模型 能够处理和理解大量数据,学习和发现其中潜在的知识,可 为中医药的研究和应用提供了强大的载体,为中医药领域带来了新的机遇。通过开发与应用中医药领域的语言模型,模拟真实世界中医的诊疗研究,可为打开生命的“黑箱”,进一步打破传统医学与现代科技之间的壁垒,为中医药走向现代化、国际化奠定基础。 中医辨证思维是中医诊疗的核心,是中医学临床诊疗的基本思路和方法,集中体现了中医学特色与优势。具备中医辨证思维的语言模型能将中医医案、理论、临床实践相结合,通过模拟中医医师的临床思维模式,提供可解释性分析,辅助临床决策。因此,具备中医辨证思维的语言模型能够将中医药的科学道理“说清楚、讲明白 ”,真正实现人工智能辅助传承创新中医药精华。为此,需要通过高质量的测评基准来评估当前大语言模型潜在的中医辨证思维能力。
  目前中医药领域的测评数据集相继出现,如ShenNong-TCM-EB、Qibo-benchmark等测评集提供了简单中医基础知识测评,由于中医诊断是一项复杂的工作,需要医生通过识别、判断和推理来进行辨证论治,但是目前中医领域缺乏相应的专业测评基准来来全面、客观、系统地来评估语言模型的中医辨证思维能力,这限制了中医药领域的语言模型的改进和优化。所以建立一个高质量的中医辨证思维评测数据集,可帮助评估中医药领域的语言模型中的辨证思维能力,提供了定量的评估标准。
  所以,本任务通过团队收集并清洗了的高质量医案数据,基于中医辨证思维的模式,将辨证思维进行人工归纳为四个关键的步骤,人工构建了一个高质量的中医辨证思维测评数据集,旨在为语言模型在提供一个标准化、高可信度、可量化的复杂场景推理的评估基准。该任务可为中医领域语言模型辨证思维能力的发展方向提供量化的评价,可推动语言模型在中医药领域持续优化和进步。

2. 数据说明
2.1 辨证思维过程的关键步骤
  任务组织方基于现有研究基础,对中医辨证思维过程进行整理。即在中医学的理论指导下,对病人的各种临床资料进行综合分析,进而提炼病机,并概括为完整证名的思维过程。依据中医辨证思维过程,提炼出四个关键步骤如下:
  • 临床信息识别抽取:基于病例的文本信息,识别并抽取出临床信息,包括一般症状体征、舌象脉象、病因、检验检查等。
  • 病机推断:通过抽取出来的临床信息,分别判断得出病机。
  • 证候推断:根据病机推断出最终辨证结果,即证候。
  • 解释总结:综合以上步骤,解释并总结辨证思维过程,包括临证体会和辨证结果两部分。
  • sponsors
    图 1:辨证思维过程的关键步骤

    2.2 大模型的辨证思维过程示例
      任务组织方为探索语言模型的辨证思维,研究辨证思维的可解释性,基于辨证思维过程的关键步骤,构建提示工程(COT)如下:

    如你是一名中医专家,请按照以下案例的识别、抽取、推断方法进行诊断:
    案例:
    临床资料:安某,女,50岁。初诊:1983年6月20日。主诉及病史:近40天来,胸骨后及胃脘部胀痛,胸骨后有灼热感,吞咽时有梗噎感,伴嗳气、恶心、泛酸,时呕吐出食物,纳食差,大便秘结。进寒冷食物时疼痛加剧,周身疲乏无力,经用中西药治疗无明显效果。诊查:现面色无华。舌质淡红、舌苔薄黄,脉弦滑略数,经钡餐透视检查诊为可复性食管裂孔疝,反流性食管炎。
    临床信息:胸骨后及胃脘部胀痛;胸骨后有灼热感;吞咽时有梗噎感;嗳气;恶心;泛酸;呕吐;纳食差;便秘结;舌苔薄黄;脉弦滑略数
    *病机推理(临床信息-推理病机为-病机):
      胸骨后及胃脘部胀痛-推理病机为-胃失和降;
      胸骨后有灼热感-推理病机为-胃失和降;
      吞咽时有梗噎感-推理病机为-肝郁气滞;
      嗳气-推理病机为-胃失和降;
      恶心-推理病机为-胃失和降;
      泛酸-推理病机为-胃失和降;
      呕吐-推理病机为-胃失和降;
      纳食差-推理病机为-胃失和降;
      便秘结-推理病机为-内有郁热;
      舌苔薄黄-推理病机为-内有郁热;
      脉弦滑略数-推理病机为-肝郁气滞;
       脉弦滑略数-推理病机为-内有郁热;
      脉弦滑略数-推理病机为-痰实
    病机:胃失和降;肝郁气滞;内有郁热;痰实
    *证候推理(病机-推理证候为-证候):
      胃失和降-推理证候为-肝胃不和;
      肝郁气滞-推理证候为-肝胃不和;
      内有郁热-推理证候为-痰热互结;
      痰实-推理证候为-痰热互结
    证候:肝胃不和;痰热互结
    解释总结:临证体会:此例胃脘胀痛,并有胸骨后食管灼热疼痛,吞咽时有梗噎感,显系胃失和降,肝郁气滞;舌苔黄,脉滑略数,显系内有郁热、痰实。辨证:肝胃不和,痰热互结。”
    题目:
    临床资料:郭某,女,50岁。初诊:1983年6月9日。主诉及病史:素罹“风湿性心脏病”,时时心悸(阵发性心动过速)。由于反复发作,因而精神负担较重,常致失眠。近半年来经常彻夜不寐,有时最多只能入睡1~2小时,但也常被噩梦惊醒。由于长期失眠,故见头晕、头沉、精神恍惚不振,食欲不佳,目前服西药,各种安眠药虽不断加大剂量,但均无效。诊查:患者面色不华,精神比较紧张,恐惧心理甚浓,近期整夜不成眠,白天也不能入寐。舌质稍淡,舌苔白腻,脉细而弱。
    (1)请仿照案例中的“临床信息”识别抽取题目中的临床信息?
    (2)请仿照案例中的“病机推理(临床信息-推理病机为-病机)”“病机”选择题目中的病机(多选题)?
      A:火升风动;B:气血亏耗;C:胆虚不眠;D:心阴亏损;E:肾气不足;F:蒙蔽心窍;G:湿热内蕴;H:气虚;I:脾弱湿盛;J:胎气阻滞
    (3)请仿照案例中的“证候推理(病机-推理证候为--证候)”“证候”选择题目中的证候(多选题)?
      A:湿热郁遏;B:瘀热互结;C:郁滞胸脘;D:心胆亏虚;E:湿热郁遏;F:伤寒夹食之证;G:痰热结聚;H:热灼营阴;I:湿滞停留肠胃;J:热迫营血
    (4)请仿照案例中的“解释总结”部分撰写题目的临证体会和辨证结果以总结整体辨证过程。

      将提示工程(COT)输入模型(测试模型为:文心一言4.0)后,语言模型推理反馈的关键步骤如下:
    sponsors
    图 2:语言模型推理反馈的关键步骤

    2.3 任务详情
      本任务将拆分成4个子任务进行测试。在测评过程中,任务组织方将给定临床信息等相关材料,选手需要依序完成子任务1到子任务4的提问工作,此顺序为逻辑推理顺序,不可自行调整。在评分时,只按照任务编号依序考虑模型回答的结果。
    表 1 任务内容
    任务编号 题目类型 提问内容举例
    子任务1 简答 请仿照案例中的“临床信息”识别抽取题目中的临床信息?
    子任务2 选择 请仿照案例中的“病机推理(临床信息-推理病机为-病机)”“病机”选择题目中的病机(多选题)?
    A:火升风动;B:气血亏耗;C:胆虚不眠;D:心阴亏损;E:肾气不足;F:蒙蔽心窍;G:湿热内蕴;H:气虚;I:脾弱湿盛;J:胎气阻滞
    子任务3 选择 请仿照案例中的“证候推理(病机-推理证候为--证候)”“证候”选择题目中的证候(多选题)?
    A:湿热郁遏;B:瘀热互结;C:郁滞胸脘;D:心胆亏虚;E:湿热郁遏;F:伤寒夹食之证;G:痰热结聚;H:热灼营阴;I:湿滞停留肠胃;J:热迫营血
    子任务4 简答 请仿照案例中的“解释总结”部分撰写题目的临证体会和辨证结果以总结整体辨证过程。
    3. 测评数据集准备
    3.1 数据收集
      任务组织方采集和处理的300例医案数据来团队自建数据库,该数据库从《中医杂志》、“中医药临床案例成果库”等影响力高的公开平台收集了高质量的医案数据。将采集的300例医案数据按照临床资料、临证体会等使用Excel进行整理,其纳排标准如下:
  • 纳入:病例信息完整,包括临床资料、临证体会等;常见病种病例;辨证逻辑合理病例。
  • 排除:罕见病例;复杂病例;重复病例。
  • 3.2 数据标注
      任务组织方基于项目组开发的“百部知识引擎”工具,开展数据的实体标注、推理关系标注等工作,完成测评数据集构建。整个标注过程将严格遵循中医辨证标准和流程,以确保数据的一致性和准确性。其中,实体类型(表 2)、关系类型(表 3)、标注准则及标注示例(图 3)如下:
    表 2 实体类型
    实体名称 定义 举例
    临床信息 中医师在进行辨证诊断过程中,从患者的临床资料中提取出临床信息,包括患者的症状、体征、病史等。 嗳气;抑郁
    病机 在辨证诊断过程中,中医师根据患者的临床信息,通过逐步推理的关于疾病本质和关键病理变化的结论。 胃气上逆;肝气郁结
    证候 在病机的基础上,进一步推断出的患者当前病情的主要证候类型。 肝胃不和
    表 3 关系类型
    关系名称 关系名称 定义
    临床信息-病机 病机推断 根据患者的临床信息,逐步推断病机的过程。
    病机-证候 证候推断 根据患者的病机,推断证候的过程。
  • 标注准则
  • 标注的实体只包含辨证诊断过程中的重要信息,比如嗳气(临床信息)-胃气上逆(病机)-肝胃不和(证候)。次要信息及无关信息不在标注范围内,如“舌红苔白”,并非辨证诊断过程中的重要信息,不予标注。
  • 标注的实体字段尽可能完整,比如“胸骨后及胃脘部胀痛”,仅标注“胀痛”会存在重要信息丢失。
  • 临床信息与病机和病机与证候之间分别存在推断关系,比如从临床资料中提取临床信息“嗳气”、“抑郁”分别进行病机推断,推断出病机“胃气上逆”、“肝气郁结”,综合病机进行证候推断,推断出证候“肝胃不和”。
  • 针对多个实体连在一起的长mention,本任务按照如下规则进行标注:如果每个实体具备独立意义则分开标注,如:“胸骨后及胃脘部胀痛,胸骨后有灼热感,吞咽时有梗噎感,伴嗳气、恶心”中标注("胸骨后及胃脘部胀痛","胸骨后有灼热感","吞咽时有梗噎感"伴"嗳气","恶心")。
  • sponsors
    图 3:标注示例
    3.3 数据集导出和生成
      完成数据标注工作之后,为方便自动量化评分计算,任务组织方对导出的数据进行了进一步加工:
    (1)病机选项生成:收集所有的病机数据,组成病机集合。设置病机选项为10个选项的多项选择,由该病例正确病机数据和病机集合中的随机数据组成,如病例3中的病机选项为:A:火升风动;B:气血亏耗;C:胆虚不眠;D:心阴亏损;E:肾气不足;F:蒙蔽心窍;G:湿热内蕴;H:气虚;I:脾弱湿盛;J:胎气阻滞,其中“BCD”为正确病机数据。为确保数据的完整性和随机性,其余干扰选项皆为打乱顺序后病机集合中的随机数据。
    (2)证候选项生成:收集所有的证候数据,组成证候集合。设置证候选项为10个选项的多项选择,由该病例正确证候数据和证候集合中的随机数据组成,如病例3中的证候选项为:A:湿热郁遏;B:瘀热互结;C:郁滞胸脘;D:心胆亏虚;E:湿热郁遏;F:伤寒夹食之证;G:痰热结聚;H:热灼营阴;I:湿滞停留肠胃;J:热迫营血,其中“D”为正确证候数据。其余干扰选项皆为为打乱顺序后证候集合中的随机数据。
    4. 数据说明
       评测数据集包含的中医辨证诊断问题一共分为4类,包括临床信息、病机、证候、解释总结。数据以200:50:50的比例划分为训练集、A榜、B榜。总计300条数据。数据集为json版本。训练集、A榜和B榜包含question和label。
    4.1 数据样例
    sponsors
    图 4:数据样例

    4.2 数据格式说明
    表 4:数据格式
    字段名称 字段说明 示例
    案例编号 病例ID 案例3
    临床资料 为临床病例部分,包括患者的基本信息、就诊信息如主诉及病史、诊查等内容。 郭某,女,50岁。初诊:1983年6月9日。主诉及病史:素罹“风湿性心脏病”,时时心悸(阵发性心动过速)。由于反复发作,因而精神负担较重,常致失眠。近半年来经常彻夜不寐,有时最多只能入睡1~2小时,但也常被噩梦惊醒。由于长期失眠,故见头晕、头沉、精神恍惚不振,食欲不佳,目前服西药,各种安眠药虽不断加大剂量,但均无效。诊查:患者面色不华,精神比较紧张,恐惧心理甚浓,近期整夜不成眠,白天也不能入寐。舌质稍淡,舌苔白腻,脉细而弱。
    信息识别抽取能力:临床信息 识别并抽取临床资料中用于“病机”诊断的“临床信息”。 面色不华;紧张;恐惧;整夜不成眠;舌质稍淡;脉细而弱
    信息分析推断能力:病机 通过“临床信息”所推断出的“病机”。 心阴亏损;气血亏耗;胆虚不眠
    病机答案 为病机选项中的标准答案。 B;C;D
    病机选项 为病机选项中的多项选择。 A:火升风动;B:气血亏耗;C:胆虚不眠;D:心阴亏损;E:肾气不足;F:蒙蔽心窍;G:湿热内蕴;H:气虚;I:脾弱湿盛;J:胎气阻滞
    信息分析推断能力:证候 通过“病机”所推断出的“证候”。 心胆亏虚
    证候答案 为证候选项中的标准答案 B;C;D
    病机答案 为病机选项中的标准答案。 D
    证候选项 为证候选项中的多项选择。 A:湿热郁遏;B:瘀热互结;C:郁滞胸脘;D:心胆亏虚;E:湿热郁遏;F:伤寒夹食之证;G:痰热结聚;H:热灼营阴;I:湿滞停留肠胃;J:热迫营血
    信息解释总结能力:临证体会和辨证结果 整个辨证过程中的临证体会及辨证结果。 临证体会:本例因情志不舒,思虑过度,劳伤心脾,导致心阴亏损、气血亏耗,以致神不守舍,胆虚不眠。辨证:心胆亏虚。
    5. 评测方式
    5.1 测评指标
      依据辨证思维过程的关键步骤,提示工程(COT),设计中医辨证思维能中的相关测评指标,以此来评估模型在处理一般病例时的推理过程和逻辑链条。并通过最终评分,来评估模型在处理一般病例时的综合能力。
    表 5:中医辨证思维能力的相关测评指标
    任务名称 测评指标 子任务权重 计算方法 分值范围
    子任务1 识别抽取的准确程度(P1) 20% P1 = 抽取到的数据数量/答案 0-1
    子任务2 病机推断的准确程度(P2) 30% P2=该题得分 * 模型选择的正确答案数/(正确答案总数 + 模型选择错误答案数) 0-1
    子任务3 证候推断的准确程度(P3) 40% P3=该题得分 * 模型选择的正确答案数/(正确答案总数 + 模型选择错误答案数) 0-1
    子任务4 回复的整体质量(P4) 10% P4=Rouge-L 0-1
    任务 最终评分(P) P=(20% x P1 + 30% x P2 + 40% x P3 +10%x Rouge-L) 0-1
    子任务1:识别抽取的准确程度
      通过计算准确率来评估语言模型识别抽取临床信息的准确程度。如:
  • 病例3:
      临床信息标准答案{面色不华;紧张;恐惧;整夜不成眠;舌质稍淡;脉细而弱}
      模型信息回复临床信息答案{素罹“风湿性心脏病”;时时心悸(阵发性心动过速);长期失眠;头晕;头沉;精神恍惚;食欲不振;服西药及安眠药无效;面色不华;精神紧张;恐惧;舌苔白腻;舌质稍淡;脉细而弱;常因噩梦惊醒;整夜不成眠;白天也不能入寐}
      评分标准:为了更好的测试模型信息识别抽取能力,我们定义信息完全相同时才为正确,则病例3中临床信息准确率为:P1 = 抽取到的数据数量/答案 = 5/6 = 0.833
  • 子任务2:病机推断的准确程度
      通过计算模型选择准确率来评估推断病机的准确程度。如:
  • 病例3:
      病机选项:A:火升风动;B:气血亏耗;C:胆虚不眠;D:心阴亏损;E:肾气不足;F:蒙蔽心窍;G:湿热内蕴;H:气虚;I:脾弱湿盛;J:胎气阻滞
      病机标准答案:{B,C,D}
      模型回复病机答案:{B, C, H, I}
      评分标准:为了更好的测评模型的能力,我们使用多选题比例评分法来计算模型回复的正确率,在该方法中,模型选择的正确答案越多,得分越高,选择错误答案越多,得分越低。
      评分公式:该题得分 * 模型选择的正确答案数/(正确答案总数 + 模型选择错误答案数)。其中,S:该题得分;A:正确答案集合;B:模型选择的答案:
    sponsors
      计算过程:正确答案A={B,C,D},模型答案B={B,C,H,I},模型选择正确答案的集合为|B∩A|=(B,C),模型选择错误答案集合为|B∩A ̅ |=(H,I)。病机准确率为:P2=1 * (2/(3+2))= 0.4
  • 子任务3:证候推断的准确程度
      通过计算模型选择的准确率来推断证候的准确程度,如:
  • 病例3:
      证候选项:A:湿热郁遏;B:瘀热互结;C:郁滞胸脘;D:心胆亏虚;E:湿热郁遏;F:伤寒夹食之证;G:痰热结聚;H:热灼营阴;I:湿滞停留肠胃;J:热迫营血
      证候标准答案:{D}
      模型回复证候答案:{D}
      该计算方法同“病机推断的准确程度”,即证候的准确率为:P3 = 1 * (1/(1+0)) = 1{D}
  • 子任务4:回复的整体质量
      模型的解释总结通过 Rouge-L 来评估对话回复整体和医生回复的一致程度,其计算公式如下:
    P = LCS(S1, S2)/len(S1)
    R = LCS(S1, S2)/len(S2)
    Rouge-L = 2PR/(P+R)
  • 病例3:
      解释总结标准答案{本例因情志不舒,思虑过度,劳伤心脾,导致心阴亏损、气血亏耗,以致神不守舍,胆虚不眠。辨证:心胆亏虚。}  模型回复解释总结答案:解释总结{此例患者,中年女性,长期患有“风湿性心脏病”,并时时出现心悸症状。疾病的反复发作给她带来了巨大的精神压力,导致长期失眠,近半年来症状明显加重,甚至出现了噩梦惊醒、头晕、头沉、精神恍惚以及食欲不振等临床表现。从中医的角度来看,患者的舌象(舌质稍淡,舌苔白腻)以及脉象(脉细而弱)均提示其体内存在气血亏虚、脾虚湿盛的情况。特别是她长期失眠、精神紧张和恐惧心理,这些都与心胆亏虚有关。胆气虚怯导致心神不宁,夜不能寐,这与中医理论中的“胆虚不眠”相吻合。综上所述,该患者的病机可以归结为气血亏耗、胆虚不眠、气虚以及脾弱湿盛。其证候则为心胆亏虚。}
      回复的整体质量:P4=Rouge-L=0.147
  • 任务:最终评分
      在辨证过程中,辨证的初始资料是临床信息,辨证的桥梁是病机,辨证的结论是证候,解释总结是对整个辨证过程的总结。其中,证候和病机是定向选择题,故准确度较高,可作为最终评分的重要依据。相对而言,临床信息和病机可能会存在信息交叉等情况,但辨证的最终结论证候具有唯一性,可作为最终评分的关键依据。所以,在权重分布方面:证候>病机>临床信息>解释总结。即:证候:病机:临床信息:解释总结=4:3:2:1。故病历得分公式为:
    sponsors
      病例3模型推理最终得分为:P=(20% x P1 + 30% x P2 + 40% x P3 + 10%x Rouge-L) = (20% x 0.833 +30%x 0.4 + 40% x 1 +10%x 0.147) = 0.701(最终结果是将所有验证集数据得结果相加)
    5.2 结果提交
      结果提交:上传至评测网站
      数据提交格式:病例ID@****;****;** @*;*@*;*@临证体会:****。辨证:****(注意:每个回答任务答案之间用英文符号;分割。每个子任务以英文@分隔。每个案例答案为一行。)
    6. 评测任务组织者
    组织者
     朱彦,中国中医科学院中医药信息研究所
     王哲,中国医学科学院基础医学研究所
     黄玉燕,中国中医科学院中医基础理论研究所
     郝梦,中国中医科学院中医药信息研究所
    联系人
     郝梦,邮箱: haomengshangan@163.com
    评测任务网页链接: https://tianchi.aliyun.com/competition/entrance/532222
    钉钉群
    sponsors
    7. 参赛规则
     注意,以下通用规则适用于本评测任务。在此基础上,参赛选手还需遵循具体大赛的特有规则。如有冲突,以后者为准。
     1. 参赛选手需要提交“参赛队名,队长信息(姓名,邮箱,联系电话),参赛单位名称”等信息,发送至邮箱 haomengshangan@163.com
     2. 报名截止到测试数据集发布,在测试数据集发布之后,未报名的选手/队伍不能再报名或提交。
     3. 任务数据仅用于本次评测,如需用于其他目的,请与任务组织者联系。
     4. 获奖选手需要自行注册参加CHIP会议,在会议上进行口头汇报,撰写技术论文,否则取消参赛成绩。
     5. 每支队伍需指定一名队长,队伍名称不超过15个字符,队伍成员不超过4人。
     6. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消所有相关队伍的参赛资格。
     7. 允许使用公开和选手个人/组织内部的代码、工具、数据,但需要保证参赛结果可以复现。
     8. 针对测试集,选手不允许执行任何人工标注。
     9. 参赛选手最终需要提交可运行的代码和方法描述文档,若在排行榜上的结果无法复现,将取消参赛资格。
     10. 欢迎国内外在校生及社会在职人士参加。比赛组织方成员不可参赛。