评测四:医疗纸质文档电子档(ePaper)OCR识别

Task4: OCR identification of electronic medical paper documents (ePaper)

1. 任务背景
  当前医院中使用的病历材料依然以纸质为主,其中信息包含:客户信息,诊断信息,用药信息,费用信息等。在医疗行业、保险行业中,这些信息具有很高的商业及科研价值,且提取难度较高,目前还多依赖人工录入。
  随着OCR与NLP等人工智能技术在生产生活中的应用的逐渐发展普及,与传统人工录入相比,利用OCR及NLP技术的应用可以有效提升工作效率,并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。
  本次任务数据集中包括:出院小结、门诊发票、购药发票、住院发票这四类病历材料。主要针对需求:生活场景图片,提取数据,并生成电子结构化数据。

2. 抽取字段说明
  抽取字段属性名未掺杂业务逻辑,采用材料上原字段属性名。未在下列字段属性名中的字段不参与最终结果评估。
 (1)出院小结(属性名共8个)
  客户信息(属性名共2个):性别、年龄
  医院信息(属性名共6个):医院名称、组织机构代码、医疗机构类型、入院日期、出院日期、住院天数
 (2)门诊发票(属性名共34个)
  客户信息字段(属性名共1个):性别
  发票信息字段(属性名共7个):票据代码、票据号码、校验码、开票日期、收款单位、收款人、复核人
  医保信息字段(属性名共2个):医疗机构类型、医保类型
  项目信息字段(属性名共14个):诊查费、检查费、化验费、治疗费、手术费、卫生材料费、西药费、中药饮片、中成药费、一般诊疗费、床位费、护理费、挂号费、其他收费项目
  支付信息字段(属性名共10个):合计金额(大写)、(小写)、医保统筹基金支付、统筹支付、个人现金支付、个人账户支付、个人自付、其他支付、自付一、自付二
 (3)购药发票(属性名共8个)
  发票信息字段(属性名共6个):票据代码、票据号码、校验码、开票日期、收款人、复核人
  支付信息字段(属性名共2个):价税合计(大写)、(小写)
 (4)住院发票(属性名共37个)
  客户信息字段(属性名共4个):性别、入院日期、出院日期、住院天数
  发票信息字段(属性名共7个):票据代码、票据号码、校验码、开票日期、收款单位、收款人、复核人
  医保信息字段(属性名共2个):医疗机构类型、医保类型
  项目信息字段(属性名共14个):诊查费、检查费、化验费、治疗费、手术费、卫生材料费、西药费、中药饮片、中成药费、一般诊疗费、床位费、护理费、挂号费、其他收费项目
  支付信息字段(属性名共10个):合计金额(大写)、(小写)、医保统筹基金支付、统筹支付、个人现金支付、个人账户支付、个人自付、其他支付、自付一、自付二

3. 标注例子

sponsors

出院小结标注图片示例:(对应标注结果存放要求中的png)

sponsors

出院小结标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)

sponsors

门诊发票标注图片示例:(对应标注结果存放要求中的png)

sponsors

门诊发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)

sponsors

购药发票标注图片示例:(对应标注结果存放要求中的png)

sponsors

购药发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)

sponsors

住院发票标注图片示例:(对应标注结果存放要求中的png)

sponsors

住院发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)

sponsors

4. 评价标准
 准确率:
  准确率 = 预测正确数/(预测正确数+预测错误数)
 注意:
  1)预测值和正确值皆为“无”则判定为“不计入计算”。
  2)预测值与正确值完全一致则判定“预测正确”,否则判定“预测错误”。
 例:
sponsors

  评估示例如图,预测正确数 = 3,预测错误数 = 4,则准确率为:0.42(准确率)= 3(预测正确)/(3(预测正确数)+4(预测错误数))

5. 训练评测数据
数据集 简介
识别训练集 真实数据图片及标注结果(所有类型材料总共1000张)(数据类型共四类,每类数量分别为:购药税票:200张;门诊发票:200张;住院发票: 200 张;出院小结: 400张)
识别评估A榜 真实数据图片及标注结果(所有类型材料总共)200张
识别评估B榜 真实数据图片及标注结果(所有类型材料总共)500张,其中B榜提交时间会限制在48H内。

6. 数据下载及任务提交
 请选手到天池平台申请下载数据并提交结果: https://tianchi.aliyun.com/dataset/dataDetail?dataId=131815
 参加评测比赛的选手请加入钉钉群:44644816 ,比赛相关的通知以及技术答疑均在群里通知。

7. 参赛规则
 1.每名选手只能注册一个账号,一旦发现选手注册多个账号进行提交,将取消所有账号的参赛资格。
 2.允许使用外部资源,包括但不限于代码、工具和数据,要求所使用的资源是公开可获取的。
 3.禁止人工标注测试集。
 4.优胜选手最终需要提交可运行的代码和方法描述文档,若排行榜上的结果无法复现,将取消参赛资格。
 5.欢迎国内外在校生及社会在职人士参加,比赛组织方成员不可参赛。

8. 时间安排
  • 评测任务发布:6月16号-7月30号
  • 报名时间:6月1号-10月15号
  • 训练及验证数据发布:7月15号-8月15号
  • 测试A数据发布:8月16号
  • 测试B数据发布:8月26号
  • 提交最终测试结果:8月28号
  • 评测论文提交时间:2022年10月
  • 评测报告及颁奖:2022年10月23日
  • 评测学术委员会评测论文审阅:2022年12月
  • 评测论文集中投稿:2023年1月-
  • 9. 任务组织者
     1.刘利锋,钟晓斌,常德杰,赵晓龙,王铁虎,杨锦新 北京环球医疗救援
     2.陈漠沙,中国中文信息学会医疗健康与生物信息处理专委会
     3.汤步洲, 哈尔滨工业大学(深圳),鹏城实验室


    我们致力于保护个人信息,数据来自互联网,是以非盈利性目的使用,如有数据侵犯个人隐私或其他敏感信息,请联系我们010-59104988,我们会第一时间删除。