评测四:医疗纸质文档电子档(ePaper)OCR识别
Task4: OCR identification of electronic medical paper documents (ePaper)
1. 任务背景
当前医院中使用的病历材料依然以纸质为主,其中信息包含:客户信息,诊断信息,用药信息,费用信息等。在医疗行业、保险行业中,这些信息具有很高的商业及科研价值,且提取难度较高,目前还多依赖人工录入。
随着OCR与NLP等人工智能技术在生产生活中的应用的逐渐发展普及,与传统人工录入相比,利用OCR及NLP技术的应用可以有效提升工作效率,并降低业务人员的培养成本。利用OCR及NLP技术将这些纸质材料上的信息进行电子化、结构化逐渐成为当前行业中的热点。
本次任务数据集中包括:出院小结、门诊发票、购药发票、住院发票这四类病历材料。主要针对需求:生活场景图片,提取数据,并生成电子结构化数据。
2. 抽取字段说明
抽取字段属性名未掺杂业务逻辑,采用材料上原字段属性名。未在下列字段属性名中的字段不参与最终结果评估。
(1)出院小结(属性名共8个)
客户信息(属性名共2个):性别、年龄
医院信息(属性名共6个):医院名称、组织机构代码、医疗机构类型、入院日期、出院日期、住院天数
(2)门诊发票(属性名共34个)
客户信息字段(属性名共1个):性别
发票信息字段(属性名共7个):票据代码、票据号码、校验码、开票日期、收款单位、收款人、复核人
医保信息字段(属性名共2个):医疗机构类型、医保类型
项目信息字段(属性名共14个):诊查费、检查费、化验费、治疗费、手术费、卫生材料费、西药费、中药饮片、中成药费、一般诊疗费、床位费、护理费、挂号费、其他收费项目
支付信息字段(属性名共10个):合计金额(大写)、(小写)、医保统筹基金支付、统筹支付、个人现金支付、个人账户支付、个人自付、其他支付、自付一、自付二
(3)购药发票(属性名共8个)
发票信息字段(属性名共6个):票据代码、票据号码、校验码、开票日期、收款人、复核人
支付信息字段(属性名共2个):价税合计(大写)、(小写)
(4)住院发票(属性名共37个)
客户信息字段(属性名共4个):性别、入院日期、出院日期、住院天数
发票信息字段(属性名共7个):票据代码、票据号码、校验码、开票日期、收款单位、收款人、复核人
医保信息字段(属性名共2个):医疗机构类型、医保类型
项目信息字段(属性名共14个):诊查费、检查费、化验费、治疗费、手术费、卫生材料费、西药费、中药饮片、中成药费、一般诊疗费、床位费、护理费、挂号费、其他收费项目
支付信息字段(属性名共10个):合计金额(大写)、(小写)、医保统筹基金支付、统筹支付、个人现金支付、个人账户支付、个人自付、其他支付、自付一、自付二
3. 标注例子
出院小结标注图片示例:(对应标注结果存放要求中的png)
出院小结标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)
门诊发票标注图片示例:(对应标注结果存放要求中的png)
门诊发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)
购药发票标注图片示例:(对应标注结果存放要求中的png)
购药发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)
住院发票标注图片示例:(对应标注结果存放要求中的png)
住院发票标注结果示例:(对应标注结果存放要求中的xls。“无”代表图片中未出现该字段,“/”代表图片中出现该字段但没有对应值)
4. 评价标准
准确率:
准确率 = 预测正确数/(预测正确数+预测错误数)
注意:
1)预测值和正确值皆为“无”则判定为“不计入计算”。
2)预测值与正确值完全一致则判定“预测正确”,否则判定“预测错误”。
例:
评估示例如图,预测正确数 = 3,预测错误数 = 4,则准确率为:0.42(准确率)= 3(预测正确)/(3(预测正确数)+4(预测错误数))
5. 训练评测数据
数据集 | 简介 |
---|---|
识别训练集 | 真实数据图片及标注结果(所有类型材料总共1000张)(数据类型共四类,每类数量分别为:购药税票:200张;门诊发票:200张;住院发票: 200 张;出院小结: 400张) |
识别评估A榜 | 真实数据图片及标注结果(所有类型材料总共)200张 |
识别评估B榜 | 真实数据图片及标注结果(所有类型材料总共)500张,其中B榜提交时间会限制在48H内。 |