(煤炭总医院,北京,100028)
摘要:本文根据作者多年在医院信息化部门工作经验,对医院病历档案数字化工作中涉及到的相关问题进行探讨,主要涉及:数字化病历档案范围的选择、数据信息深度加工的内容、相关扫描参数的设定、图像处理的要点、数字化加工组织形式的优劣分析、OCR识别效果的比较、PDF病历档案的命名方法及其他数字化工作中应注意的问题等。
关键字:病历数字化、管理、扫描、识别
StudyonMedicalArchivesDigitalizationinthehospital
Abstract:Basedontheauthor'smanyyearsofworkexperience,ontherelevantissuesrelatedtothedigitalizationofmedicalarchiveswerediscussed,including:digitalfileselectionrange,depthofprocessingdatainformationcontent,relatedscanningparametersetting,imageprocessing,digitalprocessingoforganizationanalysis,comparisonoftheeffectsofOCRidentificationandsoon.
Keywords:digitalizationofmedicalarchives,scanning,identification
近年来,随着各级医院信息化建设的发展和移动医疗等互联网医疗方式的兴起,医院的病历档案数字化建设在不断升温。全国各级医院的信息化部门都在积极推进医院历史病历档案的数字化工作,但是各单位病历档案数字化工作过程中遇到一些具体问题时往往做法有很大差别,笔者根据多年来在医院信息化部门工作实践工作中的一些经验,就病历档案数字化工作中的若干问题的观点阐述如下:
1.正确把握病历档案数字化的范围和深度
提供利用是病历档案数字化核心价值的重要体现之一,利用的前提是病历档案的数字化,但是病历档案数字化不能简单的理解为扫描,不是所有的病历组成材料都需要扫描,即病历档案信息的深度描述。围绕如何全面、准确、深入地描述和加工档案信息是档案数字化最重要的原则。在开展档案数字化工作之前,应先对本单位的各科室病历档案分类及利用情况做到详细了解,在此基础上开展调研,从本单位的实际需求出发,科学制定哪些分类进行数字化,哪些病历档案不进行数字化,哪些病历档案进行原文的扫描,哪些病历档案只进行到信息条目的著录。
2.正确把握扫描图像的相关参数
2.1图像格式、分辨率的选择
《档案数字化技术规范》(DA/T31-2005)是各类档案数字化的参考标准,规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,需要进行OCR汉字识别的档案,扫描分辨率可以选择≥200dpi。而近年来实际工作中,因为医生手写字迹清晰度的问题很多单位在近年来病历档案数字化中均采用300dpi全彩扫描,图像格式采用JEPG2000无损压缩。
2.2图像命名与存储路径
病历档案数字化的最初成果是以病历档案夹命名的图像病历档案,应正确规定每一张图片的命名,例如笔者曾经在一次数字化中采用将总页数放进病历档案命名中的错误,如将一份18页的病历档案的每一个图片命名:1-18、2-18……目的为了提醒检查环节注意不要缺页,但是这种命名会导致病历档案名称为10-18、11-18等页在排序中出现错误,这样在生成PDF病历档案的时候就会页码出错。建议图片的命名选择六位字符(位数不宜过长),如000001、000002以此类推。另外,根据数字化的工作模式,一般应以病历档案的件号作为图像存储的最底层病历档案夹,且病历档案夹的命名位数要与档案数据一致,比如病历号为“15”,数据条目应“病历号”应著录“015”,存储病历档案的病历档案夹命名也应为“015”。
2.3扫描图像的处理
扫描后的原始病历图像需要进行优化处理,使得成品图像清晰、端正。图像处理后保证图像信息与原病历档案内容完全一致,不删除页面任何有用信息。根据档案扫描后的具体情况,除常规处理外要特别进行如下图像处理:
(1)图像歪斜:采用自动或手动纠偏功能,调整图像角度。方向不正确的图像应进行旋转还原,以符合阅读习惯。
(2)图像脏点、脏斑:对图像页面中出现的影响图像质量的杂质如黑点、黑线、黑框、黑边等应进行去污处理。处理过程中应遵循保持档案原貌的原则。
(3)字迹洇透:采用字迹锐化的功能,清晰字迹笔画。
(4)图像深浅不一:采用平衡功能,调整图像深浅一致。
应注意以下两个误区:一是边界的过分剪裁,有的单位在进行数字化工作中对于病历档案页码剪裁的过多,或者采用批量剪裁的方式,这种情况会对有领导批示及其他重要信息的病历档案造成损失;二是部分单位对病历档案的底色的过分漂白,力求页面美观,这种做法完全没有必要,保持档案病历档案的原始面貌是维护档案真实、完整的重要内容。
3.病历档案数字化加工组织形式的优劣比较
3.1没有数字化加工系统,单兵作战
有的数字化单位采用若干计算机组成局域网,以病历档案共享的形式进行数字化工作,不同的计算机分别进行档案条目信息著录、图像扫描、图像处理、批量挂接等环节,这种通过病历档案共享方式调取的形式容易出错,不同的环节都有对数据的可操作性,容易修改或删除图像,影响正确率。
3.2采用数字化加工系统,系统作战
随着档案数字化工作的发展,专业性较强的单位为提高工作效率、加强质量控制,一般都根据自身经验开发了应用软件,专门进行档案数字化流程控制的专业档案数字化加工系统应运而生,将档案数字化的全部工序纳入系统管理中,环环相扣,将控制、检验纳入数字化环节中,最终实现效率与质量的同步提高。
笔者多次参与病历档案数字化加工管理工作,认为采用数字化加工系统进行的病历档案数字化加工项目,效率明显优于没有数字化加工系统的项目,更为重要的是在档案数字化加工项目中效率和最终的准确率之间存在着正比关系。
4.关于病历档案的OCR识别方式
病历档案数字化可以为全文检索提供支持,重要的要应用支持是OCR技术,大多数字化厂商选择国内的汉王、文通的OCR程序进行二次开发,通过API调用其程序完成识别。近年来使用俄罗斯ABBYY公司识别技术的单位越来越多,笔者对汉王和ABBYY两者进行对比,汉王识别的速度要快,但是准确率比ABBYY要低;ABBYY识别速度很慢,但准确率相对较高,建议数字化中使用ABBYY的识别技术,其接口简单易用,可以选择不同程度的设置来控制病历档案转换的过程及结果。