潍坊学院档案馆
摘要:高校学生学籍档案构成复杂、种类多样,且档案载体多样化,纸质、版式在不同年代各具特色。在查询利用中检索难度大,检准率低,这就要求在做数字化著录中要因材制宜,调整著录方式方法以提高档案利用效率。
关键词:档案数字化 著录 学籍档案
在高校档案管理工作中,档案数字化建设一直是档案工作的重点内容,也是档案信息资源得以高效利用的基础保障。随着社会层面对高等学校毕业生学历、学位认证需求不断加大,高校档案馆档案利用频率不断提高,特别是毕业生学籍档案中的录取表、成绩表等档案材料的使用率居高不下,这就使得毕业生学籍档案成为许多高校档案部门优先考虑的数字化目标。
学籍档案是高校特有的专门档案,内容涵盖学生录取、学籍异动、培养、毕业及学位授予、毕业、分配去向等历史记录,这类档案具有利用率高,存储内容、时间分散,存储介质、形制多样,查询利用难度大等特点,在数字化工作中区别于普通文件类档案,特别是数字化中的著录环节,决定着后期档案的查阅利用效率,是档案信息化建设中至关重要的一环。
一、高校学籍档案的特点及查询利用中的难点
高校学生学籍档案构成复杂、种类多样,且档案载体多样化,纸质、版式在不同年代各具特色。以潍坊学院为例,学生学籍档案最早可追溯到1958年幼师专业学生学籍卡片,档案载体为纸质画报背面,材质脆弱、老化,纸张中杂质较多,呈土黄色,字迹模糊且均为手填表格,这就造成在数字化过程中案卷拆装困难,且著录过程中存在较多字迹难以辨认的问题。从60年代开始,档案纸质呈现多样化,录取表纸质厚薄不一,部分为复写纸,纸质轻薄,容易破损,且因年代久远字迹模糊不易辨认。90年代开始,学生学籍档案中的录取表大多为机打材料,而学籍表、成绩表和毕业生名单等材料多数仍为手写填表形式,此类档案的查询难易度很大程度上取决于书写的规范与否。正因为学籍档案的此类特点,导致数字化著录过程中经常出现无法准确录入姓名的情况,另外因为手写档案较多,还会出现较多因笔误、书写习惯或者个人原因等导致的同音不同字的问题,这一系列情况都会导致后期档案利用检索出现无法检出或者误检等问题。
在高校档案的查询利用中,查找难度最大的就是“录取新生名册”(又名“录取新生登记表”)档案。按照传统档案整理原则,录取新生名册一般以“卷”为单位归档,卷内文件目录以“专业”分件,因此在常规查询中需要分专业逐页查找学生姓名,耗时耗力检索效率低下。存在同样问题的还有毕业证书登记表等名册类档案材料,在追求高效、信息化的今天,如此的著录与查询检索方式显然已不适用现今的发展要求。目前,大多数高校已逐步开展档案数字化工作,学籍档案因其查询利用率高而均被列入首要数字化范围。在这一工作中,部分高校一开始依然根据原始档案案卷目录、卷内目录组织方式进行著录,但随后的档案利用、查证依然难以顺利进行,究其原因就是著录不能具体到个人相关信息,检索时依赖全文检索,而全文检索的准确率取决于OCR识别的准确率,但对于字迹密集甚至是手写档案的页面来说,正确识别并检出的概率相当低,特别是对于学生学籍档案中存在相当数量的重名现象,这就使得精确检索很难实现。另外在全文检索中其检索规则关键词之间为“或”的关系,检索时耗时长且检准率极低,这更进一步降低了档案检索利用效率。因此遵循原档案组卷著录卷内的方式已不适应现在高效的检索方式,需进一步根据实践情况适时调整著录方式方法,以最大程度提高档案检索利用效率。
二、高校学籍档案数字化著录中遇到的问题及解决方案
著录一直是档案数字化工作中最复杂、最耗时的环节,档案著录的质量高低直接影响着后期档案信息资源的利用价值。从档案利用的角度来看,档案著录要求越精确、详细越有利于后期档案的查询使用,但从著录的工作效率角度来说,越多的著录项越详细的著录内容就意味着越低的工作效率,使得数字化工作难以快速推进,更何谈高效利用。那么在这两者之间就需要找到一个平衡点,既能保证后期档案利用的高效便捷,又能兼顾当前数字化工作中档案著录环节的高效快速推进,提高整体数字化工作效率。通过大量数字化实践工作我们发现并总结出针对不同类型的档案采用不同著录方案的工作方式。
针对学生学籍表、成绩表档案,此类档案均以班级为单位并按照学生学号排序,著录工作中可直接调用学校教务系统中的学生数据信息,姓名、性别、身份证号、学号、专业、毕业证书编号、学位证书编号这几项关键信息可实现快速录入,年度、分类编码则体现在所赋档号当中,借助公式便可以实现快速录入。但此类档案的著录方式仅适用于在教务系统中有数据信息的部分学籍档案,对于早期建立教务系统之前的大量手填学籍档案,依然只能采用人工识别、逐字录入的方式进行。特别针对部分信息不完整的学籍档案,如2000年之前的学生档案绝大部分没有身份证号,甚至七八十年代的档案连学号都没有,此类档案目录中允许出现空值但必须保持档案目录格式一致,以保证档案目录数据与档案系统的匹配性。
针对录取名册类档案,为保证检索利用的准确高效,著录采用逐页逐人逐条的著录方式,最大程度上减少检索时因重名、信息不准确带来的误检现象。近年来的机打档案均可在著录中借助OCR识别技术辅助著录,密集表格中姓名识别准确率可达90%以上,身份证号识别准确率甚至可以达到99.4%,OCR技术的辅助可以使得名册类档案的著录速度提升93%,因此新入馆机打档案的著录在计算机辅助技术的支持下已不再是难点了。但在数字化过程中针对老旧录取表等档案特别是手写档案的著录,依然存在很大的困难。
在档案数字化过程中,老旧档案的著录一直是老大难问题,最突出的几个方面包括:手写字体繁体、简写字、连笔字难以辨认问题;年代久远导致字迹模糊甚至部分破损缺失问题;众多同音不同字、笔误书写问题。这些问题在档案数字化工作中耗费了大量的时间与精力,在不断的实践与摸索中,我们逐渐探索出了一些适合馆藏老旧档案著录的方法。
针对手写字体、繁体字、简化字难以辨认的问题,采取的第一项措施就是必须固定著录工作人员。老旧档案的著录工作人员要求有丰富的工作经验,能够有足够的繁体字、简化字的知识储备,这一点在短时间内是无法做到的,必须通过不断的实践与经验积累才能做到,因此此项工作所配的人员一定要稳定,不能频繁更换。
此外针对数量较多的字迹模糊和同音不同字之类无法确认信息的情况,通过录取、学籍、毕业三部分档案材料之间相互印证,著录中同时录如两个甚至多个名字以确保检索时的检全率达到100%。并且,为了后期著录工作的顺利开展,著录工作中遇到的所有繁体、简化字以目录表格的形式记录下来,积累素材,为以后的数字化工作打好基础。
三、结语
在档案数字化著录工作中,档案部门除了做好基本的协调、管理工作,更要关注新技术使用,加强对数字化成果的数据处理工作,如尽量采用最新 OCR 识别技术,提高全文检索准确率;开展对底层 PDF信息的修订和保存,著录工作中将关键的学生信息列入著录字段合理调整著录工作量与工作效率的平衡;此外也要注意协调与学校各个信息管理部门的关系,充分利用其他部门在业务系统管理、数据调用等的作用,实现学籍档案数据化管理,进一步提高档案数字化水平,这也是今后高校档案数字资源建设的重要途径,是高校档案事业发展的必然趋势。