简介:摘 要:藏文古籍字丁数据集是用机器学习技术进行藏文古籍字符识别的数据基础。传统的藏文古籍字丁数据集采用人工标注方式构建,其中画标注框任务与输入类别名任务因串行进行而耗时较长,并且输入的类别名为藏文字丁,这导致人工标注的方法存在标注时间长和标注门槛高的问题。对此,本文提出了一种半自动标注方法:将画标注框和输入类别名两项串行任务并行化,其中由具备藏文输入能力的标注者完成输入类别名任务,其余标注者完成画标注框任务;通过标注框的中心点坐标信息对标注框进行行间排序和行内排序,分割、整合倾斜古籍图像对标注框进行行纠正,排序好的标注框赋予对应的目标类别名,从而整合得到完整的目标标注信息。该方法不仅可为藏文古籍字丁数据集标注缩短时间和降低门槛,而且可为其他文种的古籍文字数据集标注提供有益参考。