(黔西南州自然资源管理服务中心,兴义 562400)
摘要:地理编码技术在整合城市公共信息资源中具有重大作用,本文详细介绍了地理编码技术在智慧时空大数据平台中的应用研究,包括中文地址模型和中文地址解析模型;并简要阐述了地理编码应用系统的设计与开发,最后以兴义市二手房交易市场管理领域为例开展了应用尝试。
关键词:地理编码; 智慧城市时空大数据平台; 中文地址模型;中文地址解析模型
Application of geocoding technology in smart spatio-temporal big data platform
Abstract:Geocoding technology plays an important role in the integration of urban public information resources. This paper introduces in detail the geocoding technology used in smart spatio-temporal big data platform, including Chinese address model and Chinese address resolution model; The design and development of geocoding application system are briefly described. Finally, an application attempt is made in the field of market supervision and management.
Key Words: Geocoding;smart city spatio-temporal big data platform;Chinese address model;Chinese address resolution model
0 引 言
地理编码是指根据文字位置定义,利用对城市实物位置库的查找搜索,查找并获取存在于空间位置中数据的城市具体范围,以及所占地理坐标的程序。这里,把位置数据映射为地理坐标的程序叫做位置编码[1]。
在现实生活中,产业、人口、宏观经济等公众数据资料主要与空间位置相关,而这些空间资料的绝大多数都不是以数字位置的方式描述的,只是以中文位置的方式存在。当人们利用计算机做空间计算时,并没有直接使用这些方法,而是需要先将这些中文地址映射为数值坐标。地理编码作为地址与空间数值坐标之间的关系桥梁应运而生。地理编码在智慧城市的各方面应用中,文献[2]-文献[8]均提到了地理编码的作用。
本文重点介绍智慧城市中应用到的地理编码技术—地址模型、中文地址解析,在此基础上介绍智慧时空大数据平台建设中地理编码应用系统的设计、开发应用效果。
传统的地址模式,按地址类型如何规范化一般包括:层级模式(面向标准化网址)和有限状态机模式(面向非规范化中文网址)。
标准化地址可表达为按隶属关系依次排列的层级模型,靠前的地址要素包含随后的地址要素。当前地理编码研究多采用这种模型。以“兴义市遵义路11号”为例,其标准地址为“贵州省黔西南州兴义市遵义路11号”,层级模型表达如图1所示。
图1 地址层级模型示例
非标准化中文地址采用有限状态机,因非标准化的地址对同一地址可能会存在不同的表达,如“贵州省黔西南州兴义市遵义路11号”也可描述为“兴义市遵义路11号”。地址有限状态机模型的出现解决了这类问题,它从开始状态到结束状态的路径就是一种地址的描述方式。上述地址的两种描述可用图2所示状态机模型的两条路径表示:开始→地州市→区县→街道→号,开始→地州市→街道→号。
图2 地址有限状态机模型示例
以上两种传统的地址模型中,都包含了地址要素,但忽略了地址要素之间的空间关系,如地址“兴义市遵义路11号”也可能被表达为“兴义市遵义路与沙井街交叉口西南方200米”。故本文中使用了空间关系地址模型,它不仅包含了地址要素及地址要素间的承接关系,还包含了空间关系,可以从以下几方面来描述该模型:1.地址要素的分类;2.地址中地址要素的组合规则;3.地址要素对应的几何类型;4.空间关系类型。
基本的地址要素包括了行政区域地名、街巷名、小 区名、门(楼)址、标志物名,本文中也继承了该分类方式,详细分类如表1所示。
表1 地址要素分类表
大类 | 小类 | 说明 |
行政区域名称 | 省级行政区名称 | 省 |
市级行政区名称 | 市、地州 | |
县级行政区名称 | 县、县级市、市辖区、特区 | |
乡级行政区名称 | 乡、镇、街道 | |
村级行政区名称 | 社区、居委会、行政村 | |
街巷或小区名称 | 街巷名称 | 街、巷 |
道路名称 | 道路 | |
小区名称 | 居民小区、自然村 | |
门楼址及兴趣点名称 | 门(楼)址 | 门址、楼址 |
标志物名称 | 标志物名称、兴趣点 |
地址中地址要素的组合规则采用BNF范式描述,详情如下:
<标准地址>:=<行政区域名称>[街巷区域限定物名称][具体位置描述] 其中,
<行政区域名称>:=<省级名称><市级名称><县级名称>[乡级名称][村级名称]
<街巷区域限定物名称>:=<街巷名称>|<道路名称>|<小区名称>|<自然村>
<具体位置描述>:=<门(楼)址>|<标志物名称>。
地址要素对应空间数据库中的地理实体,地理实体可由不同维度的几何类型(点、线、面)进行表达,考虑到空间计算的便利性,本文采用的几何类型如表2所示。
表2 地址要素
地址要素类型 | 几何类型 |
乡级及以上行政区 | 面 |
村级行政区、小区名称、门(楼)址 、标志物名称 | 点 |
街巷名称、道路名称 | 线 |
地址中空间关系分为包含关系、相交关系、相邻关系、方向关系和距离关系等。包含关系是最常见的,如区县包含乡镇,道路包含兴趣点等。相交关系常表现在道路的交叉口,相邻关系、方向关系及距离关系有可能同时出现,如“西南方200米”。
1.2中文地址解析
中文的编码技术,实质上是自然语言处理系统(NLP)中的一个方面,其中需要处理的主要问题就是地址的分析,在这里涉及到了中文分词、地址元素辨识、地址标准化和地址匹配等方面,而目前的研究成果也大多采用了规范和统计的方式加以实现,例如基于字典的机器分词方式和基于统计的条件下随机使用的较多,而基于字典的机器分词方式则简单且易于实施,不过在未注册字和词歧义辨识以及命名实体辨识方面等方面的成效则较差;基于条件随机场化(CRF)的方法则其有效性受条件假设的限制,而且由于其特性全由人自己找,训练费时费力,而且也不一定训练结果很好,尤其对于标注体系大和信息量多的情景,训练速度非常慢,在练习中也会产生太过的拟合问题;但由于深度学习技术在自然语言分析方面的广泛应用,通过深度训练的手段就能够极大的提升地址分析能力,其模型结构如图3所示:
图3 基于BiLSTM+CRF的中文地址分词模型结构
该模型主要分为5层,即输入层、词向量层、BiLSTM网络层、CRF推理层和输出层,各层的主要作用有:
输入层:该负责中文地址的输入,由于中文不像英文有天然的分隔符,而且对于地址分词来说,不仅需要分词,并且需要标注,也就是分词和标注同时进行,因此模型中输入的一个个字符,并且申请网络的输入要求是定长的,因此需要人工设定步长这个参数,这是超参数,需要分析数据后来确定;
词向量层:神经网络是不能直接处理字符的,需要将字符变成词向量,这个向量的长度是超参数,需要反复实验来得到,初始化时可以随机初始化;
BiLSTM层:RNN类网络具有很强的上下文记忆能力,善于处理序列数据,之所以实用BiLSTM是因为普通的RNN容易梯度消失或者梯度爆炸;这一层负责学习各个字符的发射状态矩阵,主要有两个超参数需要确定,即BiLSTM层的层数和每一层的神经单元个数;
CRF层:即条件随机场层,这一层的目的是为了学习不同标注间的转移概率矩阵,进而学习到不同标注之间的约束关系,保证输出的标注序列是正确的;
输出层:输出的是输入序列的最佳标注序列,这个标注体系跟数据以及地址模型有关,是词位标注集合与地址元素类型标注集合一起组合而成的。本项目中,考虑到中文地址发复杂性,我们采用空间关系地址模型;同时考虑到地址的尾字特征特性,将传统的词位标注集从4标注集扩展为5标注集,有利于对地址更加细致地解析,词位标注集具体如下表所示:
表3 词位标注集
词位 | B | I | O | S | A |
含义 | 词首 | 词中 | 其他 | 单字词 | 尾字特征 |
所以,在BiLSTM+CRF模式中,可以使用比BiLSTM层更强的上下文记忆能力,而且不依靠词典、人工特征,对于未注册词及去歧义也有非常好的效率;在CRF层中透过学习在各个标识间的转换限制,从而确定输出的标识顺序是正确的;不仅由于该模块在位置分析能力上更强,并且还能够使用GPU运算,因此能够极大地提高训练效果,比传统的CRF要快很多。
2智慧时空大数据平台中的地理编码应用系统
2.1总体架构
系统由三部分组成,基于空间关系地址模型的数据库、地址编码服务层与地理编码应用层。基于空间关系地址模型的数据库是将标准地址及POI等按空间关系模型的要求处理后产生的;地址编码服务层是在空间关系地址模型及中文地址解析等的基础上构建的,以网络接口的方式为智慧时空大数据平台及接入的各系统提供地理编码服务;应用层分为时空大数据平台的地理编码应用及第三方应用,平台的应用为平台用户提供开箱即用的地理编码应用功能,第三方应用为第三方根据自身业务需要,采用地理编码服务开发的应用,其特点是灵活自由,使第三方不受平台限制,把地理编码服务融入到自身的业务系统中。总体架构如图4所示。
图4 总体架构图
2.2功能设计及开发
智慧时空大数据平台中地理编码应用为用户提供正向地理编码应用、逆向地理编码应用功能。均支持单一地址的匹配,及采用.xls、.txt等多种格式的批量匹配;提供地图展示功能,匹配后的结果可在地图上展示。功能模块如图5所示。
图5 地理编码应用系统功能模块
2.3应用效果
正向地理编码批量匹配效果界面如图6所示。
图6 正向地理编码批量匹配界面
将互联网在线抓取数据库中的二手房售卖信息数据及公共专题数据库中的地名数据,通过地理编码批量匹配功能空间化后,用于二手房交易市场查询数据库的建设。经过测试地理匹配整体效果如表4所示,系统在精确度上有比较好的表现。
表4 地理匹配整体效果
解析数据名称 | 精确率P | 召回率R | 均值F1 |
地名数据 | 0.90 | 0.89 | 0.90 |
二手房地址数据 | 0.93 | 0.93 | 0.93 |
3结语
本文从服务于智慧时空大数据平台建设角度出发,介绍了地理编码中使用到的地址模型、中文地址解析等技术,并在此基础上介绍了地理编码应用系统的设计与开发,包括地理编码服务及地理编码应用系统等,最后介绍了在兴义市二手房交易市场查询数据库建设应用的效果。
参考文献:
[1]蒯希,贺彪,郭仁忠,陈学业,罗恒,毕明艳.面向城市精细化治理的“地楼房权人”实体构建[J].测绘工程,2021,30(06):40-45.DOI:10.19349/j.cnki.issn1006-7949.2021.06.007.
[2]李林,梁星,刘骏,梁均军.智慧重庆地理编码服务平台建设与应用[J].地理信息世界,2017,24(01):107-110.
[3]李林,程宇翔.智慧重庆地理编码系统研究与应用[J].地理空间信息,2015,13(06):40-43+12.
[4]张敏. 地理编码服务体系在智慧城市公共信息整合中的应用与研究[D].中国地质大学(北京),2014.DOI:10.27493/d.cnki.gzdzy.2014.000118.
[5]荣毅龙,张晓东,何莲娜,翁亚妮,赵赫,叶雅飞,孙媛,喻文承,孙道胜. 基于地理编码的智慧城市感知体系规划研究——以北京市智慧城市规划建设为例[C]//.创新技术·赋能规划·慧享未来——2021年中国城市规划信息化年会论文集.,2021:240-248.DOI:10.26914/c.cnkihy.2021.045132.
[6]迟涛. 基于WebGIS的电子政务监察系统设计与实现[D].成都理工大学,2019.DOI:10.26986/d.cnki.gcdlc.2019.000467.
[7]姜滔. 基于GIS平台的城建工地渣土监管系统的设计与实现[D].华中科技大学,2018.
[8]孙莎莎.智慧磁县时空云平台服务系统的设计与实现[J].北京测绘,2017(04):28-32+37.DOI:10.19580/j.cnki.1007-3000.2017.04.007.