基于微博位置签到数据的POI更新方法

基于微博位置签到数据的POI更新方法
曹劲舟;武红宇
【摘 要】POI的现势性对于位置服务至关重要,但传统人工实地调查效率低,现势性无法满足需求.以当前用户参与数众多的微博社交网络为数据平台,提出了一种基于微博位置签到数据的POI更新方法.首先,对微博位置签到数据进行预处理,剔除语义与空间位置不一致的噪声点,在此基础上提出一种基于RANSAC算法的位置签到数据集地理配准方法,实现位置签到数据与已有地理数据库的可靠配准;然后,将位置签到数据集与已有POI数据库进行空间分析与匹配建模,对匹配不成功的位置签到数据进行有效性验证,提取有效新增数据入库用以更新POI;最后,以武汉市的街旁网位置签到数据进行POI更新实验,能够有效地发现新增POI和消失POI,为POI快速高效更新提供了全新的方式.%The latest tendency of POI is critical for location-based services. The traditional POIs collecting based on on-the-spot investigation is inefficient. However, the fact is that it is unable to meet the demands of the location-based service applications. In this paper, a POIs update approach based on Weibo that involved the largest number users was proposed. Firstly, by preprocessing Weibo check-in data, coarse
绗缝加工
error points that were semantically and spatially inconsistent were removed, on the basis of which, a geo-referencing method based on Weibo check-in data in RANSAC algorithm was proposed for the purpose of fulfilling reliability of Weibo position check-in data with existing geo-database. Secondly, spatial analysis and matching modeling of check-in data set and the existing POIs database was implemented. After validation of unmatched data, extraction of valid new data as an updated POI into database was implemented. Finally, a POIs update experiment of Wuhan Jiepang position check-in data was implemented with the proposed approach. The experiment results show that the proposed approach can meet the requirements and effectively find new POIs and disappeared POIs. It provides a new way to update POIs quickly and efficiently and has a good prospect of application.
【期刊名称】《地理空间信息》
【年(卷),期】2013(011)002
【总页数】4页(P15-18)
【关键词】POI;微博;位置签到数据;更新
【作 者】曹劲舟;武红宇b2y
【作者单位】武汉大学遥感信息工程学院,湖北武汉430079
【正文语种】中 文
灌铅>包装箱制作【中图分类】P208
随着Web2.0技术的日益成熟和普及,LBS(location based service)成为当下发展最为迅猛的科技应用之一 [1]。随着LBS的快速发展,其对位置信息时效性的要求也越来越高。POI(point of interest)作为当前位置信息的重要载体,其实时性、数据来源的可靠性和广泛性直接影响LBS业务的发展。传统POI更新主要采用人工现场采集再入库的方法[2],不仅费时费力、效率低下,其现势性也无法满足位置服务应用的整体需求。依靠互联网信息的语义理解成为POI抓取和解析的一个新的研究方向 [3],但由于网络信息的复杂性以及地理信息以描述性的文字存储,因此难以进行批量化、规范化的提取;利用电信企业库中客户信息资源和地址库中空间信息资源,通过地址匹配技术实现POI的自动匹配更新虽已有
一定的成果,但是没有提出更大众化的方法,仍然无法解决POI的快速更新难题[4]。
微博位置签到数据由用户通过带有GPS定位的移动智能终端上传,具有数据量大、现势性高、带有社会化属性等特点,是实现POI高效高质更新的一种潜在可用数据源。本文以当前用户参与数众多的微博社交网络为数据平台,提出了一种基于微博位置签到数据的POI更新方法。
微博位置签到数据涵盖了更新POI所必需的全部信息,可以实现POI的快速、准确更新,其技术流程图如图1所示。
以微博位置签到数据作为数据源,必须先对其进行预处理,剔除语义与空间位置不一致的噪声点;再将位置签到数据和已有POI数据库进行空间分析和匹配建模,匹配不成功的即是POI原有库中所不具备的数据,可以作为潜在的POI更新数据源,通过对其进行有效性验证,提取有效新增数据入库用以更新POI。
微博位置签到数据是大众自愿上传的,存在精度不高、数据冗余和格式不正确等[5,6]。所以,必须先对数据进行预处理,剔除一些没有意义、关注人数很少或者信息缺失的点,合
并大量重复的点,通过与已有POI数据集配准以提高数据精度,降低数据冗余度,满足POI更新的要求。
微博位置签到数据预处理主要包括以下内容:
1)设置签到次数和人数的阈值,以筛选剔除如表1第1条这样一些没有意义或者签到次数很少、关注度低的数据。
2)检查数据的属性信息是否齐全。对于缺失的信息,需建立一个标准格式对需要保留的数据按照标准格式进行修改。表1中第2条数据名称属性指示不全,全称应为“武汉长江大桥”。
3)对于大量的重复签到数据进行合并处理。该操作可以利用POI数据字典与微博位置签到数据进行比对,将对应于同一地理目标的不同别名、俗称与标准名称进行合并[7,8],如表1中第3~5条数据便是这种情况。
由于移动智能终端的定位存在一定的误差,导致微博位置签到数据与已有POI数据集在空间上存在一定的偏移,因此要先将微博位置签到数据进行地理配准。本文采用RANSAC算
法对位置签到数据和对应POI数据的仿射变换关系进行估算。RANSAC算法通过对数据集重复取样来获得基本子集,利用基本子集估算模型[9]。它根据一个容许误差将匹配点对分为内点和外点,利用内点数据进行参数估计 [10]。进行数据拟合需限定可以确定模型所需的最小数据集合。本文采用仿射变换模型,求解6个参数至少需要4个点对:
1)从点对集S中随机选取4个点对样本,利用间接平差初始化仿射变换模型构建8个方程求解6个未知参数,并得到拟合的精度误差。初始化模型设为最优模型,初始误差设为最小误差。
2)设置迭代次数阈值N,最少内点数阈值Z。从数据集中继续随机取出点对样本,如果内点条件阈值diserror小于预设阈值,则认为该点对属于内点集Si;若Si的大小超过了阈值Z,则用Si重新估计模型参数。如果得到的新拟合误差小于最小误差,则把当前内点集Si设为最优内点集,由它估计的模型为最优模型。
3)在经过N次迭代后,由最优的内点集Si估算得到的即为最优模型,输出模型参数[11]。
为了确定可用于更新POI的潜在数据集,需要将微博位置签到数据与现有POI数据库进行匹
配,将匹配成功的微博签到数据剔除掉,匹配失败的数据即可作为潜在的可用于POI数据更新的数据集。
位置签到数据匹配建模包括空间匹配与属性匹配。属性匹配建立在空间几何匹配的基础上。
1)空间匹配。通过空间分析确定每一个微博位置签到数据与已有POI数据库的空间匹配关系。以微博位置签到数据为中心,通过设定一定的距离建立缓冲区,将缓冲区与现有的POI数据进行叠置分析,同时关联相应属性表。考虑到可能存在多个微博位置签到数据对应同一POI数据点,使得缓冲区间有重合,此时不应将缓冲区合并。
球墨铸铁管qiumogg2)属性匹配。将微博位置签到数据与缓冲区里面已有的POI数据集的属性信息进行匹配,主要是指要素名称的匹配。字符串的匹配是一种有效的方法,其思路是将待匹配的名称和标准名称均视为字符串,检查待匹配字符串中的字符是否在对应的标准字符串中出现,出现的视为有效字符,未出现的视为无效字符,以有效字符与无效字符数量的比值和规定的阈值比较确定是否匹配成功。具体步骤如下:
打开收音机①将微博位置签到数据的名称作为待匹配字符串,以其对应的POI名称作为标准字符串,依次检查待匹配字符串S1中的字符是否在标准字符串S2中出现,如果出现,则将CiS2取1,未出现则取0;N为S1的长度,即字符的个数。代入式(3),即可得到S1在S2中出现的字符所占的比重,即S1对于S2的匹配度:
②设定匹配阈值λ,与PS2S1相比较来判断二者是否匹配。如果满足式(4),则表示符合匹配条件:
③将微博位置签到数据与其对应的POI数据集都进行匹配后,将符合式(3)的中的最大值所对应的POI数据作为该微博位置签到数据的匹配POI点;反之,则视为该微博位置签到数据匹配失败。
为了保证POI入库数据的精度,必须对潜在POI数据进行有效性验证。POI更新主要基于2种原因:①原POI数据库中没有包含该地理目标,但该目标已经具备加入POI的条件,此时只需直接将位置签到数据入库存储;②POI所对应的地理目标位置发生改变,此时需通过对位置签到数据的签到次数、签到人数、时间标签等信息进行统计分析以确定需要更改或删除POI。通过对签到次数与签到人数的比进行验证,分析签到次数的聚集程度,从而选
择符合要求的签到数据作为合格的POI进行更新。

本文发布于:2024-09-21 22:43:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/210091.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   签到   位置   匹配
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议