一种基于深度学习的出租车载客点推荐方法

著录项
  • CN201710637019.0
  • 20170731
  • CN107590175A
  • 20180116
  • 同济大学
  • 黄震华;孙剑;向阳
  • G06F17/30
  • G06F17/30 G06K9/62 G06Q30/02 G06Q50/26

  • 上海市杨浦区四平路1239号
  • 上海(31)
  • 上海科律专利代理事务所(特殊普通合伙)
  • 叶凤
摘要
本发明涉及一种基于深度学习的出租车乘客推荐方法,首先对海量的GPS轨迹数据进行预处理,获取出租车上客点热区,然后采用深度学习技术从数据中学习并获取出租车司机的寻客模式,从而根据出租车当前的驾驶策略推荐相应的潜在载客点。与现有方法相比,本发明具有显著提高出租车载客点推荐准确度以及降低出租车空驶率等优点,能够有效应用于智能交通、广告投放、个性化推荐以及信息服务等领域。
权利要求

1.一种基于深度学习的出租车乘客推荐方法,其特征在于,包括如下步骤:

步骤1.大数据预处理。本发明首先对地图大数据和出租车GPS轨迹大数据进行预处理。

对于地图大数据,采用网格化的方法,选定参考点,将地图分成固定大小的网格,形成 网格地图。从而,每个网格所包围的区域都有固定的坐标,同时,每个落入该区域的GPS点具 有一致的数据表示。

本发明根据是否载客,将GPS轨迹分成载客旅程和巡游旅程两大类。对于载客旅程,本 发明利用统计学习方法得到以下信息:载客热点、道路状况以及司机收入信息。其中,载客 热点与道路状况都与出租车司机的寻客策略有很大关系。对于巡游旅程,本发明通过预处 理得到的司机寻客时的上下文信息,如起始位置、行驶方向、天气等。

步骤2.深度学习模型构建。由于将地图进行网格化后,载客点由经纬度组成的连续值 变成网格坐标组成的离散值,因此,本发明将乘客预测和路况预测问题均视为分类问题,并 用相同的模型架构。在学习模型构造过程中,本发明首先将出租车GPS大轨迹数据和地图大 数据通过词嵌套工具生成一维向量,并且将一维向量通过无监督学习获取数据特征,然后 通过降维方法提取数据特征的主成分信息,即活性特征,从而将活性特征输入到Softmax分 类器来实现多目标分类。

步骤3.载客点推荐。在步骤2深度学习模型构建的基础上,为了保证推荐的效果,使得 出租车寻客效率更高,本发明将收入因素也纳入到载客点推荐的影响因素当中,并设计如 下载客点推荐的计算公式:

ζ ( O , D , t ) = αH D , t , · βC O , D , t · αγL D , t , D i s ( O , D )

其中,ζ表示推荐分数,O和D分别表示出租车寻客的出发点和乘客可能出现的地点网 格,t和t'分别是从O的出发时间和D的到达时间,α是乘客预测的准确度,H D,t'是网格D在时 间t'的热度值,二者乘积表示D对出租车的吸引力;β是路况预测的权重,C O,D,t表示在t时从O 点出发到D点时的路况,通常可以用平均速度表示;γ是预期收入的预测准确度,L D,t'表示 潜在载客旅程的长度(与收入成正相关),Dis(O,D)表示从O到D的距离。

该计算公式可以看做是给在某时刻t出发的从O到D的一趟寻客旅程的打分公式。分数 越高,表示该目的地越值得出租车前往寻客。

2.如权利要求1所述的基于深度学习的出租车乘客推荐方法,其特征在于,步骤1中,对 于GPS轨迹大数据,本发明所采用的格式如下所示:

车id 经度 纬度 方向角 是否载客 时间点 日期 …

3.如权利要求1所述的基于深度学习的出租车乘客推荐方法,其特征在于,步骤1中,本 发明利用地图匹配技术将GPS点映射到相应的道路上,得到更为准确的定位信息。

说明书
技术领域

本发明涉及计算机应用与机器学习交叉技术领域,尤其涉及一种基于深度学习的 出租车载客点推荐技术。

城市计算是计算机科学以城市为背景,跟城市规划、交通、能源、环境、社会学和经 济等学科融合的新兴领域,是一个通过不断获取、整合和分析城市中多种异构大数据来解 决城市所面临的挑战(如环境恶化、交通拥堵、能耗增加、规划落后等)的过程。城市计算将 无处不在的感知技术、高效的数据管理和分析算法,以及新颖的可视化技术相结合,致力于 提高人们的生活品质、保护环境和促进城市运转效率。出租车是城市客运交通的重要组成 部分,是常规公共交通的重要补充。随着出租车数量的不断增长,以出租车为主要对象的智 能交通相关技术目前已成为城市计算的一个重要研究课题。

深度学习是机器学习研究中的一个前沿领域,其概念由Hinton等人于2006年提 出,目的是通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分 布式特征表示,而深度神经网络是深度学习模型的一种重要实例。先前的机器学习方法如 随机森林、支持向量机、线性回归、逻辑回归、反向传播神经网络等,都可以被看做是在输入 层和输出层之间只有一个单隐层的模型,而深度神经网络模仿人的“神经元”对数据进行感 知和学习,为了学习到数据之间非线性的复杂关系,可以将网络设置为多隐层的训练结构。 目前,深度神经网络已经成功应用到图像分类、语音识别及自然语言处理等领域中,并取得 了较好的成果。我们发现将深度神经网络应用于出租车载客点的推荐过程中来提高其推荐 准确度,目前还是一个空白。现有的方法大都使用统计学习和浅层机器学习模型来处理出 租车载客点的预测和推荐,这就导致了推荐系统不能很好地捕获底层GPS轨迹数据所隐含 的模式,从而严重影响出租车载客点的推荐准确度。

本发明为了解决现有方法的上述不足,提出了一种基于深度学习的出租车载客点 推荐方法,图1给出了本发明的处理流程图。

本发明可以通过以下技术方案流程来实现,主要包括如下三个步骤:

1.大数据预处理。本发明首先对地图大数据和出租车GPS轨迹大数据进行预处理。 对于地图大数据,采用网格化的方法,选定参考点,将地图分成固定大小的网格,形成网格 地图。从而,每个网格所包围的区域都有固定的坐标,同时,每个落入该区域的GPS点具有一 致的数据表示。

对于GPS轨迹大数据,本发明所采用的格式如下所示:

车id 经度 纬度 方向角 是否载客 时间点 日期 …

首先,本发明根据是否载客,将GPS轨迹分成载客旅程和巡游旅程两大类。由于GPS 设备定位的精度以及外部因素如天气、隧道等原因,轨迹数据往往存在一定的偏移,即并未 准确定位到相应的道路上。因此,本发明利用地图匹配技术将GPS点映射到相应的道路上, 得到更为准确的定位信息。对于载客旅程,本发明利用统计学习方法得到以下信息:载客热 点、道路状况以及司机收入信息。其中,载客热点与道路状况都与出租车司机的寻客策略有 很大关系。对于巡游旅程,本发明通过预处理得到的司机寻客时的上下文信息,如起始位 置、行驶方向、天气等。

2.深度学习模型构建。由于将地图进行网格化后,载客点由经纬度组成的连续值 变成网格坐标组成的离散值,因此,本发明将乘客预测和路况预测问题均视为分类问题,并 用相同的模型架构,如图2所示。在学习模型构造过程中,本发明首先将出租车GPS大轨迹数 据和地图大数据通过词嵌套工具生成一维向量,并且将一维向量通过无监督学习获取数据 特征,然后通过降维方法提取数据特征的主成分信息,即活性特征,从而将活性特征输入到 Softmax分类器来实现多目标分类。

3.载客点推荐。在步骤2深度学习模型构建的基础上,为了保证推荐的效果,使得 出租车寻客效率更高,本发明将收入因素也纳入到载客点推荐的影响因素当中,并设计如 下载客点推荐的计算公式:

其中,ζ表示推荐分数,O和D分别表示出租车寻客的出发点和乘客可能出现的地点 网格,t和t'分别是从O的出发时间和D的到达时间,α是乘客预测的准确度,HD,t'是网格D在 时间t'的热度值,二者乘积表示D对出租车的吸引力;β是路况预测的权重,CO,D,t表示在t时 从O点出发到D点时的路况,通常可以用平均速度表示;γ是预期收入的预测准确度,LD,t'表 示潜在载客旅程的长度(与收入成正相关),Dis(O,D)表示从O到D的距离。

因此,该计算公式可以看做是给在某时刻t出发的从O到D的一趟寻客旅程的打分 公式。分数越高,表示该目的地越值得出租车前往寻客。

与现有技术相比,本发明具有以下优点:

1、本发明使用深度学习模型,能够显著提高出租车载客点预测的准确度;

2、本发明综合考虑影响出租车载客的各项因素,能够为司机推荐收益高的载客地 点;

3、本发明使用大规模GPS轨迹数据,能够显著提高出租车载客点推荐的泛化能力。

图1本发明的处理流程图

图2本发明乘客预测和路况预测深度学习模型

实施例

本发明在GPS轨迹大数据获取上,选取上海某一出租车公司中的10000辆出租车, 并获得它们两个月产生的GPS轨迹数据,大小约为800GB,而地图选取上海百度地图。由于很 少有计算机的内存配置能够达到处理如此大量数据的级别,因此,为了数据处理的稳定性, 本发明部署计算机集,其中包含20台高配置台式机。

对于上述GPS轨迹大数据的预处理,本发明按照如下等式关系进行实施:

R([车id,出发点,出发时刻,行驶方向,天气,周几])=寻客点。

该等式表示的是寻客点与出租车寻客规律之间的关系,即出租车司机在当前环境 下最可能去哪个地方寻下一个潜在的乘客。

将数据处理成上述格式之后,在深度学习模型构造中,本发明通过google公司的 word2vec工具将它转换成长度为500的一维向量,然后将这一维向量通过降噪自编码器 (Denoising Autoencoder)来无监督学习出长度为250的一维数据特征。在长度为250的一 维数据特征基础上,本发明进一步使用主成分识别算法(PCA)和t-分布邻域嵌入算法(t- SNE)分别对它进行降维操作,提取其中最有意义的特征向量。本发明将该特征向量的长度 设为150。最后,将这长度为250的一维特征向量输入到类别数为地图网络个数的softmax分 类器中。本发明中的地图网络个数为4000。对于参数优化过程,本发明使用随机优化方法来 具体实施。

在载客点推荐过程中,本发明按照分数计算公式来实施。在本实施例中,我们选取出租车寻客的出发点O为虹桥机场所在的地点网络,D为乘客可能出现的地点网格,有3999个,对应softmax分类器中除了O之外的3999个目标类,而softmax分类器共有4000个目标类。出租车从O出发时间t和到达D时间t'取值依据一次寻客过程的具体时间点来给定,假定t为早上8:30,t'为9:15。乘客预测的准确度α、路况预测的权重β通过步骤2的深度学习模型来计算,假定α=0.92,β=0.88,而预期收入的预测准确度γ通过统计学习方法来计算,假定γ=0.85。网格D在时间t'的热度值HD,t'通过近一个月的历史数据做统计分析求得,假定HD,t'=1.55,在t时从O点出发到D点时的路况(即平均速度)CO,D,t通过近一个月的历史数据做统计分析求得,假定CO,D,t=48.5,潜在载客旅程的长度LD,t'通过近一个月的历史数据做统计分析求得,假定LD,t'=12.5,从O到D的距离Dis(O,D)取值依据一次寻客过程来具体确定,假定Dis(O,D)=23.4。那么可以求出分数ζ(O,D,t)=0.92×1.55×0.88×48.5×0.92×0.85×12.5÷23.4=25.4。

本文发布于:2024-09-24 20:23:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/73516.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议