9.16.3. GeoLife GPS轨迹数据

此目录提供 GeoLife GeoMesa摄取命令和转换器配置文件。

GeoLife数据集包含182个不同用户的带时间戳的纬度、经度和海拔高度。共有17621个点位,跨度1.2公里,时间跨度2007-2012年。

数据是从用户的手机和其他GPS记录器中收集的,旨在模拟通勤、购物、观光等活动。

一些用户条目包含有关交通方式的附加信息。

9.16.3.1. 获取GeoLife数据

可以使用提供的下载GeoLife数据集 download-data.sh 在中编写脚本 $GEOMESA_ACCUMULO_HOME/bin/ 就其本身而言

./download-data.sh geolife

或者,下载GeoLife数据 here

下载数据后,解压ZIP文件以供摄取。

备注

确保维护数据集的目录结构。摄取转换器需要此层次结构,以便正确解析每个跟踪的用户ID和跟踪ID。

9.16.3.2. 数据格式

数据集的每个文件夹代表一个用户的GPS日志。每个日志都格式化为PLT文件,如下所示(基于ZIP文件中包含的用户指南):

行1...6在此数据集中无用,可以忽略。点在以下几行中描述,每行一点。

字段1:以十进制度表示的纬度。
字段2:以十进制度表示的经度。
字段3:此数据集全部设置为0。
字段4:以英尺为单位的高度(如果无效,则为-777)。
字段5:日期-自1899年12月30日以来经过的天数(带有小数部分)。
字段6:字符串形式的日期。
字段7:字符串形式的时间。
请注意,字段5和字段6和7在此数据集中表示相同的日期/时间。你可以用它们中的任何一个。
示例:39.906631,116.385564,0,492,40097.5864583333,2009-10-11,14:04:30 39.906554,116.385625,0,492,40097.5865162037,2009-10-11,14:04:35

有关GeoLife数据功能的更多信息,请参阅其 documentation 以及包含在数据集的压缩文件中的用户指南。

9.16.3.3. 摄取数据

检查是否有 geolife 在GeoMesa工具类路径中提供了简单要素类型。这是默认情况。

$ geomesa-accumulo env | grep geolife

如果不是,则合并 reference.conf 使用 $GEOMESA_ACCUMULO_HOME/conf/application.conf ,或确保 reference.conf vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/geolife

确保提取的GeoLife数据位于其原始文件夹结构中。这是转换器解析每个轨迹的用户和轨迹ID所必需的。

进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i-z 选择。看见 geomesa-accumulo help ingest 了解更多详细信息。

$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s geolife -C geolife \
  --threads 4 /path/to/Geolife\ Trajectories\ 1.3/Data/**/*.plt

接收过程中的任何错误都将记录到 $GEOMESA_ACCUMULO_HOME/logs

9.16.3.4. 引证

Microsoft Research要求您在使用此数据集时引用以下论文:

  1. 郁政,张丽珠,谢兴,马伟英。从GPS轨迹中挖掘有趣的位置和旅行序列。摘自《世界野生网络国际会议(WWW,2009)》,西班牙马德里。ACM出版社:791-800。

  2. 郁政,李全南,陈玉坤,谢兴,马伟英。了解基于GPS数据的移动性。在ACM关于普适计算会议(UbiComp 2008)的论文集上,韩国首尔。ACM出版社:312-321。

  3. 郁政,谢兴,马伟英,GeoLife:一种用户、位置和轨迹之间的协同社交网络服务。受邀论文,发表在IEEE数据工程公报上。33,2,2010,第32-40页。