9.16.3. GeoLife GPS轨迹数据¶
此目录提供 GeoLife GeoMesa摄取命令和转换器配置文件。
GeoLife数据集包含182个不同用户的带时间戳的纬度、经度和海拔高度。共有17621个点位,跨度1.2公里,时间跨度2007-2012年。
数据是从用户的手机和其他GPS记录器中收集的,旨在模拟通勤、购物、观光等活动。
一些用户条目包含有关交通方式的附加信息。
9.16.3.1. 获取GeoLife数据¶
可以使用提供的下载GeoLife数据集 download-data.sh
在中编写脚本 $GEOMESA_ACCUMULO_HOME/bin/
就其本身而言
./download-data.sh geolife
或者,下载GeoLife数据 here 。
下载数据后,解压ZIP文件以供摄取。
备注
确保维护数据集的目录结构。摄取转换器需要此层次结构,以便正确解析每个跟踪的用户ID和跟踪ID。
9.16.3.2. 数据格式¶
数据集的每个文件夹代表一个用户的GPS日志。每个日志都格式化为PLT文件,如下所示(基于ZIP文件中包含的用户指南):
行1...6在此数据集中无用,可以忽略。点在以下几行中描述,每行一点。
字段1:以十进制度表示的纬度。字段2:以十进制度表示的经度。字段3:此数据集全部设置为0。字段4:以英尺为单位的高度(如果无效,则为-777)。字段5:日期-自1899年12月30日以来经过的天数(带有小数部分)。字段6:字符串形式的日期。字段7:字符串形式的时间。请注意,字段5和字段6和7在此数据集中表示相同的日期/时间。你可以用它们中的任何一个。示例:39.906631,116.385564,0,492,40097.5864583333,2009-10-11,14:04:30 39.906554,116.385625,0,492,40097.5865162037,2009-10-11,14:04:35
有关GeoLife数据功能的更多信息,请参阅其 documentation 以及包含在数据集的压缩文件中的用户指南。
9.16.3.3. 摄取数据¶
检查是否有 geolife
在GeoMesa工具类路径中提供了简单要素类型。这是默认情况。
$ geomesa-accumulo env | grep geolife
如果不是,则合并 reference.conf
使用 $GEOMESA_ACCUMULO_HOME/conf/application.conf
,或确保 reference.conf
vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/geolife
确保提取的GeoLife数据位于其原始文件夹结构中。这是转换器解析每个轨迹的用户和轨迹ID所必需的。
进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i
和 -z
选择。看见 geomesa-accumulo help ingest
了解更多详细信息。
$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s geolife -C geolife \
--threads 4 /path/to/Geolife\ Trajectories\ 1.3/Data/**/*.plt
接收过程中的任何错误都将记录到 $GEOMESA_ACCUMULO_HOME/logs
。
9.16.3.4. 引证¶
Microsoft Research要求您在使用此数据集时引用以下论文:
郁政,张丽珠,谢兴,马伟英。从GPS轨迹中挖掘有趣的位置和旅行序列。摘自《世界野生网络国际会议(WWW,2009)》,西班牙马德里。ACM出版社:791-800。
郁政,李全南,陈玉坤,谢兴,马伟英。了解基于GPS数据的移动性。在ACM关于普适计算会议(UbiComp 2008)的论文集上,韩国首尔。ACM出版社:312-321。
郁政,谢兴,马伟英,GeoLife:一种用户、位置和轨迹之间的协同社交网络服务。受邀论文,发表在IEEE数据工程公报上。33,2,2010,第32-40页。