9.16.6. 纽约市出租车

伊利诺伊大学发布的纽约市出租车活动数据来自信息自由法向纽约市出租车和豪华轿车委员会提出的要求。有关该数据集的更多信息请参阅 here

伊利诺伊大学将数据托管在Box网络界面中,并以多个压缩文件的形式到达。这里只检查“行程数据”。还有来自出租车计价器的车费数据,比如车费金额和小费。一旦解压,就会有覆盖四年的每月CSV文件。

9.16.6.1. 获取数据

这些.zip文件可供下载 here 。选择所需的压缩文件,将其解压缩到一个方便的目录中。

出租车数据在原始数据中每条记录包括两个点和两个时间戳。这为不同的简单特征类型设计提供了机会。

有一种设计,其中每个SFT要么是一个带有时间戳的上升点,要么是下降点。这两个点共享一个共同的Trip ID。在内部,它们通过在记录后面附加“Pickup”或“Dropoff”进行散列来区分。对于geomesa演示来说,这样做的好处是可以处理更多的点数据。

与原始数据保持一致的是,还有两点要素类型。

人们还可以想象一个 LineString 几何图形,但是路径未指定。之前对纽约市出租车数据的分析似乎使用了谷歌地图API调用来建议通过街道的有效路径。在这项工作中,我们不会尝试这样做。

9.16.6.2. 摄取命令示例

检查是否有 nyctaxinyctaxi-single 在GeoMesa工具类路径中提供了简单的要素类型。这是默认情况。

$ geomesa-accumulo env | grep 'nyctaxi\|nyctaxi-single'

如果不是,则合并 reference.conf 使用 $GEOMESA_ACCUMULO_HOME/conf/application.conf ,或确保 reference.conf vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/nyctaxi

9.16.6.2.1. 二次记录法

要使用GeoMesa命令行界面摄取,首先是拾取:

$ geomesa-accumulo ingest -u username -c catalogName -s nyctaxi -C nyctaxi hdfs://namenode:9000/path/to/nyctaxi*

然后,Dropoff使用相同的简单功能类型摄取相同的文件,但使用不同的转换器。

$ geomesa-accumulo ingest -u username -c catalogName -s nyctaxi -C nyctaxi-drop hdfs://namenode:9000/path/to/nyctaxi*

9.16.6.2.2. 单次记录法

$ geomesa-accumulo ingest -u username -c catalogName -s nyctaxi-single -C nyctaxi-single.conf hdfs://namenode:9000/path/to/nyctaxi*