9.16.5. 全球恐怖主义数据库(GTD)

此目录提供 GTD GeoMesa摄取命令、转换器配置文件和一个R脚本,以便从分发数据的电子表格中准备数据。

此工作基于2015年12月17日完成的GTD拉动。GTD数据发布日期为2015年6月26日。GTD数据每年更新一次。

9.16.5.1. 获取GTD数据

通过联系链接从(https://www.start.umd.edu))下载GTD。您必须填写一张Web表单。选择包含所有数据和文档的压缩文件。然后 unzip 这在一个方便的目录中。这将产生许多Excel(.xlsx)电子表格和PDF文档。

9.16.5.2. R脚本

R脚本从Excel电子表格中提取GTD数据,以选择大约150个可用字段。R脚本需要两个参数。第一个是工作目录,CSV文件将在其中输出。第二个是GTD电子表格的路径,相对于工作目录。

R脚本将主电子表格中的数据提取到 data.frame 。然后,该脚本会将列的子集导出到文件 gtd-include.csv 。为方便起见,该文件中的列名被打印到 gtd-column-names.csv 。请注意,有大约160个可用属性。

然后,该脚本处理一些数据清理, could 由GeoMesa摄取处理:删除日期和坐标无效或丢失的条目。R脚本写下以下内容 data.frame 转换为CSV文件 gtd-clean.csv 。此步骤会导致从数据集中删除约18%的数据。

9.16.5.3. 接收命令

检查是否有 gtd 在GeoMesa工具类路径中提供了简单要素类型。这是默认情况。

$ geomesa-accumulo env | grep gtd

如果不是,则合并 reference.conf 使用 $GEOMESA_ACCUMULO_HOME/conf/application.conf ,或确保 reference.conf vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/gtd

进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i-z 选择。看见 geomesa-accumulo help ingest 了解更多详细信息。

$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s gtd -C gtd gtd-clean.csv