9.16.5. 全球恐怖主义数据库(GTD)¶
此目录提供 GTD GeoMesa摄取命令、转换器配置文件和一个R脚本,以便从分发数据的电子表格中准备数据。
此工作基于2015年12月17日完成的GTD拉动。GTD数据发布日期为2015年6月26日。GTD数据每年更新一次。
9.16.5.1. 获取GTD数据¶
通过联系链接从(https://www.start.umd.edu))下载GTD。您必须填写一张Web表单。选择包含所有数据和文档的压缩文件。然后 unzip
这在一个方便的目录中。这将产生许多Excel(.xlsx)电子表格和PDF文档。
9.16.5.2. R脚本¶
R脚本从Excel电子表格中提取GTD数据,以选择大约150个可用字段。R脚本需要两个参数。第一个是工作目录,CSV文件将在其中输出。第二个是GTD电子表格的路径,相对于工作目录。
R脚本将主电子表格中的数据提取到 data.frame
。然后,该脚本会将列的子集导出到文件 gtd-include.csv
。为方便起见,该文件中的列名被打印到 gtd-column-names.csv
。请注意,有大约160个可用属性。
然后,该脚本处理一些数据清理, could 由GeoMesa摄取处理:删除日期和坐标无效或丢失的条目。R脚本写下以下内容 data.frame
转换为CSV文件 gtd-clean.csv
。此步骤会导致从数据集中删除约18%的数据。
9.16.5.3. 接收命令¶
检查是否有 gtd
在GeoMesa工具类路径中提供了简单要素类型。这是默认情况。
$ geomesa-accumulo env | grep gtd
如果不是,则合并 reference.conf
使用 $GEOMESA_ACCUMULO_HOME/conf/application.conf
,或确保 reference.conf
vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/gtd
。
进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i
和 -z
选择。看见 geomesa-accumulo help ingest
了解更多详细信息。
$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s gtd -C gtd gtd-clean.csv