9.16.2. 全球事件、语言和语调数据库(GDELT)

此目录提供 GDELT GeoMesa摄取命令和转换器配置文件。

GDELT事件数据库定期扫描新闻文章,并使用自然语言处理来识别“每时每刻推动我们的全球社会的人、地点、组织、计数、主题、来源、情感、语录和事件”。

GDELT数据每天早上6点更新

9.16.2.1. 获取GDELT数据

GDELT有两种不同的格式,原始的1.0格式和新的2.0格式。看见 the GDELT documentation, 以获取更多信息。GeoMesa为两者提供了简单的要素类型和转换器,名为 gdeltgdelt2 ,分别为。

GDELT数据集可以使用提供的 download-data.sh 在中编写脚本 $GEOMESA_ACCUMULO_HOME/bin/ 就其本身而言

./download-data.sh gdelt

或者,从以下位置下载GDELT the GDELT events page, 选择所需日期的压缩文件,然后 unzip 这在一个方便的目录中。这将产生单个CSV文件。

请注意,这些文件实际上是制表符分隔的,但出于兼容性目的,使用了CSV扩展名。出于这个原因,在像Excel这样的软件中修改和保存这些文件时要小心,因为可能会自动插入逗号,这会由于像“巴尔的摩,马里兰州”这样的记录而中断摄取功能。

有关GDELT数据功能的详细信息,请参阅其文档 here.

9.16.2.2. 接收命令

检查是否有 gdeltgdelt2 在GeoMesa工具类路径中提供了简单的要素类型。这是默认情况。

$ geomesa-accumulo env | grep gdelt

如果不是,则合并 reference.conf$GEOMESA_ACCUMULO_HOME/conf/application.conf ,或确保 reference.conf vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/gdelt

进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i-z 选择。看见 geomesa-accumulo help ingest 了解更多详细信息。

$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s gdelt -C gdelt gdelt_data.csv

接收过程中的任何错误都将记录到 $GEOMESA_ACCUMULO_HOME/logs