9.16.2. 全球事件、语言和语调数据库(GDELT)¶
此目录提供 GDELT GeoMesa摄取命令和转换器配置文件。
GDELT事件数据库定期扫描新闻文章,并使用自然语言处理来识别“每时每刻推动我们的全球社会的人、地点、组织、计数、主题、来源、情感、语录和事件”。
GDELT数据每天早上6点更新
9.16.2.1. 获取GDELT数据¶
GDELT有两种不同的格式,原始的1.0格式和新的2.0格式。看见 the GDELT documentation, 以获取更多信息。GeoMesa为两者提供了简单的要素类型和转换器,名为 gdelt
和 gdelt2
,分别为。
GDELT数据集可以使用提供的 download-data.sh
在中编写脚本 $GEOMESA_ACCUMULO_HOME/bin/
就其本身而言
./download-data.sh gdelt
或者,从以下位置下载GDELT the GDELT events page, 选择所需日期的压缩文件,然后 unzip
这在一个方便的目录中。这将产生单个CSV文件。
请注意,这些文件实际上是制表符分隔的,但出于兼容性目的,使用了CSV扩展名。出于这个原因,在像Excel这样的软件中修改和保存这些文件时要小心,因为可能会自动插入逗号,这会由于像“巴尔的摩,马里兰州”这样的记录而中断摄取功能。
有关GDELT数据功能的详细信息,请参阅其文档 here.
9.16.2.2. 接收命令¶
检查是否有 gdelt
和 gdelt2
在GeoMesa工具类路径中提供了简单的要素类型。这是默认情况。
$ geomesa-accumulo env | grep gdelt
如果不是,则合并 reference.conf
至 $GEOMESA_ACCUMULO_HOME/conf/application.conf
,或确保 reference.conf
vt.在.中 $GEOMESA_ACCUMULO_HOME/conf/sfts/gdelt
。
进行摄取。您可以选择使用以下命令指向不同的Acumulo实例 -i
和 -z
选择。看见 geomesa-accumulo help ingest
了解更多详细信息。
$ geomesa-accumulo ingest -u USERNAME -c CATALOGNAME -s gdelt -C gdelt gdelt_data.csv
接收过程中的任何错误都将记录到 $GEOMESA_ACCUMULO_HOME/logs
。