管理同义词库

介绍

同义词库是一个专业知识领域的概念列表。在元数据目录中,可以将同义词库中的概念指定给元数据记录(作为关键字),以将其与知识领域中的一个或多个概念关联起来。例如,可以为一个记录分配关键字“农业-作物”,这意味着该记录描述了农业领域中与作物有关的资源或活动。在创建自己的同义词库之前,最好先查找现有的同义词库。

在GeoNetwork中,为元数据记录分配关键字的过程在元数据编辑器中进行。用户可以从一个或多个主题词表中选择概念,将记录与这些概念描述的概念相关联。使用同义词表选择器,ISO19115/19139和都柏林核心元数据记录都支持此过程。

一个知识领域内或不同知识领域内的概念可能是相关的,甚至是等价的。例如,在描述地理区域的同义词表中,澳大利亚的“塔斯马尼亚州”是澳大利亚的一个特化州。作为不同领域概念重叠的一个例子,描述全球变化领域科学活动的同义词表可能包含与农业活动相关的概念,这些概念将等同于描述地图系列中使用主题的同义词表中的术语。

在GeoNetwork中,主题词表表示为SKOS(http://www.w3.org/TR/skos-reference)并存储在application/xml+rdf编码中。SKOS捕获概念和概念之间的关系。SKOS同义词表可以从独立文件导入,也可以从地理网络目录中的ISO19135注册记录生成。ISO19135(更多内容见下文)不仅捕捉了概念之间的概念和关系,而且(除其他外)概念是如何演变的,最重要的是,谁对概念和同义词表本身的演变作出了贡献和管理。

外部、本地和注册词表

在地理网络中有三种类型的叙词表。不同的类型取决于同义词表的来源:

  • 外部的 :由外部组织管理并作为SKOS文件导入的叙词表。它被标记为 external 这意味着不允许用户编辑同义词表。

  • 局部的 :在GeoNetwork同义词表编辑器中构建并存储为SKOS文件的同义词表。它被标记为 local 这意味着用户可以编辑同义词表。

  • 寄存器 :根据ISO19135注册记录创建的SKOS同义词表。用户可以通过在geonnetwork元数据编辑器中更改ISO19135注册记录的内容,然后重新生成叙词表来编辑叙词表。用户无法在同义词库管理器中编辑同义词库。

ISO19115/19139叙词表分类

GeoNetwork中的所有同义词库都使用gmd:MD_关键字类型代码来自ISO19115/19139的元素。类别及其含义如下所示,也可在中找到http://www.isotc211.org/2005/resources/gmxCodelist.xml:

ISO叙词表类别

描述

地方

同义词表有确定位置的概念

地层

叙词表有识别任何沉积物质层的概念

世俗的

同义词表有确定时间段的概念

主题

同义词表有确定特定主题或主题的概念

学科

同义词表有一些概念,它们确定了教学或专业学习的一个分支

SKOS格式

简单知识组织系统(SKOS)http://www.w3.org/2004/02/skos/是一个工作领域,开发规范和标准,以支持知识组织系统(KOS)的使用,如同义词表、分类方案。GeoNetwork使用此格式存储同义词表信息。

概念由标识符、首选标签、定义和与其他概念的链接定义。标签和定义可以用多种语言存储(使用xml:lang属性). 以SKOS格式定义了概念之间的三种类型的链接:

  • 相关术语

  • 广义术语

  • 概念词

例如,一个概念 ABLETTE 可定义如下,带有法语和英语标签,与更广泛的概念相关:

<skos:Concept rdf:about="http://www.oieau.org/concept#c4fc54576dc00227b82a709287ac3681">
    <skos:prefLabel xml:lang="fr">ABLETTE</skos:prefLabel>
    <skos:prefLabel xml:lang="en">BLEAK</skos:prefLabel>
    <skos:broader rdf:resource="http://www.oieau.org/concept#9f25ece36d04776e09492c66627cccb9"/>
</skos:Concept>

GeoNetwork支持多语言同义词表(例如Agrovoc)。搜索和编辑以当前用户界面语言进行(即,如果界面为英语,则编辑元数据时,GeoNetwork将只搜索英语概念)。

我们使用SKOS在GeoNetwork中表示同义词表,因为:

  • 它提供了一种从知识领域描述概念和概念之间关系的简单而简洁的方法

  • SKOS的概念可以通过geonnetwork使用的sesame/openRDF软件进行查询和管理

ISO19135寄存器格式

ISO19135是一个ISO标准,它描述了注册一个项目的过程,描述一个项目列表(或注册)的模式,以及创建和发展项目的过程。此架构可用作GeoNetwork中使用的插件。要使用它,您必须下载iso19135插件模式并将其加载到geonnetwork中。FIXME:我们需要一种引用插件模式的标准方法,以及一个可以下载它们的标准位置。

典型的ISO19135寄存器记录描述:

  • 登记册的名称和说明

  • 版本和语言信息

  • 在登记册中有角色的人员的联系信息(如经理、撰稿人、保管人、出版商等)

  • 用来描述寄存器中某一项的元素

  • 项目

用于描述注册项的标准信息包括:

  • 标识符

  • 项目名称和说明

  • 应用领域

  • 沿袭和对相关注册项的引用

下面是来自NASA GCMD(全球变化主目录)科学关键字注册表的注册表项的示例。

<grg:RE_RegisterItem uuid="d1e7">
   <grg:itemIdentifier>
      <gco:Integer>7</gco:Integer>
   </grg:itemIdentifier>
   <grg:name>
      <gco:CharacterString>Aquaculture</gco:CharacterString>
   </grg:name>
   <grg:status>
      <grg:RE_ItemStatus>valid</grg:RE_ItemStatus>
   </grg:status>
   <grg:dateAccepted>
      <gco:Date>2006</gco:Date>
   </grg:dateAccepted>
   <grg:definition gco:nilReason="missing"/>
   <grg:itemClass xlink:href="#Item_Class"/>
   <grg:specificationLineage>
      <grg:RE_Reference>
         <grg:itemIdentifierAtSource>
            <gco:CharacterString>5</gco:CharacterString>
         </grg:itemIdentifierAtSource>
         <grg:similarity>
            <grg:RE_SimilarityToSource codeListValue="generalization"
               codeList="http://ww.../lists.xml#RE_SimilarityToSource"/>
         </grg:similarity>
      </grg:RE_Reference>
   </grg:specificationLineage>
</grg:RE_RegisterItem>

如前所述,为了使用由ISO19135注册记录描述的同义词表,geonnetwork使用一个称为xml_ISO19135的XSLTToSKOS.xsl(从iso19135插件模式中的convert子目录)从iso19135寄存器记录中提取以下内容:

  • 有效概念(grg:项目标识符, grg:名称, grg:状态)

  • 与其他概念的关系(grg:规格沿袭)

  • 标题、版本等管理信息

此信息用于生成SKOS文件。然后,geonnetwork中使用的sesame/openRDF软件可以查询和管理SKOS文件。

创建或导入同义词表

外部和本地叙词表是使用叙词表管理器创建或导入的。您可以通过以下方式使用同义词库管理器:

  • 以管理员身份登录

  • 导航到“管理”页并单击链接 Manage thesauri

同义词库管理器页面将显示已创建或导入的同义词库列表。页面的上部为用户提供编辑、添加、修改或搜索同义词表的功能。下半部分提供了以SKOS格式上传外部同义词表的功能。

创建本地主题词表

若要创建本地同义词库,请单击 + 在你想要的词库类别上签名。一旦创建了同义词表,就可以通过编辑界面进行更新。每一列的含义如下:

  • Type -这是分配给GeoNetwork中同义词表的标识符。它由已分配了同义词表的ISO类别组成(请参见gmd:MD_关键字类型代码元素http://www.isotc211.org/2005/resources/gmxCodelist.xml),无论叙词表是本地、外部还是注册叙词表,以及保存叙词表的SKOS文件的文件名。(注意:用于保存注册词典的文件名是描述该词典的ISO19135注册记录的uuid)。

  • Name -这是创建时管理员使用的叙词表的名称或文件名如果叙词表正在生成叙词表,则叙词表的名称将是叙词表的文件名。

对于每个同义词库,都提供以下按钮:

  • 下载 -链接到SKOS RDF文件。

  • 删除 -从当前节点中删除同义词库。

  • View -如果类型是外部的,则“查看”按钮允许搜索和查看概念。

  • Edit -如果type是local,那么edit按钮允许搜索、添加、删除和查看概念。

导入外部同义词库

GeoNetwork允许以SKOS格式导入同义词表。一旦上传,外部同义词库就无法更新。选择类别,浏览同义词库文件并单击“上载”。SKOS文件将在 GEONETWORK_DATA_DIR/config/codelist/external/thesauri/<category> .

页面底部有以下按钮:

  1. Back :返回主管理页。

  2. 上传 :将选定的RDF文件上载到节点。然后它将列出节点上可用的所有同义词表。

创建注册主题词库

本地地理网络目录中的ISO19135记录可以转换为SKOS文件,并用作地理网络中的同义词表。不在本地目录中的ISO19135记录可以从其他目录中获取(例如,管理注册的组织的目录)。一旦ISO19135注册记录在本地目录中,将其转换为用于关键字选择器的同义词表的过程就开始搜索该记录。在搜索结果中找到记录后,记录上的操作之一是“创建/更新同义词库”。

搜索结果显示使用同义词表创建操作的ISO19135记录

选择此操作后,可以选择适用于此同义词表的ISO同义词表类别:

创建叙词表时选择ISO叙词表类别

选择ISO同义词表类别后,ISO19135注册记录将转换为SKOS文件,并作为同义词表安装,以便在元数据编辑器中使用。如上所述,在ISO19135部分中,只有有效的注册项才包含在同义词表中。这种行为以及ISO19135注册项和SKOS同义词库文件之间的任何映射都可以通过查看XSLT xml_ISO19135进行更改或检查TOSKOS.xsl在iso19135模式插件的convert子目录中。

编辑/浏览本地或外部同义词库:添加/删除/浏览关键字

在同义词表管理界面中,单击本地同义词表的“编辑”按钮或外部同义词表的“查看”按钮。此接口允许:

  • 关键词搜索

  • 添加/删除本地同义词库的关键字。

使用文本框和搜索类型搜索关键字。

编辑注册词典

如上所述,从ISO19135元数据记录创建注册同义词表,因此通过编辑ISO19135元数据记录,然后重新生成注册同义词表来更新注册同义词表。ISO19135元数据记录可以在GeoNetwork编辑器中创建和编辑。

准备编辑ISO19135注册记录

寄存器记录可以非常大。例如,描述ANZLIC地理范围名称寄存器的寄存器记录有大约1800个寄存器项。每个注册项不仅包含地理范围的名称,还包含其地理范围和血统的详细信息、与其他术语的关系以及潜在的范围演变(名称更改、地理范围更改),包括更改的详细信息和发生这些更改的原因。在geonnetwork编辑器中编辑如此大的记录可能会导致浏览器和服务器的性能问题,因为编辑器会构造一个描述整个记录的HTML表单。幸运的是,存在一种更具伸缩性的方法,它基于从ISO19135寄存器记录中提取寄存器项,并将它们存储为子模板(本质上是包含寄存器项内容的小型元数据记录)。从ISO19135寄存器记录中提取寄存器项的过程如下:

  • 搜索并选择注册记录

  • 从“选定集上的操作”菜单中选择“提取注册表项”

  • 提取注册表项后,您应该看到如下的结果摘要。

  • “Subtemplates extracted”的数字是从ISO19135寄存器记录中提取的寄存器项数。

编辑注册表项

要编辑/更改作为子模板提取的任何注册表项,可以使用目录管理界面。可从“管理目录”下的“管理”菜单访问此接口。在此界面中:

  • 选择“注册项目(地理网络)”作为要编辑的子模板类型,如下所示。

  • 输入一个搜索项,或者选择搜索选项返回前50个注册项。

  • 注册表项将出现在左侧栏中,选择其中一项将打开右侧面板中的编辑界面。

编辑全局寄存器信息

要编辑/更改任何全局寄存器信息(例如寄存器所有者、管理器、版本、语言),请在正常的GeoNetwork元数据编辑界面中编辑寄存器记录。

元数据编辑:添加关键字

编辑ISO元数据记录时,可以使用关键字(或概念)选取器,它允许编辑器:

  • 在目录中的一个或多个同义词表中搜索关键字(搜索结果显示在左侧)。

  • 选择一个或多个关键字并将其添加到右侧的“选定项”列表(使用箭头或拖放)。

  • 将选定的关键字直接添加到元数据中,按叙词表对关键字进行分组。

编辑器还可以控制关键字选择器中显示的搜索关键字数量(默认值为50)。

注意,指向源同义词库的URL包含在同义词库名称引文中(用于此的实际元素是gmd:其他引文详情/gmx:文件名)。如果主题词表是本地或外部主题词表,则可以将其作为SKOS文件下载。对于register同义词表,URL指的是创建同义词表的ISO19135注册记录。

搜索条件:关键字

您可以在高级搜索界面中搜索关键字。若要帮助选择关键字,可以单击“关键字搜索”字段以显示此目录中元数据记录中已使用的所有关键字的列表。Lucene在创建/更新元数据时对这些关键字进行索引。列表中的每个关键字都有使用其旁边显示的关键字的记录数。

如果名为keyword select panel的XML元素作为 config-gui.xml 文件(在WEB-INF目录中),然后使用关键字选择面板搜索关键字,如元数据编辑器中所示:

<search>
 <!-- Display or not keyword selection panel in advanced search panel
  <keyword-selection-panel/>
 -->
</search>