规则表 — 规则表包含一组将地址输入序列令牌映射到标准化输出序列的规则。规则定义为一组输入令牌,后跟-1(终止符),后跟一组输出令牌,后跟-1,后跟表示规则类型的数字,然后是规则排名。
规则表必须至少包含以下列,但允许您添加更多列以供自己使用。
表的主键
表示规则的文本字段。详细信息请访问 PAGC地址标准器规则记录 。
规则由一组表示输入令牌的非负整数组成,以-1结尾,后跟相同数量的表示邮政属性的非负整数,以-1结尾,然后是表示规则类型的整数,最后是表示规则等级的整数。规则的排名从0(最低)到17(最高)。
举个例子,规则是 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
映射到输出令牌序列 类型编号类型直接限定 到输出序列 Street Street SuFTYP SuFDIR资格 。该规则是一个排名为6的ARC_C规则。
中列出了相应输出令牌的编号 标准地址 。
每条规则都以一组输入令牌开始,后跟一个终止符 -1
。摘录自的有效输入令牌 PAGC输入令牌 具体如下:
基于表单的输入令牌
(13)。与符号( & )经常用来缩写单词“and”。
(9)。标点符号。
(21)。两个字母的序列。通常用作标识符。
(25)。分数有时用在公民编号或单位编号中。
(23)。同时包含字母和数字的字母数字字符串。用于标识符。
(0)。一串数字。
(15)。诸如First或First等表示法。常用于街道名称中。
(18)。一封信。
(1)。单词是一串任意长度的字母。一个字母既可以是一个单词,也可以是一个单词。
基于函数的输入令牌
(14)。用来表示邮局信箱的词。例如 盒 或 邮政信箱 。
(19)。前缀用来表示建筑物或建筑群的词,通常作为前缀例如: 塔楼 在……里面 7A塔 。
(24)。用于表示建筑物或建筑群的单词和缩略语,通常作为后缀。例如: 购物中心 。
(22)。用来表示方向的词,例如 北 。
(20)。用于表示里程碑式地址的单词。
(6)。用来表示公路和公路的词语和缩略语。例如: 州际公路 在……里面 5号州际公路
(8)。用于表示乡村路线的单词和缩略语。 RR 。
(2)。用来表示街头风格的词语和缩略语。例如: ST 或 AVE 。
(16)。用于表示内部子地址的单词和缩写。例如, APT 或 UNIT 。
邮政类型输入令牌
(28)。一个5位数的数字。标识邮政编码
(二十九)。一个四位数的数字。标识ZIP4。
(27)。字母数字字母的3个字符序列。标识FSA,即加拿大邮政编码的前3个字符。
(26)。由3个字符组成的数字字母数字序列。标识LDU,即加拿大邮政编码的最后3个字符。
停顿字
STOPWORDS与单词相结合。在规则中,由多个单词和STOPWORD组成的字符串将由单个单词令牌表示。
(7)。词法意义较低的词,在分析时可以省略。例如: THE 。
在第一个-1(终止符)之后,跟随输出内标识及其顺序,后跟终止符 -1
。中列出了相应输出令牌的编号 标准地址 。允许什么取决于一种规则。中列出了对每种规则类型有效的输出令牌 the section called “规则类型和等级” 。
规则的最后部分是规则类型,它由以下内容之一表示,后跟规则等级。规则的排名从0(最低)到17(最高)。
MACRO_C
(令牌号=“ 0 “)。用于分析宏子句的规则类,如 地点州邮政编码
宏_C输出令牌 (节选自 Http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 。
(令牌号“10”)。示例“奥尔巴尼”
(令牌号“11”)。示例“NY”
(代币号码“12”)。大多数引用文件中不使用该属性。示例“USA”
(代币编号“13”)。(SADS要素“邮政编码”、“加4”)。此属性用于美国邮政编码和加拿大邮政编码。
MICRO_C
(令牌号=“ 1 “)。用于解析完整微子句的规则类(如House、Street、sufdir、predir、preyp、suftype、qualif)(即ARC_C+Citic_C)。这些规则不在构建阶段使用。
Micro_C输出令牌 (节选自 Http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 。
是文本(令牌号 1
这是街道上的街道号码。示例 75 在……里面 75 State Street
。
为文本(令牌号 2
):街道名称前方向,如北、南、东、西等。
为文本(令牌号 3
):街道名称前修饰符示例 OLD 在……里面 3715 OLD HIGHWAY 99
。
为文本(令牌号 4
):街道前缀类型
为文本(令牌号 5
):街道名称
为文本(令牌号 6
):街柱类型,如ST、Ave、Cir。跟在根街道名称后面的街道类型。示例 STREET 在……里面 75 State Street
。
为文本(令牌号 7
:Street Post-Directed街道名称后面的方向修饰符。示例 WEST 在……里面 3715 TENTH AVENUE WEST
。
ARC_C
(令牌号=“ 2 “)。用于分析微子句的规则类,不包括House属性。因此,使用与MICRO_C减去House标记相同的一组输出标记。
CIVIC_C
(令牌号=“ 3 “)。用于解析House属性的规则类。
EXTRA_C
(令牌号=“ 4 “)。用于解析额外属性的规则类-从地理编码中排除的属性。这些规则不在构建阶段使用。
Extra_C输出令牌 (节选自 Http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 。
(令牌号 0
):未解析的建筑物标识符和类型。
(令牌号 14
): BOX 在……里面 BOX 3B
(令牌号 15
): 3B 在……里面 BOX 3B
(令牌号 8
): RR 在……里面 RR 7
(令牌号 16
): APT 在……里面 APT 3B
(令牌号 17
): 3B 在……里面 APT 3B
(令牌号 9
):其他方面的非机密产出。