support.charset
模块¶
此模块包含用于处理sphinx charset表文件的工具。这些文件对于折叠大小写和重音非常有用。见 whoosh.analysis.CharsetTokenizer
和 whoosh.analysis.CharsetFilter
.
-
whoosh.support.charset.
default_charset
¶ 一个广泛的案例和强调折叠字符集表。摘自http://speeple.com/unicode-maps.txt
-
whoosh.support.charset.
charset_table_to_dict
(tablestring)¶ 获取包含sphinx charset表文件内容的字符串,并返回unicode.translate()方法所需类型的映射对象(实际上是defaultdict):也就是说,如果字符不是有效的字字符,它将字符编号映射到unicode字符,或者不映射。
sphinx charset table格式在http://www.sphinxsearch.com/docs/current.html_conf charset table中描述。