support.charset 模块

此模块包含用于处理sphinx charset表文件的工具。这些文件对于折叠大小写和重音非常有用。见 whoosh.analysis.CharsetTokenizerwhoosh.analysis.CharsetFilter .

whoosh.support.charset.default_charset

一个广泛的案例和强调折叠字符集表。摘自http://speeple.com/unicode-maps.txt

whoosh.support.charset.charset_table_to_dict(tablestring)

获取包含sphinx charset表文件内容的字符串,并返回unicode.translate()方法所需类型的映射对象(实际上是defaultdict):也就是说,如果字符不是有效的字字符,它将字符编号映射到unicode字符,或者不映射。

sphinx charset table格式在http://www.sphinxsearch.com/docs/current.html_conf charset table中描述。