术语表

分析

把一个字段的文本分割成单个字段的过程。 terms 索引。这包括将文本标记为术语,然后可选地筛选标记化的术语(例如,低换行和删除 停用词) . whoosh包括几个不同的分析仪。

语料库

正在索引的文档集。

文件

要使其可搜索的个别内容。“文档”一词可能意味着文件,但数据源实际上可以是任何东西——内容管理系统中的文章、博客系统中的博客文章、非常大的文件块、SQL查询返回的行、邮箱文件中的单个电子邮件或其他。当你从whoosh中得到搜索结果时,结果是一个文档列表,不管你的搜索引擎中“文档”是什么意思。

领域

每个文档包含一组字段。典型的字段可能是“标题”、“内容”、“URL”、“关键字”、“状态”、“日期”等。可以对字段进行索引(以便进行搜索)和/或与文档一起存储。存储字段使其在搜索结果中可用。例如,您通常希望存储“标题”字段,以便搜索结果显示该字段。

远期指数

列出每个文档和文档中出现的单词的表。Whoosh让你储存 term vectors 这是一种远期指数。

索引

检查语料库中的文档并将其添加到 反向索引.

帖子

这个 reverse index 列出语料库中的每个单词,以及每个单词出现的文档列表,以及一些可选信息(例如单词出现在文档中的次数)。列表中包含文档编号和任何其他信息的这些项称为 帖子. 在whoosh中,存储在过账中的信息是为每个人定制的。 领域.

反向索引

基本上是一个表,列出语料库中的每个词,以及每个词出现的文档列表。它可能更复杂(索引还可以列出单词在每个文档中出现的次数、出现的位置等),但基本上就是这样工作的。

图式

whoosh要求您指定 fields 在开始索引之前。模式将字段名与有关该字段的元数据相关联,例如 postings 以及字段内容是否存储在索引中。

项向量

A forward index 对于某个文档中的某个字段。您可以在模式中指定给定字段应存储术语向量。