`
jl19861101
  • 浏览: 29860 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Lucene各种搜索例子

阅读更多

搜索流程中的第二步就是构建一个Query。下面就来介绍Query及其构建。

当用户输入一个关键字,搜索引擎接收到后,并不是立刻就将它放入后台开始进行关键字的检索,而应当首先对这个关键字进行一定的分析和处理,使之成为一种后台可以理解的形式,只有这样,才能提高检索的效率,同时检索出更加有效的结果。那么,在Lucene中,这种处理,其实就是构建一个Query对象。

Query对象本身言,它只是Lucenesearch包中的一个抽象类,这个抽象类有许多子类,代表了不同类型的检索。如常见的TermQuery就是将一个简单的关键字进行封装后的对象,类似的还有BooleanQuery,即布尔型的查找。

IndexSearcher对象的search方法中总是需要一个Query对象(或是Query子类的对象),本节就来介绍各种Query类。

11.4.1 按词条搜索—TermQuery

TermQuery是最简单、也是最常用的QueryTermQuery可以理解成为“词条搜索”,在搜索引擎中最基本的搜索就是在索引中搜索某一词条,而TermQuery就是用来完成这项工作的。

Lucene中词条是最基本的搜索单位,从本质上来讲一个词条其实就是一个名/值对。只不过这个“名”是字段名,而“值”则表示字段中所包含的某个关键字。

要使用TermQuery进行搜索首先需要构造一个Term对象,示例代码如下:

Term aTerm = new Term("contents", "java")

然后使用aTerm对象为参数来构造一个TermQuery对象,代码设置如下:

Query query = new TermQuery(aTerm)

这样所有在“contents”字段中包含有“java”的文档都会在使用TermQuery进行查询时作为符合查询条件的结果返回。

下面就通过代码11.4来介绍TermQuery的具体实现过程。

代码11.4 TermQueryTest.java

11-9 BooleanQuery测试1 11-10 BooleanQuery测试2

由于布尔型的查询是可以嵌套的,因此可以表示多种条件下的组合。不过,如果子句的数目太多,可能会导致查找效率的降低。因此,Lucene给出了一个默认的限制,就是布尔型Query的子句数目不能超过1024

11.4.3 在某一范围内搜索—RangeQuery

有时用户会需要一种在一个范围内查找某个文档,比如查找某一时间段内的所有文档,此时,Lucene提供了一种名为RangeQuery的类来满足这种需求。

RangeQuery表示在某范围内的搜索条件,实现从一个开始词条到一个结束词条的搜索功能,在查询时“开始词条”和“结束词条”可以被包含在内也可以不被包含在内。它的具体用法如下:

RangeQuery query = new RangeQuery(begin, end, included);

在参数列表中,最后一个boolean值表示是否包含边界条件本身,即当其为TRUE时,表示包含边界值,用字符可以表示为“[begin TO end]”;当其为FALSE时,表示不包含边界值,用字符可以表示为“{begin TO end}”。

下面通过代码11.6介绍RangeQuery使用的方法。

代码11.6 RangeQueryTest.java

在上述代码中首先构造了两个Term词条,然后构造了一个RangeQuery对象。在初始化RangeQuery对象的时候,使用构造的两个Term词条作为RangeQuery构造函数的参数。前面已经说过,RangeQuery的构造函数中的两个参数分别称为“开始词条”和“结束词条”,它的含义也就是查找介于这两者之间的所有Document

构建的Document的“time”字段值均介于200001200005之间,其检索结果如图11-11所示。

11-11 RangeQuery测试结果

从图11-11中可以看出,在代码11.6中使用RangeQuery共进行了两次检索,第一次的检索条件中不包括边界值,第二次的检索条件中包括边界值。

从代码11.6和图11-11中可以看出,第1次使用FALSE参数构造的RangeQuery对象不包括2个边界值,因此只返回3Document,而第2次使用TRUE参数构造的RangeQuery则包括2个边界值,因此将5Document全部返回了。

11.4.4 使用前缀搜索—PrefixQuery

PrefixQuery就是使用前缀来进行查找的。通常情况下,首先定义一个词条Term。该词条包含要查找的字段名以及关键字的前缀,然后通过该词条构造一个PrefixQuery对象,就可以进行前缀查找了。

下面以代码11.7为例来介绍使用PrefixQuery进行检索的运行过程。

代码11.7 PrefixQueryTest.java

在上述代码中,首先构造了4个不同的Document。每个Document都有一个名为“name”的字段,其中存储了人物的名称。然后,代码构建了3个不同的词条,分别为“Da”、“da”和“sm”,可以看到,它们正好都是“name”字段中关键字的前缀。

从图11-12中可以看出,使用PrefixQuery共进行了3次检索,关键字分别为“Da”、“da”和“sm”,返回的检索结果情况在图中已经有明确的说明。不过,如果使用“Da”作为关键字会没有任何的检索结果,而使用“da”就有检索结果,这个问题将在后面作详细介绍。

从代码11.7和图11-12中可以看出,“da”前缀和“sm”前缀都顺利地找到了它们所在的文档,可是为什么与文档中关键字大小写一致的“Da”却没有找到呢?这是因为Lucene的标准分析器在进行分词过滤时将所有的关键字一律转成了小写,所以才会出现这样的结果。这也是开发者应当引起注意的地方。

11.4.5 多关键字的搜索—PhraseQuery

除了普通的TermQuery外,Lucene还提供了一种Phrase查 询的功能。用户在搜索引擎中进行搜索时,常常查找的并非是一个简单的单词,很有可能是几个不同的关键字。这些关键字之间要么是紧密相联,成为一个精确的短语,要么是可能在这几个关键字之间还插有其他无关的关键字。此时,用户希望将它们找出来。不过很显然,从评分的角度看,这些关键字之间拥有与查找内容无关 短语所在的文档的分值一般会较低一些。

PhraseQuery正是Lucene所提供的满足上述需求的一种Query对象。它的add方法可以让用户往其内部添加关键字,在添加完毕后,用户还可以通过setSlop()方法来设定一个称之为“坡度”的变量来确定关键字之间是否允许、允许多少个无关词汇的存在。

下面以代码11.8为例对PhraseQuery进行介绍。

代码11.8 PhraseQueryTest.java

在上述代码中创建了一个Document,这个Document的“content”域中含有4个关键字。接下来,代码创建了一个PhraseQuery对象,首先将前两个紧紧相连关键字放入其中,并设置它们的坡度值分别为02,接下来,又将第一个和最后一个关键字放入其中,同样设置它们的坡度值为02

代码11.8的运行效果,如图11-13所示。

从图11.8中可以看出,代码11.8共进行了4次检索测试,并且分两组分别对检索结果进行对比。

从代码11.8和图11-13中可以看出,对两个紧连的关键字来说无论将坡度设置为多少,Lucene总能找到它所在的文档,而对两个不紧连的关键字,如果坡度值小于它们之间无关词的数量,那么则无法找到。其实,当两个关键字之间的无关词数小于等于坡度值时,总是可以被找到。

11.4.6 使用短语缀搜索—PhrasePrefixQuery

PhrasePrefixQueryPhrase有些类似。在PhraseQuery中,如果用户想查找短语“david robert”,又想查找短语“mary robert”。那么,他就只能构建两个PhraseQuery,然后再使用BooleanQuery将它们作为其中的子句,并使用“或”操作符来连接,这样就能达到需要的效果。PhrasePrefixQuery可以让用户很方便地实现这种需要。

接下来看看在代码11.9中是如何使用PhrasePrefixQuery来实现的。

代码11.9 PhrasePrefixQueryTest.java

在上述代码中,首先构建了一个Document,它的“content”字段中包含4个关键字。接下来,构建了一个PhrasePrefixQuery的对象,调用它的add(Term [])方法设定出现在短语中的第一个关键词。由于这个方法的参数类型为一个Term型的数组,所以,它可以设置多个Term,即出现在短语中的第一个词就在这个数组中进行选择。然后,再使用add(Term)方法设置出现在短语中的后一个词。代码的运行结果如图11-14所示。

11-14 PhrasePrefixQuery的测试结果

从图11-14中可以看出,使用PhrasePrefixQuery可以非常容易的实现相关短语的检索功能。

11.4.7 相近词语的搜索—FuzzyQuery

FuzzyQuery是一种模糊查询,它可以简单地识别两个相近的词语。下面以11.10为例进行详细介绍。

代码11.10 FuzzyQueryTest.java

在上述代码中,首先构建了3Document,这3Document的“content”字段中都有一个与“david”较为相似的关键字(其中第一个就是david)。然后使用FuzzyQuery来对其进行检索。运行效果如图11-15所示。

从图11-15中可以看出,使用FuzzyQuery可以检索到索引中所有包含与“david”相近词语的文档。

11.4.8 使用通配符搜索—WildcardQuery

Lucene也提供了通配符的查询,这就是WildcardQuery。下面以代码11.11为例进行介绍。

代码11.11 WildcardQueryTest.java

代码的运行结果如图11-12所示。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics