`
jacky2007
  • 浏览: 167405 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Solr 及lucene 的query 使用方法初级解说

    博客分类:
  • JAVA
阅读更多

以下文章转自http://my.opera.com/jinglepot/blog/solr-lucene-query

 

solr, Lucene Query 使用方法:
- 检索/查询
因为solr 是用lucene 的引擎,所以它们的query 用法原则上是一样的.

1. 首先假设我的资料里fields有:name, subbranch, tel, address 预设的搜寻是name这个栏位, 如果要搜寻的资料刚好就是name 这个栏位,就不需要指定搜寻栏位名称.

2. 查询规则:
如欲查询特定栏位(非预设栏位),请在查询词前加上该 栏位名称加":" (不包含"号) 符号,
例如: address:台北台北市中正区重庆南路一段xxx号tel:23xxxxx1

1. q代表query input
2. version代表solr版本(建议不要变动此变数)
3. start代表显示结果从哪一笔结果资料开始,预设为0代表第一笔, rows是说要显示几笔资料,预设为10笔
(因为有时查询结果可能有几百笔,但不需要显示所有结 果,所以预设是从第一笔开始到第十笔)
所以若要显示第10到30笔就改为:

http://localhost:8080/solr/select/?indent=on& version=2.2&q=address:台北台北市中正区重庆南路一段xxx号tel:23xxxxx1& version=2.2&start=10&rows=20&indent=on
4. indent代表输出的xml要不要缩行.预设为开启on

5. 另外,要限定输出结果的内容可用"fl=" 加上你要的栏位名称,如以下这个范例:
http://localhost:8080/solr/select/?indent=on& version=2.2&q=text:总统府OR text:邮局&start=0&rows=10& fl=name,subbranch,tel
在fl=之后加上了 name,subbranch,tel
所以结果会如下:
<result name="response" numFound="1340" start="0">
<doc>
<str name="name">总统府邮局</str>
<str name="subbranch">台北15支</str>
<str name="tel">23xxxxxx9</str>
</doc>

<doc>
<str name="name">总统府</str>
<str name="subbranch"/>
<str name="tel">23xxxxxx1</str>
</doc>
</result>

3. 查询name 或subbranch:直接输入查询词, 如: 7-eleven 忠孝店
送出的内容即为:
name:7-eleven AND subbrahch:忠孝店


4. 若要搜寻联集结果,请在词与词间空格或加上大写"OR" (不包含"号).
例 如: text:总统府 OR text:邮局
text:总统府 OR 邮局

总统府 邮局

name:总统府 OR tel:23xxxxxx3

name:总统府 tel:23xxxxxx3

5. 若要搜寻交集结果,请在词与词间加上大写"AND" 或" " (不包含"号).
例如: text:总统府 AND text:邮局

 
text:总统府 text:邮局

name:总统府 AND tel:23xxxxxx3

name: ( 总统府 邮局)

6. 排除查询
在要排除的词前加上"-" (不包含"号) 号
例如: 总统府 -邮局
搜寻结果不会有包含邮局的词的结果在内

7. Group 搜寻
使用 "()" 来包含一个group
如希望搜寻在店名栏位内同时有"台北" (不包含"号) 及"火车站"(不包含"号)

8. 增加权重: 如要搜寻"中华加油站"(不包含"号) 但因为回传太多笔资料内有"中华"(不包含"号) 或"加油站"(不包含"号) 的 结果,
所以想要把有包含"加油站"(不包含"号)的资料往前排,可使用"^" (不包含"号)符号在后面加上愈增加的权重数,
像是 "2",则可以这样做:

中华 加油站^2

会同时搜寻含有中华或加油站的结果,并把加油站这个 词加权所以搜寻时会先判断加油站这一个词在
搜寻结果中的比重,甚至假设一笔资料内加油站出现过两次以上的就更加会有优先权.

查询时在查询词后加上"^" (不包含"号) 再加上权重分数
例如: 总统府 AND "邮局"^2

总统府^2 OR 邮局

9. Wildcard 搜寻使用"*" 符号; 如果输入"中国*银" (不包含"号), 结果会有中国信托商业银行, 中国输出入银行图书阅览室, 中国商银证券
中国及 银之间可夹任何长短字词.

10. 当然还有一些更深入的用法,这里只是初级的解说,若有兴趣可以看看lucene 或solr的document.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics