Fork me on GitHub
ShenWenFang


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

lucene搜索之拼写检查和相似度查询提示(spellcheck)

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 1,533 字 | 阅读时长 ≈ 8 分钟

lucene(9)—lucene搜索之拼写检查和相似度查询提示(spellcheck)

suggest应用场景

用户的输入行为是不确定的,而我们在写程序的时候总是想让用户按照指定的内容或指定格式的内容进行搜索,这里就要进行人工干预用户输入的搜索条件了;我们在用百度谷歌等搜索引擎的时候经常会看到按键放下的时候直接会提示用户是否想搜索某些相关的内容,恰好lucene在开发的时候想到了这一点,lucene提供的suggest包正是用来解决上述问题的。

阅读全文 »

lucene搜索之IndexSearcher构建过程

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 1,508 字 | 阅读时长 ≈ 8 分钟

lucene(7)—lucene搜索之IndexSearcher构建过程

IndexSearcher

搜索引擎的构建分为索引内容和查询索引两个大方面,这里要介绍的是lucene索引查询器即IndexSearcher的构建过程;

阅读全文 »

lucene索引优化之多线程创建索引

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 1,745 字 | 阅读时长 ≈ 9 分钟

lucene(6)—lucene索引优化之多线程创建索引

前面了解到lucene在索引创建的时候一个IndexWriter获取到一个读写锁,这样势在lucene创建大数据量的索引的时候,执行效率低下的问题;

阅读全文 »

lucene的索引构建原理

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 726 字 | 阅读时长 ≈ 3 分钟

lucene(5)—lucene的索引构建原理

lucene创建索引的原理

IndexWriter的addDocument方法详解

今天看了IndexWriter类的addDocument方法,IndexWriter对此方法的说明如下:

阅读全文 »

lucene的analysis相关和自定义分词器

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 1,075 字 | 阅读时长 ≈ 5 分钟

lucene(3)—lucene的analysis相关和自定义分词器

analysis说明

lucene ananlysis应用场景

lucene提供了analysis用来将文本转换到索引文件或提供给IndexSearcher查询索引;

对于lucene而言,不管是索引还是检索,都是针对于纯文本输入来讲的;

通过lucene的强大类库我们可以访问各种格式的文档,如HTML、XML、PDF、Word、TXT等,

我们需要传递给lucene的只是文件中的纯文本内容;

阅读全文 »

lucene的中文分词器jcseg和IKAnalyzer分词器及其使用说明

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 1,025 字 | 阅读时长 ≈ 4 分钟

lucene(4)—lucene的中文分词器jcseg和IK Analyzer分词器及其使用说明

为什么要使用lucene中文分词器

在lucene的开发过程中,我们常会遇到分词时中文识别的问题,lucene提供了

lucene-analyzers-common-5.0.0.jar包来支持分词,但多的是对英国,法国,意大利等过语言的支持,

因此我们需要引入中文分词的概念。

阅读全文 »

lucene的各种Field及其排序

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 2,571 字 | 阅读时长 ≈ 14 分钟

lucene(2)—lucene的各种Field及其排序

Lucene的Field说明

Lucene存储对象是以document为存储单元,对象中相关的属性值则存放到Field中;

lucene中所有Field都是IndexableField接口的实现

阅读全文 »

lucene的多样化查询

发表于 2019-03-16 | 分类于 lucene | 阅读次数:
字数统计: 621 字 | 阅读时长 ≈ 2 分钟

lucene(21)—lucene的多样化查询

查询类 说明
TermQuery 通过项进行搜索
TermRangeQuery 在指定的项范围内进行搜索
PrefixQuery 通过字符串搜索
BooleanQuery 组合查询
PhraseQuery 通过短语搜索
WildcardQuery 通配符查询
FuzzyQuery 搜索类似项
MatchAllDocsQuery 匹配所有文档
MatchNoDocsQuery 不用匹配文档
QueryParser 解析查询表达式
MultiPhraseQuery 多短语查询
NumericRangeQuery 数字范围查询,一般在价格、时间域的查询
阅读全文 »
1…456…12
ShenWenFang

ShenWenFang

每一个你不满意的现在,都有一个你没有努力的曾经。

96 日志
36 分类
23 标签
RSS
© 2017 — 2020 ShenWenFang