基于solr全文检索实现原理(详谈) - IT知识教程 - 中企动力

登录注册

做网站
做推广
做电商

服务支持
应用与服务
关于中企

中企商学院

查看更多

核心必备

数字门户内贸营销版

全球营销版行业解决方案版

通用版企业域名

企业邮箱

行业应用

外贸客户洞察平台产品导入

数字名片

视觉设计

VR全景视频制作

图片拍摄

网络安全

等保认证 SSL证书

查看更多

核心必备

全球SEO 百度首屏展位

Yandex推广 Google海外推广

解决方案

外贸推广解决方案

查看更多

核心必备

全网商城移动商城

装修服务

电商产品拍摄

解决方案

零售行业OMO解决方案政府采购电商平台解决方案

查看更多

查看更多

查看更多

帮助中心

数字门户产品服务保障服务中心

设计师信息化讲堂

解决方案

外贸数字营销解决方案企业视频直播解决方案

企业安全等保解决方案品牌数字化营销解决方案

品牌零售数字商业解决方案智慧园区解决方案

B2B电商平台建设解决方案数字化政务门户解决方案

开拓型外贸企业解决方案成长型外贸企业解决方案

行业解决方案

实战应用

产品剖析律所行业专家

行业解读

学习中心

电商运营学院网站建设学院

查看更多

应用与服务

VR智能全景个性化场景定制服务

网站安全服务云定制

企业视频直播 Banner设计

产品主图设计图片处理

查看更多

企业概况

关于我们企业文化

发展历程数码庄园

法律隐私

资质荣誉

企业资质所获荣誉

新闻中心

新闻公告媒体报道

社会公益视频中心

行业资讯

联系我们

联系我们工作机会

查看更多

查看更多

网站建设 IT知识 IT知识教程基于solr全文检索实现原理(详谈)

基于solr全文检索实现原理(详谈)

2021-05-19 21:21:53

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML/Json格式的返回结果。采用Java5开发，基于Lucene。

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。

其中Lucene全文检索的基本原理，跟郭军大牛讲的web搜索课程里的技术一致，采用分词，语义语法分析，向量空间模型等技术来实现，下面转载一篇讲的比较细致的博文备忘：http://.cn/about.htm中文章《开放源代码的全文检索引擎Lucene》

1. 索引过程：

1) 有一系列被索引文件

2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。

3) 经过索引创建形成词典和反向索引表。

4) 通过索引存储将索引写入硬盘。

2. 搜索过程：

a) 用户输入查询语句。

b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。

c) 通过语法分析得到一个查询树。

d) 通过索引存储将索引读入到内存。

e) 利用查询树搜索索引，从而得到每个词(Term)的文档链表，对文档链表进行交，差，并得到结果文档。

f) 将搜索到的结果文档对查询的相关性进行排序。

g) 返回查询结果给用户。

2. 对字典按字母顺序进行排序。

Term

Document ID

allow

1

allow

1

allow

2

beer

1

drink

1

drink

2

find

2

friend

1

friend

2

go

1

go

2

his

2

jerry

2

my

2

school

2

see

2

student

1

student

2

their

1

them

2

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

在此表中，有几个定义：

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

相关文章

Spring-Boot 集成Solr客户端的详细步骤

Solr是基于Lucene的全文检索服务器，可配置、可扩展，并对索引和搜索性能进行了优化。Solr多用于电子商务网站、门户、论坛这类网站的站内搜索。Solr可以

CentOS安装solr 4.10.3详细教程

solr是什么？solr是apache下的一个顶级开源项目，采用java开发，它是基于lucene的全文搜索服务器。solr提供了比lucene更为丰富的查询语

dedecms 搜索时出现“SphinxClient类找不到”解决方法

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专

企业建网站基于Lucene实现网页的索引和搜索

基于Lucene实现网页的索引和搜索。Lucene是ApacheJakarta项目中的一个子项目。是一个由Java实现的,开源的全文检索引擎工具包。利用它提供的

Spring Boot集成Sorl搜索客户端的实现代码

ApacheSolr是一个搜索引擎。SpringBoot为solr客户端库及SpringDataSolr提供的基于solr客户端库的抽象提供了基本的配置。Spr

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）All Rights Reserved

京公网安备11030102010293号京ICP证010249-2

代理域名注册服务机构：中网瑞吉思（天津）科技有限公司北京新网数码信息技术有限公司

域名注册服务机构许可证编号：京D3-20220007

中企动力域名投诉处理：400-660-5555-9 service4006@300.cn

中国互联网络信息中心（受理范围：“.CN”和“.中国”域名）投诉处理 010-58813000 service@cnnic.cn

7 x 24

全国售后支持
100 倍

故障时长赔付
26 年

26年行业服务经验
70 家

全国售后支持
1600+ 名

超千人的设计、研发团队
150 万

服务企业客户150万家

Copyright © 1999-2026 中企动力科技股份有限公司（300.cn）版权所有京公网安备11030102010293号京ICP证010249-2

在线咨询

建站在线咨询

获取方案

获取建站报价/方案

我们联系您

微信咨询

扫一扫添加
动力姐姐微信

TOP