Lucene Hack之通过缩小搜索结果集来提升性能 (1)

作者:caocao(网络隐士),http://www.caocao.name,http://www.caocao.mobi 转载请注明来源:http://www.iteye.com/topic/78884 一、缘起 Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Lucene的内 ...
by lighter 2011-05-26 浏览 (1724) 回复 (1) 群组: lucene爱好者

基于词典的最大匹配的Lucene中文分词程序

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词典 ...
by lighter 2011-05-26 浏览 (2860) 回复 (0) 群组: lucene爱好者

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用. 分词算法: 基于词库的正向最大匹配算法. 分词词库用的是网上一个叫 segmenter 的分词程序使用的词库. 地址:www.mandarintools.com/segmenter.html 这个segmenter分词程序是把文件按行读取出来,然后把一行假设为一个词 ...
by lighter 2011-05-26 浏览 (2975) 回复 (1) 群组: lucene爱好者

Lucene相关度排序的调整

如欲转载,请注明作者:caocao,来源http://caocao.iteye.com/。 Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以 ...
by lighter 2011-05-26 浏览 (4515) 回复 (5) 群组: lucene爱好者

Lucene中文分词之网络隐士八卦版

俺自己搞了个Lucene中文分词,看到版上qieqie师傅发表的他自己搞的Lucene中文分词,隐士很感兴趣,想进来说两句,注册一把,晕,三天后才可以说话,刚刚可以说话。俺来介绍一下俺的中文分词实现。参考站点:http://so.mdbchina.com 俺的分词做了这么几件事:装载各类词库 —— 中文繁体转简体 —— 初步分词 —— 在初步分词基础上进行运算量可控的二次分词(运算量o(n),n句子 ...
by lighter 2011-05-26 浏览 (2052) 回复 (0) 群组: lucene爱好者

Lucene中文分词“庖丁解牛”

Lucene中文分词 “庖丁解牛” 附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 高灵活性,可扩展:OOD 对比:《终于突破中文分词的效率问题》http://www.lucene.org.cn/ ...
by lighter 2011-05-26 浏览 (2338) 回复 (1) 群组: lucene爱好者

Lucene-2.0学习文档(4)

接http://www.iteye.com/topic/39876 下面是搜索的例子: [code] public void SearchSort1() throws IOException, ParseException { IndexSearcher indexSearcher = new IndexSearcher("C:\\indexStore"); QueryParse ...
by lighter 2011-05-26 浏览 (1645) 回复 (0) 群组: lucene爱好者

Lucene-2.0学习文档(3)

接http://www.iteye.com/post/190335 到现在我们已经可以用lucene建立索引了 下面介绍一下几个功能来完善一下: 1.索引格式 其实索引目录有两种格式,一种是除配置文件外,每一个Document独立成为一个文件(这种搜索起来会影响速度)。另一种是全部的Document成一个文件,这样属于复合模式就快了。 2.索引文件可放的位置: 索引可以存放在两个地方1.硬盘,2.内 ...
by lighter 2011-05-26 浏览 (2028) 回复 (0) 群组: lucene爱好者

Lucene-2.0学习文档(2)

接http://www.iteye.com/post/190334 IndexWriter(File path, Analyzer a, boolean create) IndexWriter(String path, Analyzer a, boolean create) 可见构造它需要一个索引文件目录,一个分析器(一般用标准的这个),最后一个参数是标识是否清空索引目录 它有一些设置参数的功能如: ...
by lighter 2011-05-26 浏览 (1685) 回复 (0) 群组: lucene爱好者

Lucene-2.0学习文档(1)

[原创]Lucene-2.0学习文档 作者:Javafish(likunkun) Email:javafish@sunxin.org Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的 ...
by lighter 2011-05-26 浏览 (2958) 回复 (0) 群组: lucene爱好者

搜索篇:lucene简单实例<二>

写文章的时候,感觉比较难写的就是标题,有时候不知道起什么名字好,反正这里写的都是关于lucene的一些简单的实例,就随便起啦. Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索 来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。 IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加入 ...
by lighter 2011-05-26 浏览 (3692) 回复 (1) 群组: lucene爱好者

domain model的延伸讨论

domain model,又称为领域模型,是Java企业应用讨论的一个热门话题,JavaEye也曾经多次围绕这个话题讨论,我们来看个简单的例子: 引用 一个简单的公司工时管理系统,记录员工的个人信息,每个员工的工作任务分配,以及工作所属类别(例如开发,还是测试,还是培训等等),其中每个员工有n个任务,员工和任务是一对多关系,每个员工也分别隶属于多个不同的工作类别,员工和类型是多对多关联关系,而每个 ...
by robbin 2011-05-26 浏览 (4875) 回复 (1) 群组: 领域模型

Domain Model:业务对象的进一步设计

本文放在javaeye可能未必合适。文章中中英文混用也是问题。 而且本文讨论的模型比较适合交易类系统,对于ERP类未必合适。 Author : Anders小明 原文: http://www.blogjava.net/AndersLin/archive/2006/10/09/74187.html 在Domain Object的动静之分中,其实我已经把业务对象分为三大类,不过在那一部分中没有明确 ...
by robbin 2011-05-26 浏览 (2079) 回复 (0) 群组: 领域模型

Domain Object :基于业务行为的分析

Domain Object :基于业务行为的分析 ——Domain Object 的动静之分,及其与 Business Process 的关系 一、Domain Object的动静之分 1.1 动静的标准是什么? 在系统运行期间,被频繁建立和更新的称为 “ 动态” ,而在较长的一段时间内称为 “ 静态” 。 1.2 考查Domain Object的动静将意义何在? 通常而言,“ 动态” 的Do ...
by robbin 2011-05-26 浏览 (2275) 回复 (3) 群组: 领域模型

DomainModel之鸟瞰

第一次接触GoogleEarth,带给我相当的震撼。你可以随意转动地球,通过缩放,看到不同层次的景象,这着实让我吃惊,竟然可以这样!手握鼠标,来回查看,有种作“上帝”的感觉,如果是实时的那就不得了了!相信很多人都有在上面寻找自己家的经历。就拿我来说,首先转到背面中国的位置,滑动滚轮,逐渐深圳的全貌显露出来,西面是蛇口黄色的填海区,上面是深圳的绿肺塘朗山。继续向下,黑灰色的广深高速开始清晰可见,在我辨 ...
by robbin 2011-05-26 浏览 (2126) 回复 (0) 群组: 领域模型

DomainModel之演化(已更新)

OO世界里的DomainModel,相对其他人工创造的领域来说有它的优势,大部分DomainObject在现实世界都能找到原型。通过分析现实世界的原型,我们能得到足够多的原始材料。 在构建企业信息系统时,我们希望构建出的系统,在高效正确运行的同时,构架容易理解,易于扩展。我认为要做到这点,必须要满足后面的条件--系统构架须同领域存在一致的演化映射。领域基本概念就是系统的基本对象,在领域基本概念上 ...
by robbin 2011-05-26 浏览 (1095) 回复 (0) 群组: 领域模型

DomainModel之控制风格

I know what I know,I'll sing what I said,We come and we go ... --I Know What I Know,paul simon 相对于分歧较少的静态DomainModel结构,DomainModel的动态特征一直是扑朔迷离,让人捉摸不定。以至于出现了很多争论,分歧在哪里呢?如果我们把DomainModel整个动态特征看作一个集合,那 ...
by robbin 2011-05-26 浏览 (916) 回复 (0) 群组: 领域模型

企业架构知识库热门文章

最新评论

Java 是静态语言,也许在这些方面与ruby不具有可比性,不过可以用groovy和grails 是可 ...
wind13 评论了 domain model的延伸讨论
晕,这么好的帖子居然没人发表评论!
lude707 评论了 Domain Object :基于业务行为的分析
可见中国的程序员看重的都是所谓的技术,其实这个才是核心的东西
lude707 评论了 Domain Object :基于业务行为的分析
...
joeyon 评论了 Domain Object :基于业务行为的分析
领域模型建模是由业务驱动的,其使用的理论是面向对象。大家可以从完善和丰富方法论,总结一些模式。但是领域 ...
ltian 评论了 DomainModel之相互作用
"贫血"不一定真的贫,本人就是血多导致血热~~
flyfeifei66 评论了 谈一谈贫血的Domain Logic问题。
...
jiangxiaoying 评论了 OSGi Extender Model启示录
用了这种方式能够输出日志了,但是原来用common_logging的一些东西还是不输出,如ibatis ...
bergman 评论了 OpenCore:OSGi上部署Apache Common Log
...
KuXingYiSheng 评论了 域对象 & 面向对象 & 结构化编程
顶你一哈!在我看来,你说的十分正确! 设计模式说的简单点就是套路!
steadyman 评论了 如何学习设计模式
Global site tag (gtag.js) - Google Analytics