博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Lucene4.6 把时间信息写入倒排索引的Offset偏移量中,并实现按时间位置查询
阅读量:4663 次
发布时间:2019-06-09

本文共 394 字,大约阅读时间需要 1 分钟。

       有个新的技术需求,需要对Lucene4.x的源码进行扩展,把如下的有时间位置的文本写入倒排索引,为此,我扩展了一个TimeTokenizer分词器,在这个分词器里将时间信息写入

偏移量Offset中。扩展了一个Filter,最后查询时通过filter把时间信息传进去过滤想要的时间范围之内的结果。

  Lucene倒排索引中分好的词有两个偏移量一个是按字符的偏移量(BeginOffset和EndOffset)另一个是以分词(Term)为一个单元的position,每增加一个词position加1,如果这个词有两个字符则EndOffset加2, BeginOffset等于上一次的EndOffset。

 

源码地址:https://github.com/Jethu1/TimeAnalyzer

转载于:https://www.cnblogs.com/jetHu/p/7270835.html

你可能感兴趣的文章
基于本地文件系统的LocalDB
查看>>
黑马程序员 java基础加强--类加载器
查看>>
Win10环境下安装Django
查看>>
[Leetcode] Permutations
查看>>
mysqlbinlog flashback 5.6完全使用手册与原理
查看>>
1-1 07:输出浮点数
查看>>
软考知识点梳理--项目机会研究
查看>>
不同分布的转换问题(2016.11.18)
查看>>
ASP.NET页面使用JQuery EasyUI生成Dialog后台取值为空
查看>>
EDM营销之双十一最新实战营销指南汇总
查看>>
SpringBoot系列——mail
查看>>
到处都是jQuery选择器的年代,不了解它们的性能,行吗?
查看>>
SDN第三次上机作业
查看>>
用信号量进程同步与互斥
查看>>
labview状态机
查看>>
twemproxy与sentinel整合步骤
查看>>
2018.0213java学习日志
查看>>
luogu 3865 【模板】ST表
查看>>
ASP.NET 高级编程基础第十一篇—WebForm和Page类成员
查看>>
Android的计量单位px,in,mm,pt,dp,dip,sp
查看>>