lucene(20)—lucene 综合应用实例
最近因项目需求的需要,完成一个”会话检索”功能。该功能是把录音转写成文字,对转写后的文本进行关键字检索。因为该功能对检索条件类型的使用比较完整(例如:时间范围、关键字、语速等不同类型)以及使用的注意点也比较多,所以在这里给大家分享一下。希望可以帮到你。
读取文本文件中的内容,找出文件中的手机号和邮箱,我自己写了一个读取文档的内容的正则查询示例,用于匹配文件中是否含有邮箱或者手机号,这个等于是对之前的文本处理工具的一个梳理,同时结合lucene内部提供的正则匹配查询RegexQuery;
废话不多说了,直接上代码,这里先对文件内容读取分类处理,分为pdf word excel 和普通文本四类,不同的种类读取文本内容不一样
pdf利用pdfbox读取内容,word和excel利用poi进行读取内容,文本文档利用jdk自带的读取