Lucence快速入门系列之Lucence常用分词器介绍

203人浏览 / 0人评论

Lucence快速入门系列之Lucence常用分词器介绍

Lucence检索数据的效果好不好,取决于分词器的选择及使用。下面介绍一下Lucence常用分词器。

1.StandardAnalyzer 
    Lucence官方推荐,但中文分词效果不好(把中文拆分成1个1个的)。适合检索欧美国家的语言文字使用。
2.CJKAnalyzer
    中日韩分词器,中文分词效果不怎么好。
3.SmartChineseAnalyzer
   对中文分词效果还行,但是扩展性较差。扩展词库、禁用词库、同义词库等不好处理。像“高富帅”、“白富美”这些以前不是词,而现在是词的,分词效果不理想。
4.IKAnalyzer

    对中文分词效果较好,还支持对停用词库、扩展词库的扩展。像的、了、么、呢、吧、啊这些语气词在全文检索时不是很重要,可以配置在停用词扩展中。像“高富帅”、“白富美”这些新出的词可以配置在扩展词库中。

 

    结论:对中文实现全文检索,首选 IKAnalyzer 分词器。

全部评论