想做出类似百度文库的全文检索,该怎么做?java

2025-03-26 04:42:51
推荐回答(1个)
回答1:

如果用Java首选当然是lucene了,不知道你有学过信息检索或者自然语言处理方面的课程没?你这个需求还很不明确,不过思路大概就是数据后台:文本预处理——〉分词——〉索引,这一部分重算法;系统后台:开发一个java web系统,这一部分明确需求;前台展示:这里就是你说的高亮关键词。本身是一个非常庞大的工作量,单就数据的准备就得考虑很多方面,文档的类型、编码,图片处理、纯文本处理等等,接着是中文分词,采用哪种分词算法。lucene只是提供了一个大概的框架,分词器也是非智能的那种。而系统的搭建当然是J2EE工程师的任务了,前提是你必须明确需求(比如“显示出命中关键词附近的内容,并高亮关键词”就属于未细化的需求)。前台展示的话不熟悉。
当然如果一个人想做一个demo的话,我想告诉楼主,也不是一个简单的工作啊!!术业有专攻,任何一部分都是有很多技术细节要实行的。