职场大变样社区

5598

主题

6638

帖子

79

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
79
跳转到指定楼层
楼主
发表于 2016-5-7 22:40:24 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
技术:Java、JSP
摘要:
随着互联网的迅速发展,网络上的信息量也在迅速膨胀,在这海量的信息中,用户面对成千上万的搜索结果进行逐一浏览是不可能的。因此搜索引擎成为了人们筛选信息的首选工具。然而判断一个搜索引擎性能的好坏并不在于其能否找到所有的信息,而是在于搜索的准确性和速度。
在查询过程中,用户的查询内容既包括西文也包括中文,中文与西文不同,西方文字以词为单位,单词间有空格作为分隔,计算机很容易把词分开。而中文是以字为单位,句子中所有的字连起来才能描述一个意思。因此要把中文句子拆分成词就需要使用中文分词技术。
由于中文的复杂性,所以中文分词算的研究与应用就变得很有必要了。该项目是基于Lucene的图书搜索引擎通过对关键字的查询,完成对MM中文分词算法的研究。论文首先介绍了本项目的相关知识背景,简述Lucene,然后阐述了数据库设计,最后说明了系统的具体实现过程 。本系统开发工具是MyEclipse和SQL Server。

关键词:Lucene,搜索引擎

目录:
1  引言    1
1.1  中文分词的研究背景    1
1.2  中文分词的研究意义    1
2  系统简介    2
2.1项目名称    2
2.2 开发工具    2
2.2.1 开发工具简介    2
2.3  搜索引擎简介    3
2.4  相关技术简介    3
2.4.1  Java简介    3
2.4.2  Hibernate简介    3
2.4.3  Struts简介    4
2.4.4  JSP简介    4
2.4.5  Lucene简介    5
3  系统设计    7
3.1   系统实现流程图    7
3.2  系统顺序图    7
3.3  系统状态图    7
3.4  数据库设计    8
3.4.1  数据库设计    8
3.4.2  数据连接    9
3.5  索引设计    10
3.5.1  解析器设计    10
3.5.2  分析器设计    10
3.5.3  索引建立    13
3.6  搜索设计    13
4  系统测试    15
4.1  软件测试    15
4.2  系统测试的方法    16
4.3  测试用例以及运行结果    16
5  总结    21
5.1  本文所做的主要工作    21
5.2  未来工作    21
参 考 文 献    23
致  谢    25

包含资料:


截图:




百度网盘下载地址(金币充值):
游客,本付费内容需要支付 100金币 才能浏览支付



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

职场大变样社区 分享高质量学习资料(电子课本、毕业设计、编程视频、项目源码、电子书籍等)

快速回复 返回顶部 返回列表