站内全文搜索引擎的设计与实现.doc
《站内全文搜索引擎的设计与实现.doc》由会员分享,可在线阅读,更多相关《站内全文搜索引擎的设计与实现.doc(18页珍藏版)》请在沃文网上搜索。
1、目 录摘 要1ABSTRACT2第1章 绪论31.1 课题的研究背景与意义31.2 研究现状41.3 本文的工作4第2章 站内搜索引擎相关技术介绍62.1 全文检索技术62.2 .NET相关技术72.2.1 .NET平台72.2.2 Visual Studio2012开发平台72.3 Lucene.NET介绍8第3章 站内搜索引擎的设计与实现93.1 站内搜索引擎功能需求93.2 站内搜索引擎总体设计及数据库设计10第4章 站内搜索引擎关键代码实现114.1 主界面11第5章 总结与展望14参考文献15摘 要淘宝的出现,电子商务井喷式的发展,以及越来越多的社交网站、团购网站、专门类信息网站的出
2、现,海量的数据蕴含在网站之内。巨大的信息量无疑是把双刃剑,在给用户提供丰富信息的同时,也给用户提了一个大大的难题,如何在这海量信息中找到用户想得到的信息,尤其是当用户提供的是一组信息不是十分明确的词组时,如何能讲有用的信息条理清晰地提供给用户,这进一步刺激了站内搜索技术的发展。本文在总结站内搜索功能的同时,在研究了站内搜索相关技术的基础上,设计并实现了一个简易的站内搜索引擎,实现了在内搜索的主要功能。关键词:站内搜索;.NET;Lucene.NETABSTRACTThe Taobao emergence of e-commerce development spurt, as well as a
3、 growing number of social networking sites, group buying sites, the emergence of specialized class information website contains vast amounts of data within the website. A huge amount of information is undoubtedly double-edged sword, giving users a wealth of information, but also to provide the user
4、a big problem, how to find a user wants information in this mass of information, especially when the user is offered a when information is not very clear set of phrases, how can speak clarity of useful information available to users, which further stimulated the development of the station search tec
5、hnology.This paper summarizes the station search function at the same time, in the study of the station search related technologies, based on the design and implementation of a simple site search engine, including the realization of the main functions of the search.Key words: Site Search; .NET; Luce
6、ne.NET17第1章 绪论自从有了计算机以后,人类开始用计算机保存信息,有保存就需要查找,于是出现了检索技术。文本检索技术的发展从最初的SMART文档检索系统到AltaVista搜索引擎,到现在的搜索巨头Google,人们习惯在互联网上搜索需要的信息1。同时在同一个网站内往往拥有大量的资源,怎样在网站内部使用户能够迅速的找到所需信息,已成为一个网站能够吸引用户的重要方面。随着信息地快速增长,这一方面的需求越来越大,在很大程度上严重影响到 Web 站点的成功2。因此,建立站内搜索引擎成为必要。所谓站内搜索无非就是对数据库信息的检索,当然,数据库通过SQL查询也在一定程度上提供了这样的功能。但是
7、,数据库所提供的Like%key-word%查询,不但效率不高,尤其是在多字段查询时,而且所提供的仅仅是关键字的全信息匹配,所查询到的内容必须是“key-word”的顺序匹配,这对于大多数网站,尤其是大型网站来说,基于数据库查询的站内搜索往往出现检索数据不准确、更新慢、无法控制检索等问题3。那么,如何来解决这个问题呢?搜索引擎的出现给了人们带来了一线希望。诸如Google、Baidu等全文搜索引擎能够提供一种基于全文信息的搜索方式,并且能够在所提供的一个或一组词中分离出具有一定含义的词,并以这些词为关键字搜索并得到包含这些关键字的信息4。然而,我们无法做到在自己的网站中做出一个如Baidu、G
8、oogle那样的搜索引擎。但是,Lucene的出现,使这种实现成为可能,它是一个开放源代码的全文检索引擎工具包,利用 Lucene 建立的全文检索系统可以通过其丰富的分析技术达到令人满意的检索效果5。1.1 课题的研究背景与意义在以往网站建设、企业信息系统搭建过程中,由于信息结构简单、内容稀缺,站内搜索乃至搜索都不是网站系统的必要装备。但随着Web2.0带来的海量信息井喷式涌现,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。淘宝的出现,电子商务井喷式的发展,以及越来越多的社交网站、团购网站、专门类信息网站的出现,海量的数据蕴含在网站
9、之内。巨大的信息量无疑是把双刃剑,在给用户提供丰富信息的同时,也给用户提了一个大大的难题,如何在这海量信息中找到用户想得到的信息,尤其是当用户提供的是一组信息不是十分明确的词组时,如何能讲有用的信息条理清晰地提供给用户,这进一步刺激了站内搜索技术的发展6。站内搜索通俗来讲是一个网站或商城的“大门口”,一般在形式上包括两个要件:搜索入口和搜索结果页面,但在其后台架构上是比较复杂的,其核心要件包括:中文分词技术、页面抓取技术、建立索引、对搜索结果排序以及对搜索关键词的统计、分析、关联、推荐等7。1.2研究现状站内搜索主要提供的是全文搜索功能,常用的检索技术分为如下两种:(1)使用关系数据库的 li
10、ke %keyword%查询来代替全文检索系统。这种方法在信息量比较小的情况下,检索速度比较快,但是由于查询语句比较繁琐,在面对海量信息的情况下,检索速度会急剧降低,其性能也往往达不到要求,甚至影响数据库的其他正常使用,尤其是在网络状态下,这方面的缺陷尤为明显8。(2)使用通用的数据库系统提供的全文检索功能。一些信息化平台虽称实现了全文索引库,但其实质是模拟的全文索引库,其通过先检索放在关系数据库里的结构化数据,如题目、摘要、内容等,然后链接全文以获得全文,而真正实现全文检索的不多,而且在数据量比较大,特别是在海量数据的情况下,检索的效率仍然比较低9。1.3 本文的工作本论文在研究了全文搜索相
11、关文献的基础上,分析了Lucene.NET框架,基于.NET平台,实现了一个简单的站内搜索引擎,主要研究内容包括10:(1) 全文检索知识的研究。包括全文检索的基本原理和相关理论;(2) .NET平台相关技术的研究。包括,.NET Framework介绍,Visual Studio开发环境介绍;(3) 分词框架研究。包括Lucene介绍及工作原理。(4)设计并实现一个简单的站内搜索引擎。第2章 站内搜索引擎相关技术介绍2.1 全文检索技术所谓全文检索,是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统11。全文检索能够将
12、存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等信息,也就是说类似于给整本书的每个字词添加一个标签,也可以进行各种统计和分析。例如,它可以很快的回答“水浒传一书中“宋江”一共出现多少次?”的问题。全文搜索技术是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,搜索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。检索主要分为按字检索和按词搜索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解
13、为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词搜索指对文章中的词,即语义单位建立索引,检索时按词搜索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文搜索技术尤其是中文全文检索技术中的难点。 全文搜索系统是按照全文检索理论建立起来的用于提供全文检索服务的全文搜索系统。一般来说,全文搜索需要具备建立索引和提供查询的基本功能,此外现代的全文搜索系统还需要具有方便的用户接口、面向WWW的开发接口、二
14、次应用开发接口等等。功能上,全文搜索系统,核心具有建立索引、处理查询返回增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文搜索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统12。2.2 .NET相关技术2.2.1 .NET平台.NET框架是一种新的计算平台,它简化了在高度分布式Internet环境中的应用程序开发13。Microsoft .NET Framework结合强大的功能与跨技术边界无缝通信新技术,构建一个能支持各种业务流程的应用程序。.NET 框架4.5可以更方便地编写异步代码、同步代码中的控制
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 站内 全文 搜索引擎 设计 实现