搜索引擎的设计与实现.doc
《搜索引擎的设计与实现.doc》由会员分享,可在线阅读,更多相关《搜索引擎的设计与实现.doc(61页珍藏版)》请在沃文网上搜索。
1、华北电力大学毕业设计(论文)摘要 摘要随着计算机技术和互联网技术的飞速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文首先介绍搜索引擎的基本原理、工作过程及技术发展趋势。然后从搜索引擎的原理、构成出发,设计并实现了信息采集模块、索引功能模块和检索模块,并从检索技术、检索功能、检索方式对它们进行比较和分析。网络蜘蛛是搜索引擎设计的核心,决定了搜索引擎数据容量的大小。本文利用线程池技术,多线程并发下载网页信息,有效的提高了下载的速度跟效率。中文
2、分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文采用了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。同时也对自然语言标引技术和处理方法进行了探讨。关键字:搜索引擎;网络蜘蛛;中文分词;信息检索DESIGN AND REALIZATION OF SEARCH ENGINE SYSTEMAbstractA long with the rapid development of computer technology and Internet technology, users are i
3、n affluent in more and more information messages. In the same time the user are facing that its getting more and more difficulty for them to obtain the exactly information which they most need. The rope engine technology has solved the above problem and is becoming the computer scientific circles an
4、d the information industrial field struggles. This article firstly talks about the basic theory of search engine and its working process as well as the tendency of technology development. It analyses the principle and structure of search engines. Then according to the principle and constitute of sea
5、rch engines, design and realization the information collect a mold piece, the index function mold piece and index mold piece, and has analyzed the differences and similarities of retrieval technologies, retrieval functions and retrieval modes. The network spider is the core of the search engine desi
6、gn and come to a decision to search an engine data the size of the capacity. This text make use of the threads technique, the multi-threading erupt the download web page information, valid of exaltation download of speed and efficiency. Chinese word segmentation is one of the determinants of result
7、quality of Chinese search engines. Whether Chinese words are segmented effectively and correctly is vital to improving the relevance of the searching results and enhancing user satisfaction. This paper puts forward a Chinese word segmentation method suited to full - text retrieval search engine. It
8、not only enhances the accuracy of word segmentation but also recognizes unknown words. Meanwhile, formulated the indexing and the processing technology of the natural language,Keywords: search engine; Web spider; Chinese word segmentation; information retrievalII华北电力大学毕业设计(论文)目录目 录摘要Abstract1 绪论11.1
9、 课题研究背景和意义11.2 国内外研究现状21.2.1 搜索引擎的分类21.2.2 搜索引擎的性能指标31.2.3 目前搜索引擎存在的不足41.3 课题主要研究工作52 关键技术62.1 搜索引擎工作原理62.2 关键技术实现62.2.1 Lucene技术62.2.2 动态摘要技术82.2.3 中文分词技术82.3 优化技术92.3.1 线城池应用92.3.2 页面消重102.4 本章小结113 搜索引擎系统的设计与实现123.1 引言123.2 系统结构123.2.1 系统结构模型描述123.2.2 信息采集模块123.2.2.1 设计思路133.2.2.2 具体实现133.2.3 索引功
10、能模块193.2.3.1 设计思路193.2.3.2 具体实现203.2.4 检索模块263.2.4.1 设计思路263.2.4.2 具体实现263.2.5 用户接口模块283.2.5.1 设计思路283.2.5.2 具体实现283.3 本章小结304 性能测试314.1 实验数据比较分析314.1.1 线程数设定314.1.2 分词结果分析比较314.2 系统测试324.2.1 索引模块的测试324.2.2 用户交互界面的测试334.3 本章小结35结论36参考文献38致谢40外文文献翻译原文41外文文献翻译译文52华北电力大学毕业设计(论文)正文1 绪论1.1 课题研究背景和意义时代的变迁
11、衍生出许多不同的时尚和潮流,上网已经成为新世纪全球最为耀眼的时尚和潮流之一。据调查显示,Internet已经发展成为当今世界上最大的信息库,并且成为全球范围内传播信息的最主要渠道之一,其中WWW(World Wide Web,万维网)的发展最为迅速。自从1991年诞生以来,WWW 已经发展成拥有约 1亿个用户和近千万个站点、600G信息容量的巨大的分布式信息空间,而且这个数字仍以每4到6个月翻一番的速度增加。如表1-1所示的数字非常能说明这个问题1。表1-1 Web站点增长统计表月份Web站点数1993年 6月份1301993年 12月份6231994年 6月份27381994年 12月份10
12、0221995年 5月份235001996年 I月份1000001996年 6月份2300001997年 1月份650000目前,各类机构纷纷建立万维网站点,向社会发布大量信息。用户可以通过它们去了解各个公司的产品、营销促销活动、用户手册和参加虚拟用户培训,可以进入政府机构去查找它们的设计与功能、文件报告、统计数据、法规条例、研究或投资项目,可以连入大专院校去了解专业与课程、教师学生名单、招生就业信息、科研项目和成果介绍,可以检索图书情报机构的服务功能、目录索引、电子图书期刊、数字化图片和音像资料、接受联网咨询服务和联网借阅服务等。可以说,WWW为人们建立了一个新的生活环境,人们可以从中了解到
13、所需的几乎任何信息,并可以方便地获得所需的多数信息。但是Internet并没有一个权威机构对其进行统一管理。它不像图书馆那样,可以向用户提供经过选择的、有序的、系统的、完整的信息;也不像商用联机检索系统,提供的信息有一定的格式,并按类型或学科进行分类,便于检索、便于利用。网络信息具有以下几个特点2。(1)信息内容覆盖社会各个领域,涉及范围广,数量惊人;(2)信息分散、无序,组织松散;(3)信息的动态性强,信息的增加、更新、删除及链接地址的更换,每时每刻都在进行;(4)信息的利用价值差异大,既有有用的信息,也有无用的信息、甚至还有有害的信息,而且相互混杂交织在一起。这些都造成网络信息的易检性和易
14、利用性差,成为信息利用的障碍。在这些情况下,人们长期以来习惯的信息获取方式已不再适用,所需信息的组织、整理、优化还需上网者自己来做。用户常常被淹没在浩繁的信息海洋中,难以获得对自己有用的信息。面对浩瀚的信息资源,如何有效地检索Web信息,以帮助用户从大量文档集合中找到与给定查询请求相关点的文档子集,就成为一项重要而迫切的研究课题。自从1993年美国NEXOR公司的Marlyn Roster开发出最早的网上检索工具Aliweb(Archie-Lide Index of the Web), 1994年Yahoo公司推出基于目录的信息检索服务,然而,这种服务还不完全具备通常意义上搜索引擎的功能。是年
15、春天,M.Mauldin将J.Leavitt的网络蜘蛛程序接入到搜索程序中,并研制成功了Lycos,这是第一个真正意义上的搜索引擎。搜索引擎(Search Engine)又称为检索引擎3,一般指通过超文本(超媒体)技术和Internet网上建立的一种向网络用户提供网上信息资源检索和导航服务的系统。狭义上讲可以是一种为搜索Internet上的网页而设计的检索软件。搜索引擎通过网上信息如网站、网页、URL(Uniform Resource Locator,简称URL)以及BBS, Telnet, FTP, Newsgroup等,进行整理、组织、加工、处理,建立管理和存储这些信息的索引数据库,并提供
16、基于该索引数据库的检索。网络搜索引擎的最终目的是能够根据用户需求查找到相关信息。它对于网上信息的开发利用,对于加速信息交流,促进信息增值进度有很大的推动作用。随着Web的迅速增长,出现了许多搜索引擎,如世界上著名的一些门户站点AltaVista, Excite, Lycos, Infoseek, Google, DogPile以及国内的一些门户站点搜狐、新浪、网易等均提供搜索引擎。1.2 国内外研究现状搜索引擎(Search Engine)是随着Web信息的迅速增加,从1995年开始逐渐发展起来的一门技术。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”,无功而返。搜索引擎正是为了解决
17、这个“迷航”问题而出现的技术。它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。搜索引擎提供的导航服务已经成为因特网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。1.2.1 搜索引擎的分类根据不同的分类标准,搜索引擎有不同的分类方式。按照信息搜集方法和服务方式的不同7,搜索引擎系统可以分为三大类:目录式搜索引擎(Directory Search Engine),机器人搜索引擎(Robot Search Engine)和元搜索引擎(Meta-Search Engine),分别介绍如下:1)目录式搜索引擎 目录式搜索
18、引擎(也称分类式搜索引擎)主要通过人工发现信息11,由编辑人员根据信息资源的内容按一定的主题进行分类组织,并形成信息摘要,将信息置于事先确定的分类框架中,组织成一层一层的分类目录,目录下面有更具体的子目录。这类搜索引擎的性能主要取决于对所获取网页的人工归类或自动分类算法的精确度如何。其代表有Yahoo, LookSmart, Open Directory, Snap, Lycos, Go Guide等。 由于采用人工的方式对Web页面信息进行获取和维护,目录式搜索引擎的突出特点是具有比较好的信息质量,但也正是由于这一点使得其存在着以下几点不足: (1)需要大量人力来搜索、组织信息,人工维护代价
19、大; (2)将主题分类具有很大的模糊性和主观性,对于使用者来说,有时并不知道所需信息属于哪一个分类;(3)分类很难将一些偏僻领域覆盖进去,包括的内容不全,难以全面地反映WWW上的信息。2)机器人搜索引擎 机器人搜索引擎也叫全文搜索引擎或网页搜索引擎,是目前最常用的一种方法。其特点是利用一个称为Robot(也叫Spider, Web Crawler, Web Wanderer或worm)的程序自动访问Web站点资源服务器18,提取站点上的网页,并根据网页中的链接采取一定的策略进一步提取其它网页,或转移到其它站点上。由索引器为搜集到的信息建立索引,由检索器根据用户的查询要求检索索引库,用户提交的查
20、询中还可以包括and, or, not, near等布尔检索来精确定位。从理论上讲,如果某网页中出现了用户的查询关键字,那么就将这一网页列入搜索结果,并将其返回给用户。其服务方式是面向网页的全文检索服务,其特点是全面而充分。此外,还有少量的搜索引擎采用目录式搜索引擎和机器人搜索引擎相结合的方法17,如Newhoo目前己被Netscape收购)。本文所讨论的搜索引擎是基于目前最常用的机器人搜索引擎的。3)元搜索引擎 元搜索引擎没有自己的数据库,而是将用户查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页全文检索。这类搜索引擎的
21、优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。 这类搜索引擎的代表是WebCrawler, InfoMarket。目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上逐渐融合的趋势。例如21,Yahoo在保持人工分类的同时,使用Google的机器人搜索引擎,用户查询时,如果选择“网站搜索”便搜索人工分类库,选择“网页搜索”便搜索机器人搜索引擎的索引库。一些传统的机器人搜索引擎也增加了人工分类的内容,以便高准确率的导航信息。另外,搜索引擎站点有 “门户化”的倾向,在提供搜索服务的同时,提供多样的网络服务,如新闻、股票、大气预报、虚拟社区、游戏、电子
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 设计 实现