元搜索引擎的设计与实现.doc
《元搜索引擎的设计与实现.doc》由会员分享,可在线阅读,更多相关《元搜索引擎的设计与实现.doc(28页珍藏版)》请在沃文网上搜索。
1、四川大学锦江学院毕业论文(设计) 元搜索引擎的设计与实现【摘 要】 我们处在信息大爆炸时代,互联网上的信息呈几何级增长,各式各样的搜索引擎也应运而生,以满足用户的不同需求。怎样通过这些搜索引擎高效率地获取所需信息是困扰人们已久的问题,而想要搜索到高质量的信息则更是难上加难。元搜索引擎的出现在一定程度上解决了此问题。元搜索引擎是一种建立在独立搜索引擎之上的搜索引擎。本文首先介绍了元搜索引擎的定义,讨论了元搜索引擎的基本工作原理及分类,并介绍了国内外具有代表性的著名元搜索引擎,以及面临的问题和将来的发展趋势。然后基于此提出了一个元搜索引擎模型,讨论了其基本体系结构,接下来较详细地介绍了它的各个功能
2、模块,最后讨论了可能用到的关键技术及后续工作。【关键词】搜索引擎 元搜索引擎 关键技术24Metasearch engines design and implement【Abstract】 We are in the era of information explosion, information on the Internet is geometrical type growth, all kinds of search engines also arises at the historic moment, to meet the different needs of customers.
3、 How these search engines efficiently acquire information is troubled people already a long time of problems, but want to search to high quality information is more even. Metasearch engines appeared in a certain extent, solved the problem. Metasearch engine is a built in independent search engine on
4、 search engine. This paper introduces the definition of the metasearch engine,discuss the basic working principles and classification, and introduces the representative of famous at home and abroad, and metasearch engine problems faced and future development trend. Then based on the proposed a metas
5、earch engine model, discusses the basic system structure, then it introduces in detail the various functional modules , and finally discusses the key technology and may be used.【Key words】Search engine Meta-Search engine Key technology目 录绪论11 元搜索引擎的原理21.1 元搜索引擎的概述21.2 元搜索引擎的详解21.2.1 元搜索引擎的定义21.2.2 元
6、搜索引擎的系统结构21.2.3 元搜索引擎的基本运行过程 31.3 元搜索引擎的主要指标及分析51.3.1 元搜索引擎的主要指标.5 1.3.2 元搜索引擎面临的问题.51.3.3 具体站点分析.62 元搜索引擎的分类122.1 多线索式搜索引擎122.2 all-in-one式搜索引擎132.3 桌面式搜索引擎 .132.4 元搜索引擎与传统搜索引擎的区别 .142.5 元搜索引擎的特点 .153 元搜索引擎的分析与设计163.1 开发工具选择163.2 项目设计(基本流程图)163.2.1 客户端设计163.2.2 系统结构框架173.2.3 功能模块介绍183.2.3.1 图形化用户接口
7、(GUI).183.2.3.2 查询预处理器.183.2.3.3 成员搜索引擎调度器.183.2.3.4 查询分发器183.2.3.5 查询代理.183.2.3.6 综合处理模块193.2.3.7 数据库. 194 实现中的关键技术204.1 用户提问转换204.2 检索机制设计与优化204.3 重复结果评判标准204.4 结果融合技术204.5 后续工作20结论22参考文献24致谢.25绪论在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。随着Internet的飞速发展,互联网上的信息呈几何级增长,各式各样的搜索引擎也应运而生,以满足用户的不同需求。怎样通过这些搜索引擎高
8、效率地获取所需信息是困扰人们已久的问题,而想要搜索到高质量的信息则更是难上加难。元搜索引擎的出现在一定程度上解决了此问题。元搜索引擎是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是一种建立在独立搜索引擎之上的搜索引擎。这里“元”为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制及优化使用。相对于元搜索引擎,独立搜索引擎称为“源搜索引擎”,或搜索资源。元搜索引擎的实现一般有4个部分组成:“用户提问处理”、“检索机制”、“结果加工处理”及“结果页面定制”。开发元搜索引擎,主要的理由是:1)元搜索能够分散处理负载,增
9、加检索的范围。Web数据量太大,而且增长迅猛,单个引擎的容量,处理能力难以扩展到很大的规模,所以每个引擎只能包含一部分Web文档。2)元搜索具有较好的扩展性,可以加入多个成员引擎。它使得各个成员引擎规模变小,性能更好,这样成员引擎的检索响应时间短,还可以使得检索的内容保持最新。3)有些web站点的内容不能用数据采集器抓取,只有用该站点提供的API访问。4)检索更有效,用户为了找到满意的检索结果可能访问多个搜索引擎,直到找到结果位置,而元搜索引擎可以帮助用户自动完成这个任务。 本文首先介绍了元搜索引擎的定义,讨论了元搜索引擎的基本工作原理及分类,并介绍了国内外具有代表性的著名元搜索引擎,以及面临
10、的问题和将来的发展趋势。然后基于此提出了一个元搜索引擎模型,讨论了其基本体系结构,接下来较详细地介绍了它的各个功能模块,最后讨论了可能用到的关键技术及后续工作。1 元搜索引擎的原理1.1 元搜索引擎的概述元搜索引擎首先对用户的查询请求进行预处理,分别转换为若干个底层搜索引擎能处理的格式,并将其发送给各个搜索引擎。例如MetaCrawler,同时检索Yahoo,LookSmart等九个主要的搜索引擎。在各个搜索引擎返回检索结果后,元搜索引擎进行组合,并向用户返回最终的检索结果。由于元搜索引擎建立在搜索引擎的基础之上,因此对于设计人员而言,不需要建立和维护庞大的索引数据库,也不需要使用复杂的检索机
11、制;对于用户而言,元搜索引擎提供了一个能够同时查询多个搜索引擎的集成界面,将各个搜索引擎的位置,接口等细节屏蔽了起来,同时也有可能获得更好的检索效果,于是元搜索引擎便应运而生。1.2 元搜索引擎的详解1.2.1 元搜索引擎的定义元搜索引擎(Meta Search Engine 简称MSE)也称为集合式的搜索引擎,是将多个搜索引擎集合在一齐,提供一个一致的界面,也可分为关键词检索和目录检索。当用户发出检索请求后,该引擎自动利用多种其它的搜索引擎同时进行检索。元搜索引擎是对搜索引擎进行搜索的搜索引擎。元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间代理的角色,接受用
12、户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。1.2.2 元搜索引擎的系统结构元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜索引擎。其系统结构如图1.1所示。 图1.1系统结构用户通过WWW服务访问元搜索引擎,向Web服务器提交检索式。当Web服务器收到查询请求时,先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有相
13、同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口模块。Web处理接口通过并行的方式同时查询多个搜索引擎,把所有的结果集中到一起。根据各搜索引擎的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。同时,把结果存到自己的数据库里,以备下次查询参考使用。元搜索引擎主要运用于网页信息搜索,而现有各种电子资源数据库都提供相应的客户端接口,因此可利用元搜索引擎的原理对各个异构数据库进行统一检索。元搜索引擎是通过对多个全文数据库按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(WEB服务器)与客户端进
14、行交互。元搜索引擎是一种集合其他搜索引擎的搜索结果为一体,方便用户同时参考多个搜索引擎提供的搜索结果的搜索引擎。元搜索引擎的这种网络搜索方式侧重于过滤冗余无关的搜索结果,从而试图将最相关的搜索结果展示给搜索用户。但是另一方面,根据搜索请求关键词的普遍度,也可能给用户造成被上百万搜索结果页面淹没的后果。 1.23 元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图1.2初步描述元搜索引擎基本运行过程的概念模型:用户元搜索引擎搜索引擎目录选择搜索引擎全局/局部格式字典全局指令解析局部指令发送局部结果接收局部结果转换全局结果组织全局/局部指令字典3图1.2运行过程的概念模型根据该模型,
15、元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个)。有些元搜索引擎只能使用固定的搜索引擎集合。(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用“全局/局部指令字典”来实现。但指令语言转换并不是异形指令的简单、机械互换,应做到:对应指令的功能性质一致性;对应指令的功能作用范围一致;对应指令的逻辑结构和构成一致;对应指令的
16、逻辑结果一致。全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能。目前,指令转换尚有较多不足之处。(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户。全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信
17、息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料。元搜索引擎还应对全局结果进行剔重、排序等处理。1.3 元搜索引擎的主要指标及分析1.3.1 元搜索引擎的主要指标目前,元搜索引擎的研究、开发十分活跃。它用到了信息检索、人工智能、数据库、数据挖掘、自然语言理解等领域的理论和技术,具有综合性和挑战性。又由于搜索引擎有大量的用户,由此衍射出许多商机,具有很好的经济价值,据估计现在已有几十亿美元的全球市场,所以引起了世界各国计算机科学界、信息产业界和商界的高度关注,已投入了不少的人力、物力,也取得了不俗的成绩。 一个理想的元搜索引擎应该具备以下功能要求如表1.1:表1.1功能要求功能要求举
18、例涵盖较多的可选择性搜索资源如可随意选择和调用独立搜索引擎具备尽可能多的可选择功能如资源类型选择、等待时间控制、返回结果数量控制、结果时段选择、过滤功能选择、结果显示方式选择等强大的检索请求处理功能如支持逻辑匹配检索、短语检索、自然语言检索等不同搜索引擎间检索语法规则、字符的转换功能如对不支持NEAR算符的搜索引擎,可自动实现由NEAR向AND算符的转换详尽全面的检索结果信息描述如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等支持多种语言检索如提供中英文搜索等对结果进行自动分类如按照域名、国别、资源类型等分类1.3.2 元搜索引擎面临的问题 虽然目前Internet上面有很多
19、元搜索引擎,但是良莠不齐。在功能实现上,各有侧重点,能做到理想的尚不多见。一些元搜索引擎在某些方面做得很好,但是在其他功能上却存在着缺陷或尚需改进:如大多数的元搜索引擎不支持自然语言检索,不支持中文检索等。元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用独立搜索引擎的全部功能。随着新技术的不断涌现,会使元搜索引擎做得更好,取得更好的用户满意度,这些技术有:1提高搜索引擎对用户检索提问的智能理解,体现为对自然语言查询请求的支持。2确定搜索引擎信息搜集范围,提高搜索引擎的
20、针对性,体现为主题搜索,多媒体搜索。3基于智能代理的信息过滤和个性化服务。4重视交叉语言检索的研究和开发,提供多语言检索的支持,提供本土化的搜索服务。5提高信息查询结果的精度,提高检索的有效性。1.3.3 具体站点分析(1) 万纬搜索引擎 网址:万纬搜索引擎是最有名的中文元搜索引擎。万纬中文集成搜索引擎包括了8个英文搜索引擎如AltaVista、Argos、directHit、Fast、Google、hotbot、northernLight、Yahoo和12个中文搜索引擎如网典、新浪、雅虎(中文)、搜狐、搜索客、天网、悠游搜索、好多、找到啦、欧姆龙、飞华、Excite(中文)。用户可根据需要自
21、由选择其中最多6个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分类。万纬搜索引擎作为第三代中文搜索引擎更注重智能化和用户使用的个性化,其采用了中文自动分类、自动聚类、机器人学习等人工智能技术,而且使用了中文内容分析技术,以及区域智能识别技术,增强了搜索引擎的查询能力。图1.3和1.4是主页和反馈结果。图1.3主页图1.4反馈结果(2) Mamma(英文元搜索引擎) 网址:Mamma自称为搜索引擎之母的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,其特点是检索界面简洁舒适,检索选项人性化,主要包括:可选择调用的独立搜索引擎、可选择使用的短语检索功能、并可设定检索时间及每页可显示记
22、录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,同时提供了专门检索页面文件标题的特殊检索服务,以及通过Email传输检索结果等人性化功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。 Mamma主页中栏有检索选择及输入框,搜索类型缺省为Web(万维网页),也可选查News(新闻)、Images(图画)、Video(视频)、Twitter(推特)等。图1.5和1.6是Mamma主页及查寻“computer”的反馈结果。图1.5Mamma主页图1.6查寻“computer”的反馈结果(3) Dogpile(英文元搜索引擎) 网址:http/Dogpile199
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 设计 实现