个性化搜索引擎的设计与实现.doc
《个性化搜索引擎的设计与实现.doc》由会员分享,可在线阅读,更多相关《个性化搜索引擎的设计与实现.doc(26页珍藏版)》请在沃文网上搜索。
1、华中农业大学毕业论文(设计) 目 录摘 要IV关键词IVABSTRACTVKEY WORDSV1 前言11.1 研究背景11.2 个性化搜索引擎的意义11.3 个性化搜索引擎主要的研究问题12 搜索引擎概述22.1 个性化搜索引擎22.2 搜索引擎工作原理22.3 个性化搜索引擎系统模型32.4 未来搜索引擎的发展趋势43 个性化搜索引擎相关技术53.1 信息抽取技术53.2 Lucene检索工具包53.3 中文分词技术63.4 自动聚类技术63.5 用户行为分析74 个性化搜索引擎的总体设计74.1 系统需求分析及总体设计74.2 系统功能及架构设计84.3 系统流程设计84.4 系统数据库
2、设计125 个性化搜索引擎的具体实现135.1 模块设计135.2 用户界面模块145.3 搜索模块165.4 搜索结果优化模块195.5 系统运行结果及示例216 总结22参考文献:22致 谢23个性化搜索引擎的设计与实现摘 要随着Internet技术的迅速发展,网络提供给人们的信息量越来越大。搜索引擎作为人们在WWW上查找、获取信息的重要手段之一,在各个领域都已得到了广泛的应用。为了给用户提供个性化的查询服务,个性化搜索引擎孕育而生。经过众多研究者的不懈努力,个性化搜索引擎技术已取得了一些进展。本文针对目前搜索引擎存在的不足以及当前用户个性化查询的要求,在深入研究搜索引擎及相关技术的基础上
3、,设计了一个基于用户兴趣挖掘的个性化搜索引擎模型。本文的主要工作是:(1)个性化模型的研究与实现本文深入分析了个性化搜索的特点,研究了搜索引擎及相关技术,设计了一个基于用户兴趣挖掘的个性化模型。该模型从用户的历史访问页面中提取用户的兴趣特征,将兴趣相同的页面进行归类,并将用户兴趣按类管理;本文构建了用户兴趣树来动态地存储用户兴趣,并通过短期兴趣和长期兴趣相结合的方式来描述用户兴趣特征;为了及时地反映用户的兴趣变化,本文采用了基于遗忘机制的兴趣更新算法。(2)个性化搜索引擎(除个性化模型外)其他模块的研究与实现本文还研究了与个性化搜索引擎相关的其他模块,包括:中文分词、查询扩展、网络蜘蛛、索引建
4、立与更新以及结果排序。在综合考虑了技术的实现难度和用户个性化查询要求的基础上,本文给出了以上各模块的实现算法。(3)通过实验证明了本文设计的个性化搜索引擎的有效性。实验内容包括两方面:个性化模型的建立和个性化的搜索。关键词个性化模型,用户兴趣挖掘,用户兴趣树Design and Implementation of Personal Search EngineAbstractWith the rapid development of Internet technology,the network can providepeople more and more information.Search
5、 engine has been widely used in manyfields,which is treated as a tool that people can get information on World Wide Web.In order to provide personalized search service for users,personalized search enginecomes forth.Because of many researchers contribution,people have made greatprogress in personali
6、zed search engine.This paper points out the shortage of currentsearch engine and users requirements of personalized search,does some research onsearch engine and its technology,and designs a personalized search engine model thatis based on users interests mining.The main tasks of the paper are as fo
7、llows:Firstly,this paper researches and implements the personal model.This paper analyzes the characters of personalized search,researches the searchengine and its technology,and designs a model that is based on users interests mining.The model gets users interests from the pages that he has visited
8、 before,classifies thepages according to the same interest,and manages the users interests according to theinterest types.As to the storage of users interests,this paper consults the ODP catalogstructure,establishes user interest tree to store the users interests,and uses the shortinterest and long
9、interest to describe the users interest characters.In order to reflectusers interests changing in time,this paper updates users interests using thealgorithm based on forgetting mechanism.Secondly,this paper researches and implements other modules of personalizedsearch engine besides the personal mod
10、el.The modules include Chinese segmenting,search extending,network spider,index establishment and update and result ranking.This paper takes the implementing difficulty of related technology and usersrequirements of personalized search into account,and brings forward the algorithmsof the modules abo
11、ve.At last,experiments are conducted to verity the efficacy of the personalizedsearch engine designed above.The contents of the experiment include two parts:the establishment of personal model and the personalized search. Key words personal model;users interests mining;userinterest tree。III1 前言1.1 研
12、究背景 随着 internet 的迅速发展,如何在浩瀚的网络信息资源中查询自己想要的信息变得越来越重要。为此,出现了专门提供网络搜索服务的网站,比如Google、Baidu、Yahoo、搜狐、北大天网等。然而随着网络信息的更新与扩充,传统的单一搜索引擎存在着覆盖率有限,查准率低,用户相关性差的缺点,使得为解决上述不足的元搜索引擎开始成为研究的热点。元搜索引擎是指在统一的用户接口与信息反馈下,通过调用多个独立的搜索引擎享有多个资源库为用户提供信息服务的系统。早期的元搜索引擎,虽然大大增加了传统搜索引擎的覆盖率,但在某些方面仍旧和传统的搜索引擎一样,对每个用户的检索要求都给出相同的检索结果,并没有
13、考虑用户个性化的需求对检索予以重组、过滤。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息,真正做到“各取所需”,成为基于Internet的网络信息检索的热点问题。随着用户行为分析、自动聚类、事例推理、互动学习等技术的引入,搜索引擎开始走向个性化、智能化、专业化。1.2 个性化搜索引擎的意义根据第24次中国互联网发展状况统计报告,截至2009年6月底,中国网民规模达到3.38亿人,搜索引擎的应用是用户获取信息的主要渠道之一,使用率达到73.2%(美国达到92%)1,并有上升的趋势。搜索引擎的发展经历了目录海量搜索、海量搜索、剔出垃圾网页、专业、定向、高准确性和匹配性等几
14、个阶段,但搜索引擎的框架结构和基本技术并没有实质性的突破。而搜索引擎缺乏个性化的局限性却日益突出,具体表现在2:(l)网络信息覆盖面广,形式各异,而传统搜索引擎对所有用户提供相同的界面和服务,并且检索的结果成千上万、良芳不齐,用户为找到真正感兴趣的信息,往往要耗费大量的时间和精力。(2)人们由于年龄、性别、职业、爱好等不同,各自感兴趣的领域也随之不同,各自对词义的理解也不尽相同,不同的用户对同一检索请求得到的检索结果常常有不同的评价。(3)用户在不同时期或阶段对同一检索请求,所得到的仍是完全相同的检索结果,对用户不具有自适应能力。(4)用户使用搜索引擎时带有一定的目的性,但由于领域知识的不足和
15、搜索引擎的查询接口的局限性而无法明确表达自己的搜索意图1.3 个性化搜索引擎主要的研究问题本课题通过学习用户满意度反馈信息,挖掘用户隐藏兴趣,开发并实现了一个基于用户反馈的个性化搜索引擎系统,并提出在此搜索引擎中引入自动聚类技术的改进方案,提高搜索效率。本文的主要研究内容:(l)搜索引擎源数据的获取即如何获取独立搜索引擎返回的搜索结果。(2)设计一套合理的学习用户反馈信息的方法即通过学习用户反馈信息,把隐藏在用户操作之下的信息,如:用户的兴趣爱好,用户的搜索倾向等进行归纳总结,借助学习算法,生成用户兴趣模式。(3)基于用户反馈的个性化搜索引擎系统的实现即设计并实现一个基于用户反馈的个性化搜索引
16、擎系统。此系统的最大特点是:引入评分制度获取用户反馈信息,学习用户反馈,挖掘用户兴趣,依据用户兴趣优化搜索结果,优先返回特定用户感兴趣的网页内容并向用户推荐其他用户的兴趣模式,使搜索结果“面向用户”,具有特定性和针对性,提高检索效率。(4)个性化搜索引擎系统中引入自动聚类即如何将学习用户反馈信息、信息检索与数据挖掘中的自动聚类技术相结合,通过对用户和搜索结果的聚类处理,使用户能更加快捷的找到所需网页。2 搜索引擎概述2.1 个性化搜索引擎个性化搜索引擎指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站
17、的访问情况,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。而搜索引擎3,它就是以一定的技术和策略在互联网中搜集、发现信息,并对信息进行理解、提取和处理,为用户提供Web搜索的服务.搜索引擎有各种不同的分类方法。按照信息内容划分,搜索引擎可分为综合型搜索引擎、专业型搜索引擎和特殊型搜索引擎;按照搜索工具的数量划分,搜索引擎可分为独立搜索引擎、元搜索引擎和集成搜索引擎;按照信息的组织方式划分,搜索引擎可分为目录式搜索引擎、全文搜索引擎和混合型搜索引擎。以下是按信息的组织方式划分的三类搜索引擎:(l)目录式搜索引擎5,或称按主
18、题查询型搜索引擎,是将信息分门别类,按照传统的分类方式分为各级目录。它的特点是质量和匹配精度较高,不足之处是搜索范围较小,查全率较低。(2)全文搜索引擎5,或称按关键字查询型搜索引擎,对各网站的每个页面中的每个词进行搜索。它的特点是信息量很大,查全率较高。不足的是它提供的信息太多,反而降低了查准率。(3)混合型搜索引擎5是针对全文和目录搜索引擎的缺点而设计的。使用户在分类目录中浏览,保证了一定的查准率,又可以使用户进行全文检索,查找特定资源。2.2 搜索引擎工作原理如图2.1所示,一个完整的搜索引擎系统一般由网络爬虫、索引器、检索器和用户接口四个部分组成,不同搜索引擎具体的模块可能会有不同,但
19、都是建立在这四个基本模块的基础之上。索引器网络爬虫网页网页检索Html特征库Full-text网页查询查询器用户接口图 2.1(l)网络爬虫4(WebCrawler)网络爬虫,又称网络机器人,它不停的从网络上下载文档并抽取出新的链接,循环的实现对万维网的遍历。它在一个完整的运行周期内(比如半个月可以下载超过千万的网页,并将这些文档保存在本地文本数据库,最后由索引器负责完成页面内容的全文索引。(2)索引器(Indexer)索引器对收集回来的网页进行分析,提取相关网页信息(包括网页所在uRL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法
20、进行大量复杂计算,得到每一个网页(针对页面内容)及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。(3)查询器4(Seareher)从使用者角度来看,查询算法是决定一个搜索引擎检索质量最重要的因素。搜索引擎的查询器就是利用索引数据库提供的各类基本数据库,如页面全文索引库、HTML标签库、超链接分析库、查询历史库等多个数据源,实现对用户输入关键字的准确、快速的匹配。(4)用户接口4(User)用户接口提供一系列的查询选项以满足不同的查询要求。一般的搜索引擎系统都支持布尔表达式操作、搜索域名范围限制、查询网页的语种,甚至可以选择文档的类别。合理的设置查询选项可以大大的
21、减少搜索结果中的无效内容,提高查询效率。元搜索引擎6将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给调用的各独立搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把各搜索引擎返回的结果收集起来,进行比较分析,剔除冗余信息,以一定的格式返回给用户元搜索引擎是指在统一的用户查询接口与信息反馈形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。图2.2为元搜索引擎体系结构图7:反馈信息 图2.2元搜索引擎体系结构图用用户接口模块单一搜索引擎1单一搜索引擎2单一搜索引擎n调度模
22、块WWW知识库查询请求结果处理模块元搜索引擎系统各模块分别介绍如下:(1)用户接口模块7该模块负责接收用户的查询请求并显示查询结果。(2)调度模块7 其决定主要的搜索策略,根据用户的输入必须决定查询哪一个成员搜索引擎,以及按照不同成员搜索引擎的要求修改用户输入的查询请求。调度模块为元搜索引擎系统(3)结果处理模块7元搜索引擎的结果处理模块从成员搜索引擎中获取网页结果,并根据返回网页的不同格式提取元搜索引擎需要的内容,并对结果进行去重、合并、输出处理等。2.3 个性化搜索引擎系统模型随着网络信息爆炸似的增长,人们通过搜索引擎检索到的信息不是太少,而是太多了,且大多数都是与查询请求无关的信息。传统
23、搜索引擎及一般的元搜索引擎系统已经越来越不能满足人们的需求,因而个性化技术日益成为检索领域研究的热点问题。个性化搜索引擎将个性化信息服务的概念引入到搜索引擎中,使其能够更好的适应于网络信息的发展。个性化搜索引擎的目的在于能够根据用户的背景、兴趣爱好、研究方向、检索目的等,向用户提供相应的需求信息。个性化Web元搜索引擎系统模型如图2.33所示:用户用户用户接口查询分析器查询过滤器用户描述文件库Web处理接口结果预处理搜索引擎1搜索引擎2搜索引擎N图2.3个性化Web元搜索引擎系统模型其中个性化搜索引擎中各模块功能如下:(1)用户接口3该模块为用户提供可视化的查询输入和结果输出界面。在查询输入界
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 个性化 搜索引擎 设计 实现