图像检索系统的设计与实现.doc
《图像检索系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《图像检索系统的设计与实现.doc(39页珍藏版)》请在沃文网上搜索。
1、摘 要随着互联网的飞速发展,网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。网络爬虫程序就是用来搜集网页和图片的程序。本文的研究重点在于使用网络爬虫框架Heritrix进行扩展,从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。完成上述工作后,再将图片的目录位置和提取的信息存入数据库。并建立一个图片检索系统的Web工程,实现检索功能。开发语言为Java, 开发工具为MyEclipse和MySQL及Tomcat.关键词:图像检索,网络爬虫
2、,Heritrix, HTMLParser, 网页信息提取ABSTRACTWith the rapid development of network information on the explosive growth of images, which makes it on the Internet more and more difficult to find the images, image search technology become a very hot research topic. The collection of images and indexing for ima
3、ge retrieval is a very important aspect. Web crawler is used to collect Web pages and pictures of the program.This study focuses on using the Heritrix Web crawler framework to extend, from the Internet and download web pages and images for web use HTMLParser information extraction and image analysis
4、. After completion of the work, then the image directory location and the extracted information into a database. And a picture retrieval system for Web projects, to achieve search function. Development language for Java, and MySQL development tools for the MyEclipse and Tomcat.Keywords: image retrie
5、val, web crawler, Heritrix, HTMLParser, Web information extraction目录第一章 文献综述1 1.1 图像检索的研究意义1 1.2 图像检索的国内外发展状况1 1.3 网络爬虫技术在搜索引擎中的应用3 1.4 网页分析和信息提取技术4 1.5 本文的研究重点,系统结构和内容 5 第二章 Heritrix应用开发扩展7 2.1 Heritrix简介7 2.1 Heritrix抓取策略及改进 9 2.3 Heritrix抓取过程 102.3 网页爬结果 13 第三章HTMLParser图片相关信息提取14 3.1 HTMLParser简
6、介14 3.2 图片信息提取策略 14 3.3 图片信息提取的实现方法15 3.4 实验提取结果 17 第四章 图像检索系统的搭建18 4.1 数据库的建立 18 4.2 系统的实现框架和结构21 4.3 检索结果展示 23 第五章 总结和展望 25 参考文献 26 附录 27外文资料中文译文致谢3天津大学2007届本科生毕业设计(论文)第一章 文献综述1.1 图像检索的研究意义为了解决上述问题,定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。 图像检索一直是信息检索领域的一个主流问题,涉
7、及到图像处理、图像分割、模式识别及机器学习等多个方面。检索的智能化和自动化是图像检索的目标。目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。 1.2 图像检索的国内外发展状况从20世纪70年代开始
8、,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。因为图像的规模一般要大于纯粹的文本信息,因此,基于内容的图像检索
9、在检索的速度和效率上要求更高。目前已有不少应用于实践环境的基于内容图像检索系统,如由IBM公司开 发的最早商业化QBIC系统,以及由哥伦比亚大学研发的WebSeek系统、麻省理工学院研发的Photobook系统等。基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为
10、成熟,同时分析 和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图像的特征,同时结合对图像的内容分析,共同标引达到对图像的分
11、析和检索。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。下一代搜索技术:20072009年:具有联想技术和分析功能的搜索服务逐渐兴起。在这一时期,语义搜索还没有广泛普及, 带有分析功能的搜索服务开始崭露头角,尤其是商业智能厂商提供的面向企业的信息搜索解决方案引起人们的广泛关注。通过对博客及SNS等媒体公布的有关公司产品或宣传活动的评测进行即时分析,可以为企业的市场运营提供更多有益的参考。20102012年:语义搜索和感性搜索技术将逐渐兴起。将语义搜索用于特定领域或对象时,可以达到高度适合率和再现率,这一结论已 经得到实际验证。由于有生物学验证这一技术
12、作基础,对于感性搜索来说,提高图像、语音、动画数据的特征提取准确度以及加快检索速度不会花很长时间。2013年以后:阶梯式搜索方法将投入使用。帮助用户追加搜索条件、询问搜索内容的阶梯型检索将被搜索服务商广泛采用。技术趋势:在互联网时代,包括文件、图像、语音、动画、视频、虚拟世界等在内的数据呈指数级增长,搜索技术显得越来越重要。以往,搜索服务都是依据输入的关键字,列出符合关键字的信息。未来,全新的搜索服务模式将出现。搜索技术的评测指标主要有两种:适合率和再现率。适合率指搜索结果中符合要求的数据比例,可以通过减少非适合数据提高这一比例。再现率指在所有应该列出的适合数据中,实际检索出的适合数据所占的比
13、例,可以通过减少检索遗漏提高这一比例。未来,搜索技术将朝着三个方向发展:包括联想在内的语义搜索,检索图像、语音、动画内容的感性搜索,通过传感技术搜索现实世界对象的现实挖掘。2008年8 月,微软收购了一家语义搜索服务商Powerset。微软目前正式推出的新型搜索引擎Bing就整合了Powerset的语义搜索技术。CNNIC 2009年3月公布的调查报告显示,对搜索结果不满意的网友比例为35%,40%的用户会在第一次键入关键词的基础上修正关键 词,72%的用户认为搜索结果非常凌乱。用户如果想在互联网海量信息中快速、简便地寻找到自己想要的信息而不受干扰,需要搜索技术对检索者的想法进行臆 测。目前,
14、人们看到的搜索结果都是参考文献,而不是最终的答案。这是现有搜索技术最大的问题。但是,已经有一些产品能够对垃圾信息进行最初级的人为摒除,比如百度知道。当一个人提问之后,经过一个或多个人的回答,此人就可以找到自己所需要的信息。另外,各大厂商也在致力于实现真正的人机对话。以 PowerSet和WolframAlpha为代表的问答式精准搜索近来受到广泛关注。GazoPa是一家成立于2008年的图像搜索引擎供应商。它提供的搜索图像服务的特色在于,可以提取图像中商品的形状、颜色等信息。以往的图像搜索采用的方法是,给图像数据赋予标签等文本数据,当输入的关键字与文本数据相匹配时,图像就会被检索出来。但是,用户
15、使用GazoPa提供的服务,被搜索的图像不具备文本信息,也可能被搜索到。GazoPa使用的是基于图像内容的检索(Content-based Image Retrieval,CBIR)技术。这种技术能够对图像 的颜色、纹理、布局进行分析并检索。CBIR是基于内容检索(CBR)的一种技术。CBR中包括了对动态视频、音频等其他形式多媒体信息的检索技术。如上所述,网站将成为企业与客户沟通的重要渠道,而搜索服务的质量将成为关键因素。用户在选择服务提供商时,除了关注价格和功能指标外,或许会更加关注服务商能否长期提供本地化的服务。1.3 网络爬虫技术在搜索引擎中的应用随着网络的迅速发展,万维网成为大量信息的
16、载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数
17、据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的网络爬虫应运而生。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过
18、程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。改进后的网络爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于网络爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。网络爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (
19、3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 现有网络爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1) 预先给定的初始抓取种子样本; (2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等; (3) 通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内
20、容特征,也可以是网页的链接结构特征,等等。 1.4 网页分析及信息提取技术网络爬虫获得的数据主要是HTML网页,里面包含了大量的格式信息和标记信息,在后续建立索引之前需要进行数据内容的抽取。这就需要用到网页分析及信息提取技术。互联网上有数以亿计的网页,网页的基本元素就是HTML语言文件。从结构上讲,HTML文件由元素组成。组成HTML文件的元素有多种,他们用于组织文件的内容和控制文件的输出格式。绝大多数元素是以一个其实标记开始,一个结尾标记结束,其实标记和结尾标记之间的部分是元素体。每一个元素都有名称和一些可选的属性,这些都在起始标记内标明。HTML文件经过浏览器解析后,转换成可视化的Web页
21、面。搜索引擎通过网络爬虫获取这些HTML文件后,通过程序分析其中的内容,就可以构造搜索了。在实际项目中,最常用的就是用正则表达式或HTMLParser来提取额网页的内容。使用HTMLParser从复杂的HTML页面中解析出来需要的文本信息,是其中很重要的内容。(1)正则表达式:正则表达实施功能强大的文本分析工具,在不同语言中都得到了体现。正则表达式是一种用来描述字符串集合的方法,通常使用一系列特殊字符形成字符串模版。正则表达式通过自定义的正则模式去精确的提取文本信息,但需要写大量的正则表达式,编写和调试正则表达式是一个繁琐的过程。(2)HTMLParser:HTML是一个开源的Java库,提供
22、借口、支持线性和嵌套的解析HTML文本。HTML提供了提取文本信息的API,是搜索引擎开发者拜托了繁琐的正则匹配过程,只需要通过这些API,就可以方便的提取额特定文本,打打提高工作效率。1.5 本文的研究重点,系统结构及内容本文要实现一个BS架构的图像检索系统,主要实现该检索系统的网络爬虫及网页信息提取部分,并建立一个简单的Web系统,整合下载的网页,图片及网页分析得到的文本信息形成一个图像检索系统。综合运用java语言,图像检索,网络爬虫,网页分析及Web开发等相关技术。系统结构:图1-1 图像检索系统结构图本文共分为五章,其内容是这样安排的:第一章 ,文献综述:介绍图像检索的意义,国内外发
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图像 检索系统 设计 实现