InfoMall数据检索服务的设计以及全文检索系统的初步实现.doc
《InfoMall数据检索服务的设计以及全文检索系统的初步实现.doc》由会员分享,可在线阅读,更多相关《InfoMall数据检索服务的设计以及全文检索系统的初步实现.doc(28页珍藏版)》请在沃文网上搜索。
1、摘要中国Web信息博物馆是北京大学网络实验室研究和开发的中国万维网(World Wide Web)历史信息的存储和展示系统。但现有系统提供的服务不能满足用户对宝贵的历史网页数据的信息需求,因而限制了它的广泛使用。本文试图从实际出发,探讨和尝试如何利用保存下来历史网页数据提供公共信息服务。本文通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。例如,利用我们提供的服务,用户可以查询“1997年2月到2005年2月期间内蒙古自治区范围内所有*域名下内容包含民主的网页文档的全文”。本文
2、设计和实现了InfoMall数据检索服务的系统组成中的主要模块全文索引系统。我们主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。关键词InfoMall,历史网页,信息检索,倒排文件,索引AbstractWeb InfoMall is a digital library to store web pages of Chinese World Wide Web periodically and exhibit them to people online, which is designed and developed by Computer
3、Network and Distributed Systems Laboratory of Peking University. However current available services are too limited to meet users information needs and prevent it from being widely used. That is a great waste of the valuable archaic web pages. In this article, we present our ideas of how to use thes
4、e archaic web pages to provide information service to public.In this article, we analyzed the users information needs and designed a powerful service called InfoMall Data Retrieval Service, using a three-dimensional model based on time, space and content. We specified the syntax of query and designe
5、d the component of the system. In addition, we designed and implement the full text retrieval system that is a key component of InfoMall Data Retrieval Service, which is designed to be both flexibility and spacial effective.KeywordsInfoMall, archaic web pages, information retrieval, inverted file, i
6、ndex目录论文评定i摘要ii关键词iiAbstractiiiKeywordsiii目录iv1引言11.1背景11.2相关工作21.3本文贡献22数据检索服务的设计32.1数据模型32.2服务52.3服务原语62.4数据传输协议82.5系统组成模块83全文检索系统设计和实现93.1系统设计目标93.2系统结构和处理流程113.3系统设计决策133.4重要的数据结构和算法143.4.1词典结构143.4.2倒排文件索引项143.4.3倒排文件索引构建算法153.5索引数据压缩163.5.1压缩编码163.5.2同步点问题193.5.3减小索引空间的进一步改进204总结和未来工作展望20参考文献2
7、1致谢23- iv -1 引言1.1 背景中国Web信息博物馆(InfoMall)16是在国家973和985项目支持下,北京大学网络实验室研究和开发的中国万维网(World Wide Web)历史信息的存储和展示系统。它以“天网”搜索引擎17为基础,存储其搜集来的网页(以中文网页为主)。目前,InfoMall维护2001年以来从中国万维网上搜集的近12亿篇网页(约20TeraByte),并且网页数量以每月1000万的速度增长(20TB和1000万,这两个数字准吗?)。存储历史网页可以做什么呢?文献1中认为,保存Web不仅是对人类精神财富的保护,还具有重要的史料价值。我们希望利用这些宝贵的数据,
8、结合海量索引,网页再现,海量信息检索,网页建模,海量信息分类,数据挖掘等信息技术,不仅从中提取和检索有用的信息,而且能挖掘出有意义的社会现象和其背后的规律,甚至为社会科学研究开辟一条新路。InfoMall目前提供三项简单的服务。通过浏览器界面,用户可以根据URL检索历史网页,浏览该URL的历史网页,并顺着超链接浏览和体验已经消失的过去的万维网。第二,提供人工整理的历史事件专题回放,集中展示媒体和社会舆论对某个重要历史事件的报道和剖析。另外,InfoMall还提供数据申请服务,任何研究机构根据一定的协议都可以申请免费使用InfoMall历史网页数据和搜索引擎用户查询日志数据18,然后通过硬拷贝的
9、方式得到数据。但这些简单的服务还远远不够。目前整理历史事件专题需要大量的人工工作,所以提供的专题数量有限,而且整理出来的专题受创建者个人偏好的影响,不一定是大多数用户所关心的。尽管我们尝试让用户自己定制和分享自己关心的专题19,但利用现有的服务,用户只能根据已有的对某些万维网站点URL的了解得到网页,而很难通过内容定位到包含特定网页,所以制作专题过程仍然需要用户大量的时间和精力。我们希望把现有服务整合起来,并通过统一的数据访问接口,提供更加丰富,更加自动和便利的数据服务。1.2 相关工作随着万维网的蓬勃发胀,人们越来越认识到保存万维网历史的重要性和紧迫性。在国外,Internet Archiv
10、e13保存了从1996年以来近400亿篇历史网页,并提供类似InfoMall的服务。Witten等人的著作“Managing Gigabytes: Compressing and Indexing Documents and Images”5对文档压缩方法,索引构建算法,索引压缩方法做了全面细致的比较和研究,是文本信息处理的权威著作。北京大学天网组的研究人员对于海量信息的存储、检索和服务做了大量深入细致的研究工作。黄连恩等设计实现了InfoMall历史网页存储系统,使得网页搜集器搜集的数据得以保存,并提供目前的服务。赵江华在文献12中对信息检索的基本问题做了介绍,对分布式检索系统设计与实现,尤
11、其是索引数据的组织方式做了全面的阐述。彭波在文献20中提出了一种混合索引技术和倒排文件分块组织方法,并对倒排文件缓存、搜索引擎检索效果评估方法等做了探讨研究。朱家稷在21中利用一种基于多维的Web分析模型对Web资源分布特性进行分析,得到很多有益的结论。本文的工作很多都是基于他们的研究工作基础之上的。1.3 本文贡献万维网在人们生活中扮演着越来越重要的角色,随着万维网信息量的不断膨胀,搜索引擎显现出它无可替代的应用价值和随之产生的商业契机。研究机构和商业公司都对Web信息检索的研究投入了大量的精力,但对于如何保存易失的以网页为载体的宝贵信息,如何利用这些信息提供公共信息服务却没有给予充分的重视
12、。本文试图从实际出发,对这一课题做了一些有益的探讨和尝试。本文第二部分在对InfoMall系统数据和应用前景细致分析的基础上,提出和定义了InfoMall数据检索服务,定义了服务原语,设计了服务的实现。本文的第三部分重点讨论了利用压缩技术减少全文索引的倒排文件索引的大小,为海量历史网页数据的检索服务提供现实可行的基础设施保障。2 数据检索服务的设计2.1 数据模型InfoMall历史网页数据不同于搜索引擎的数据。搜索引擎的索引数据是在一次集中的网页抓取动作中收集来的,时间跨度较小,可以认为,它是整个万维网在某个时间点的一个“快照”。对于网页链接进行分析以改进检索效果的技术都基于这种假设。实际上
13、在网页搜集期间可能有网页的生成、湮灭和变化,网页之间链接的生成、湮灭和变化,只是对于一般的分析来说,这种变化相对整个万维网结构的影响可以忽略不计。但InfoMall定期存储从万维网上抓取得网页,我们必须考虑相同网页(具有相同URL)在时间跨度上可以有不同的版本,而且这一特性正是这种数据的价值所在。文献21在研究万维网的资源分布特点时将其从空间、时间、内容三个维度来分析和考察。这一模型可以作为考察历史网页数据时的一种有效的模型,如图1所示。时间空间内容(日、月、年)(地区、主机、URL)(文档向量、特征向量、主题)图1对于每个维的属性在考察时可以进行分层,相应的可以有不同的考察粒度。“粒度是指数
14、据单元的细节程度或综合程度的级别。细节程度越高,粒度级别就越低21”。比如,在内容维,我们可以按照向量空间模型(vector space model)6将一篇文档内容视为一个在整个字典空间中的一个向量。也可以通过对文档内容的分析提取文档的“特征向量”来表示一篇文档。甚至只根据文档内容归属的类别来粗略的表示文档的内容。其他两个维度也可以类似的方法进行不同粒度的考察。另一方面,研究者通常将万维网抽象为一个有向图。有向图中以网页文档为顶点,以网页之间的相互链接关系为有向边。如图2所示为一个具有六个网页的万维网结构图。图2当我们引入时间维之后,万维网可以抽象为一个随着时间动态变化的有向图,这些“平面的
15、”有向图组合成为一个“立体的”图结构(当然它实际上也可以视为一个普通的有向图来研究)。图3为考察网页在三个不同时间点的情形得到的万维网历史结构图。时间图3t1t2t3在万维网历史结构图中,同一个网页过去版本和现在版本之间有一条边连接起来。从图中我们可以看出网页的产生、湮灭、变化,以及链接关系的产生、湮灭和变化。这种动态的万维网结构图不仅可以用来分析万维网结构特性,研究万维网的演变特点、万维网的资源分布特性,而且可以利用这些信息研究新的历史网页文档的检索算法,从海量的网页信息中有效的检索到相关网页文档。InfoMall存档的历史网页数据实际上完整的保留了这样一个复杂的图结构,我们面临的问题就是如
16、何建立和发掘这个图结构以提供高质量的数据检索服务,为进一步的数据挖掘提供基础设施。2.2 服务根据以上的数据模型和应用前景,结合对InfoMall申请使用数据需求的分析18,我们认为,InfoMall数据检索服务要提供以InfoMall历史网页文档为核心数据,以内容、空间、时间为查询纬度的,面向高层应用的客户服务器体系结构的数据检索服务。通常,一个现代信息检索系统不仅要对用户提供检索(Retrieval)功能,还要同时支持浏览(Browsing)。但InfoMall服务的对象是高层应用,而不是直接提供给最终用户,所以不提供用户界面(UI,User Interface)。高层应用利用得到的数据可
17、以进行各种研究和应用,例如提供高质量的信息检索,利用数据库技术进行数据挖掘等等。从内容维上讲,以网页文档为中心,指充分利用InfoMall珍贵的历史网页数据,提供以单篇文档为内容服务粒度,以词级布尔查询为最小查询粒度的数据服务。例如,用户可以查询“包含领袖、北大两个词的所有网页的网页全文”。除了网页文档以外,也考虑提供对查询日志的检索服务,但它的数据格式可以用传统的数据库技术提供服务。检索的返回结果可以有两种类型:网页原文或排序元数据。排序元数据指为了使用某种特定的排序算法对检索结果进行排序而需要得到的关于检索词和检索文档集的统计信息,且这些信息不能通过文档集的任何一个子集来得到。比如,为了支
18、持基于向量空间模型的文档排序算法,我们需要提供索引词词频(tf,term frequency),索引词文档频率(df,document frequency);为了支持7提出的网页排序算法,我们需要提供PageRank值,词在文档中的位置信息(proximity)等。只通过单篇文档可以获得的特性不属于排序原数据。从时间维上讲,提供以某个时间段为查找范围的历史网页查询服务。但是这里的最小查询粒度受网页搜集系统搜集频率和存档频率的影响。例如,天网搜索引擎的搜集系统目前对中国万维网进行一轮全面的搜集需要大约20天的时间。所以一般地,时间粒度无法小于这个时间间隔。不过可以通过改造搜集系统,针对特定用户的
19、需求对某个空间纬度上万维网的特定区域进行高频率的搜集,以提供更小空间粒度的查询需求。从空间纬上讲,提供以URL或者物理位置为限定的历史网页查询服务。例如,用户可以查询“1997年以来北京市范围万维网上的所有网页”,或者“1997年1月到1998年1月域名下的所有网页”。2.3 服务原语检索服务的用户需要通过某种数据查询语句来描述信息需求。根据以上的数据模型和服务定义,我们参考SQL语言的查询语言部分,定义检索服务原语如表1中所示(使用Augmented BNF9语法)。 = “select” “from” “where” 1* “max” = “IR-metadata” / “Web-page
20、s” = = any legal URL according with RFC1738 syntax = / / = “content” “contains” 1* = any legal Chinese character string = “time” “between” and = any legal formatted string according with iso8601 = “location” “at” = / = “URL:” = “GEO:” = any legal code accord with GB2260 = any decimal number表1说明:的表示采
21、用国际标准ISO86017中定义的时间日期的表示格式。这种格式兼顾了可读性和机器处理的方便性。例如,2000年1月30日8点30分59秒可以表示为”2000-01-30 08:30:59”。为RFC173810规定的统一资源定位符。表示处理请求的服务器的URL。因为将来InfoMall数据检索服务系统可以实现为一个分布式系统,可以同时向多个服务器发出请求,所以请求中要指明由哪个服务器处理请求。多个服务节点直接也可以用类似的原语传递数据。URL中的协议部分表示数据传输所使用的协议,随着InfoMall数据检索服务的发展和改进,使用的数据传输协议可以变化。布尔查询只支持“与”操作,因为InfoMa
22、ll数据量如此庞大,提供“或”、“非”操作是不现实的,也没有应用需求。当然,用户可以在现有服务的基础上实现这些操作。指明要检索的数据类型,也就是检索结果的类型。“IR-metadata”表示要求返回符合条件的所有网页文档的排序元数据。“Web-pages”表示要求返回符合条件的所有网页文档原文。同样因为数据量的问题,当检索结果类型是网页全文时,结果的传输需要很长的传输时间。我们用表示结果所包含的最大条目个数。如果用户不指定,系统也要有一个默认的值。地区编码采用中国国家标准GB2260-8411规定的中国地区编码。这样可以借助标准化数据带来的好处为客户提供统一灵活的服务。例如,150000代表内
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- InfoMall 数据 检索 服务 设计 以及 全文 检索系统 初步 实现