基于Web的FTP搜索引擎系统的设计与实现.doc
《基于Web的FTP搜索引擎系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《基于Web的FTP搜索引擎系统的设计与实现.doc(29页珍藏版)》请在沃文网上搜索。
1、海量的基于Web的FTP搜索引擎系统的设计与实现摘要在因特网上对众多FTP站点进行快速的文件条目查找,是网络信息搜索的重要组成部分。本文以“天网”FTP搜索引擎为例,介绍了千万级基于WEB的强大的FTP搜索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法。关键词 FTP, 搜索引擎,WWWl AbstractFTP Search Engine is a powerful tool to search useful files for users from various resourceful FTP sites. In this paper, mainly described are
2、 the design and implementation of our FTP search engine, as well as the key technologies and methods we adopt.l Keyword FTP, Search Engine, World Wide Web目 录一、 引言.4二、 搜索引擎的历史与发展4a) 搜索引擎的起源4b) 真正意义的搜索引擎.4 c) Ftp的搜索引擎.5I、基于文本的ftp搜索引擎:Archie。.5II、基于Web的Ftp搜索引擎。5三、 天网ftp搜索引擎的现状.5a) 天网Ftp搜索产生的起源与发展历史。.5b
3、) 天网ftp搜索引擎的现状6i. 提供的功能61. 文件类型的分类.62. 时间过滤63. 大小过滤64. 精确匹配65. 站点限制66. 结果中查询功能.67. 支持常用的*,?,与,并 操作.78. 多语言版本79. 快捷方式系统.7ii. 数据量.71. 站点数量在3000以上72.文件条目1300万左右73. 快捷方式约一千条.7iii. 访问量.71. 日页面下载量在3万左右.72. 日访问人数在1.5万以上8四、 海量ftp搜索引擎的系统结构设计.9a) 系统的结构设计:四大模块和五个数据库9b) 数据库功能和结构说明10i. 文件类型库.10ii. 站点列表库11iii. 素材
4、数据库11iv. 索引数据库12v. 快捷方式数据库13c) 搜集建库模块.14i. 搜集建库过程说明.14ii. 站点获得策略14iii. 并发搜集策略15iv. 分布搜集策略15v. 多次尝试和断点续搜.15vi. 线性的建库过程.15vii. 数据库的切换16d) 搜索服务模块.16i. 搜索服务过程说明16ii. 服务接口说明17iii. 匹配算法.17iv. Cache策略18v. 强大的过滤功能的实现.181. 文件类别过滤182. 文件大小过滤183. 文件最后修改时间过滤.184. 站点过滤185. 精确匹配18vi. 对“与”、“并”、*、?操作以及结果中再搜索的支持19e)
5、 WWW搜索界面.20i. CGI参数说明20ii. 智能的换页机制20iii. 使用结果页面模板.21iv. 多语言版本的支持.21v. 漂亮、实用的结果输出页面.22vi. 为支持分布搜索的改进.221. 使用多服务器的可能性和必要性.222. 分布搜索的实现.223. 对分布搜索的加速.23f) 支持多媒体文件的特别处理技术23i. 多媒体文件条目的文件名特殊性以及查询特殊性23ii. 一种比较有效的处理技术.23iii. 在建库模块的改动.23iv. 在CGI模块的改动24g) 快捷方式系统24i. 使用快捷方式的原因.24ii. 快捷方式系统的关系图.24iii. 文件分类类别层次的
6、显示.25iv. 快捷方式条目的显示.25v. 注册新的软件26vi. 过滤用户注册的快捷方式26vii. 管理快捷方式系统.26五、 天网ftp搜索与国内国际Ftp搜索引擎的比较.26a) 国内国际ftp搜索引擎系统按原型分类说明:.26b) 功能比较:27c) 数据量比较:28d) 速度比较:28六、 天网Ftp搜索引擎未来的发展.28七、 结束语.29一、 引言今天搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索的服务,他们的涉及面越来越广,也越来越有用。比如,Yahoo!注重的是网站分类归总服务,而如Al
7、ta Vista,Excite等则注重提供庞大的搜索数据库。根据中国互联网络信息中心(CNNIC)有关中国Internet发展状况统计报告,搜索引擎是除电子邮件以外网民使用最多的服务。面对浩如烟海的网络信息资源,网络搜索与导航已成为网络用户必不可少的工具。与相对众多的WWW搜索引擎相比,功能强大的FTP搜索引擎并不常见,由此限制了人们对具有大量信息与资源的FTP站点的访问。实现一个高速、海量、功能强大而又基于WEB的FTP搜索引擎将为网络用户提供极大方便。为此,北京大学计算机系网络与分布式系统领域最新开发出了“天网”FTP搜索引擎,并已作为“天网”中、英文搜索引擎1, 2的一个子系统在网上提供
8、服务, 获得了广大用户的一致好评。本文将从“天网”FTP搜索引擎的系统结构与算法出发阐述一种千万级FTP搜索引擎的设计与实现的方案。二、 搜索引擎的历史与发展a) 搜索引擎的起源1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式。而在同一年还出现了另外一个信息搜索系统,这是我们所称之为的GOPHER。Gopher 是一种按菜单形式组织的分布式文档查询系统 , 最初在 Minnesota大学发展起来(1991年), 开始用于校园网, 后来推广到Internet. Gopher为用户查询信息提供一个多级的菜单界面, 只需按照菜单指示的路径就能获取你想要的
9、信息, 使用非常方便. Gopher由 Gopher客户(Gopher Client)程序和Gopher服务器(Gopher Server)程序两部分组成. 在Internet上建立了数以千计的运行Gopher服务器程序的 Gopher 服务器. 它们是一些能为用户提供信息查询服务的计算机系统. 到1995年初的统计, 约有 6, 000主机安装了Gopher Server, 遍及全世界 100多个国家. 绝大多数 Gopher 服务器都是向 所有Internet用户开放的. Gopher系统的主要信息形式是正文文件. 信息文件可能驻留在不同的计算机上, 通过目录结构把它们链接在一起. 一个
10、Gopher 服务器的所有信息文件组成一棵信息树. 由于这种链接是透明的, 用户查询时可以在信息树之间自由穿越, 不必考虑信息的物理位置. Gopher 客户程序是用户端的信息浏览程序, 用于同Gopher Server进行对话. 用户查询时, 通过Client对Server发出查询请求; Server接收这种请求并把查询结果送回Client. 任何一台能够通过某种方式与Internet连接的计算机, 都可以通过一定方法成为 Gopher client .b) 真正意义的搜索引擎最早的真正意义上的搜索引擎是Lycos,创建于1994年的春天,当时Michael Mauldin将John Lea
11、vitt的spider程序接入到其索引程序中。Yahoo!也是在当年成立的。而NCSA Mosaic出现在1993年,Netscape出现在1994年。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。搜索引擎除了全文检索系统之外,还要有“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见互联网搜索引擎系统。c) Ftp的
12、搜索引擎I、基于文本的ftp搜索引擎:Archie。Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。 使用Archie服务器有三条途径,常用到的是:通过远程登录到Archie主机,用Archie作为登录名。一旦登录成功,一个Archie程序将自动执行,这时一次输入一条命令,告诉Archie想查寻的内容,Archie将检索自己的数据库并显示检索的结果。如果用户对自
13、己想要的东西并不太清楚,Archie还提供“whatis”服务项目,该服务提供成千上万个程序、数据文件和文档的简短说明。 II、基于Web的Ftp搜索引擎。WWW的出现改变了Archie在文件搜索方面的统治地位,在美观、方便的WWW页面上搜索ftp文件成为用户的一大需求。在功能上,基于Web的ftp搜索引擎实现的功能与Archie基本一样,都是对用户提交的查询匹配串找到可以下载的ftp站点链接。但基于Web的ftp搜索引擎也有很多特色的功能,比如天网ftp搜索引擎的文件分类功能等等。基于Web的ftp搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider自动收集数据,采用倒排索引,智能
14、换页链接技术以及大型ftp搜索引擎必须采用的分布收集和服务技术。目前国内国际ftp搜索引擎已有不少,但在系统底层上有区别的只有几种,其中较为有名的有北京大学天网搜索引擎的ftp子系统,华南木棉的ftp搜索系统,号称全球最大的ftp搜索引擎的,以及使用的的fastftpsearch,小型网站常使用的NOSEY PARKER系统以及其他一些搜索引擎。三、 天网ftp搜索引擎的现状a) 天网Ftp搜索产生的起源与发展历史。在天网1.0系统里,有一个简单的ftp搜索引擎,它只扫描几个教育网的ftp站点,算法上基本由unix命令组成,只能提供简单的字符匹配功能,而且界面很简单。由于用户对ftp搜索的需求
15、增加,我们在1999年秋开始了ftp搜索引擎的项目,并于2000年春交付了一个可以服务的百万级ftp搜索引擎,它搜索了30多个站点,提供150万的文件条目检索。根据用户反馈和用户查询行为的分析,经过不断改进,在2000年秋ftp搜索引擎和天网的www搜索引擎同时升级并更换主页界面,提供了更为人性化的查询界面和结果界面,系统也更为稳定健壮。2000年冬,天网ftp搜索引擎开始进行从百万级到千万级的改变。直到2001年春,一个搜索了国内3000多个ftp站点,提供1300万文件条目索引,并有分类快捷方式系统的全新的天网ftp搜索引擎提供服务了。b) 天网ftp搜索引擎的现状i. 提供的功能天网Ft
16、p搜索引擎与其它ftp搜索引擎相比,最大的特点就在于它的功能强大。尤其其中的文件类型过滤和快捷方式系统是所有ftp搜索引擎中独有的。目前天网ftp所提供的各种功能包括:1. 文件类型的分类目前文件类型分类分成图象、声音、视频、压缩、文档、程序、源代码、目录等。文件分类的标准是按文件的扩展名。由于天网Ftp搜索引擎有特有的文件分类功能,使得我们在搜索时精确度更高,比如要查电影“垂直极限”,只需输入名字“垂直极限”,选择“视频”类型,则各种文件类型的“垂直极限”的下载都找出来了。如果没有类型过滤,则如果用户输入过于简单的话,可能查出的结果未必都是电影,如果用户输入包括了扩展名的话,则查询结果显然又
17、少了很多,而且非计算机专业用户往往并不知道某个文件类的扩展名有些什么。另外,在搜索的结果页面里,天网ftp搜索引擎使用了生动的图标区分各个类型的文件,使得文件所属类型一目了然。文件分类已经成为了天网搜索引擎最强大又最有特色的功能。2. 时间过滤可以精确到年月日的文件最后修改时间过滤。这个功能在寻找特定时间的文件时很有用。3. 大小过滤这个功能与文件类型过滤功能的集合,可以帮助寻找特定类型的文件。比如同为“.dat”文件,有的是电影格式,有的是普通的数据文件。但一般而言,大于40M的“.dat”文件应该是电影。当我们加上这个限制的时候,也就可以找到扩展名为“.dat”的电影了。4. 精确匹配精确
18、匹配对于查找短文件名的文件比较方便,系统缺省使用是子串匹配,因为子串匹配更符合普通人的思维。5. 站点限制在天网搜索的3000多个站点里,用户可以选择其中的某个站点,仅仅对其中的文件进行查找。这个功能使得用户可以只搜对他(她)而言比较快的FTP站点,或他(她)比较喜欢的站点。6. 结果中查询功能很多WWW搜索引擎支持结果中查询的功能,但大部分Ftp搜索引擎并不支持结果中查询。天网Ftp搜索引擎采用巧妙的算法实现了结果中查询的功能,使用户可以逐步缩小搜索范围,最终得到想要的结果。7. 支持常用的*,?,与,并 操作由于大部分用户的查询都不是十分精确的,*,?,与,并 这四个操作就显得十分重要。与
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web FTP 搜索引擎 系统 设计 实现