Griddaen数据网格系统的设计与关键技术实现.doc
《Griddaen数据网格系统的设计与关键技术实现.doc》由会员分享,可在线阅读,更多相关《Griddaen数据网格系统的设计与关键技术实现.doc(15页珍藏版)》请在沃文网上搜索。
1、摘要:科学计算领域中的科学数据呈现爆炸式增长,未来的科学计算将以数据为中心,数据网格计算技术成为解决复杂海量科学数据的访问和管理的一种有效技术。我们设计和实现的Griddaen数据网格系统,可以管理多个分布异构的存储资源的数据,为用户提供统一的数据访问。本文重点介绍了我们设计的数据网格系统体系结构,以及系统的设计原则和目标,并讨论了系统主要关键技术的实现。关键字 网格、Griddaen,数据网格,GridOppenKeywords: Grid Computing, Griddaen, DataGrid, GridOppen1. 1. 前言由于技术的发展,现代大型科学工程研究、信息服务和数字媒体
2、应用中的数据呈爆炸式增长,应用数据从几十个Terabyte到Petabyte,而且还在持续高速的增长,数据已经成为一个重要的资源,例如:全球气候模拟、高能物理、生物计算、战场仿真、核模拟,数字地球、电子商务、电子政务、数字媒体等应用,它们的数据量将达到几十个TeraByte至PetaByte的级别,地理上广泛分布的用户都希望能够访问、分析和使用这些庞大的分布数据,而他们的分析方法往往是计算复杂和计算量大,这种结合海量数据集合、地理上分布的用户和资源,以及计算密集型的分析处理应用导致了现有的数据管理体系结构、方法和技术已经不能满足高性能、大容量分布存储和分布处理能力的要求,如何存储、分发、组织和
3、管理、高性能处理、分析和挖掘海量分布数据成为许多应用的首要问题。数据网格技术1的发展为解决这个问题提供了一条有效的技术途径,它通过开发能够集成网络上分布的多个数据集等资源,形成单一虚拟的数据访问、管理和处理环境,为用户屏蔽底层异构的物理资源,建立分布海量数据的一体化数据访问、存储、传输、管理与服务架构。Griddaen 是我们设计和实现的Gridoppen网格系统中支持数据网格功能的系统部分,它集成各种数据文件存储系统,提供一个分布数据的统一无缝访问方式。Griddaen 采用分布多域联邦服务器和高可用技术,支持虚拟文件集合和数据集合,支持系统的数据副本和Cache机制,以提高分布异构存储系统
4、数据的访问性能。文章第二部分介绍数据网格发展现状和相关工作,第三部分介绍Griddaen 数据网格系统的结构和框架,第四部分给出其主要设计策略和关键技术实现,第五部分给出系统的应用实例和使用界面,在最后对各个数据网格项目的分析和比较,并描述了系统的状态和将来的工作。2. 2. 相关工作数据网格系统技术的发展非常迅速,对科学数据的访问和管理成为众多项目的研究目标。欧洲数据网格2的目标是以欧洲粒子中心(CERN)从Terabyte到Petabyte规模数据为中心,为世界范围内分布的科研团体提供的数据分布存储、传输和计算密集型分析处理的能力,以进行科学研究,开展面向高能物理学、地球观测、生物信息学等
5、应用的研究工作,研究内容主要包括:数据访问、数据副本管理、元数据管理、数据安全、查询优化、资源调度和管理等,采用Globus、面向对象数据库、网格数据库服务系统等技术,构建一个包括软硬件的网格环境。SpitFire3是其数据库访问接口ODBC的Grid service的实现,OGSA-DAI正在讨论网格和数据库系统,特别是联邦数据库系统技术的结合。美国GriPhyN4系统提出应用虚拟数据的概念和语言,描述如何通过计算获得并使用派生信息和数据,这是为系统访问远程数据还是通过计算获得,或者获取他人计算处理过程符合自己需求的数据等情况提供决策依据,为数据的自动生成和再生成提供较完整的系统方法。SDS
6、C的SRB5提高了一套在分布环境下统一访问异构存储系统上的数据的中间件系统,包括文件系统、数据库、文档系统等,为上层应用/用户提供透明的数据服务,SRB采用了集中式的元数据目录MCAT服务广域的数据访问和管理,最初并不支持网格环境下使用,为了支持数据网格的特点,已经进行了改进,正在进行分布设计和实现,对多域管理环境进行支持,主要以对文件的访问为主。Punch Virtual File System(PVFS)6采用代理机制接受NFS Client的请求,经过处理分析,访问NFS系统的服务端数据,实现了多个NFS系统的数据统一访问。Globus7系统使用了标准的协议实现了文件数据的移动和远程访问
7、GASS7和数据的高速传输Gridftp8基本机制,在此基础上实现数据复制元数据目录的管理和复制的选择,为数据网格系统提供了一个较好的底层系统开发平台。Avaki9数据网格系统采用了面向对象的方式实现对多个域环境下的NFS文件系统的数据进行访问,提供了统一的安全认证,支持数据复制管理。Griddaen 和SRB系统、Avaki的数据网格系统的目标基本一致,实现了系统的全局命名、统一文件数据访问、单一登录等,系统元数据采用多层次分布结构和独立服务机制,可以较灵活的配置,整个系统采用分布联邦多域服务器技术和请求优化技术,具有可扩展性和高可用性,采用复制和Cache机制最大限度减少用户访问数据所需的
8、性能开销,采用了基于角色和多层次别访问控制,实现系统的全局管理。3. 3. Griddaen系统结构和设计Griddaen 数据网格能够集成广域网环境下异构的各种存储资源,例如Linux、Windows等单机文件系统、NFS等网络文件系统以及数据库系统等,并将它们统一组织起来,通过系统提供的数据访问和管理服务屏蔽底层存储资源异构性和多个管理域,为用户提供直观、一体化的文件视图和方便、规范的访问和操作方法。系统的服务逻辑功能如图1所示:Griddaen 数据网格作为系统中间件,是一个三层结构,第一层是各种面向具体存储资源的访问接口,直接面向底层的数据存储资源和元信息资源,包括各种文件系统和数据库
9、系统,采用各个存储系统支持的访问和驱动协议和方法访问和使用这些系统中的数据;第二层是数据网格系统管理多个数据源进行统一访问管理提供的各种核心服务,主要包括资源聚合器、数据服务、元数据服务、安全和系统管理;第三层是数据网格面向用户提供的数据服务使用界面和接口。其核心是第二层的服务层。资源聚合器主要面向计算、设备等资源的接入、监控和调度管理,支持计算网格所需功能,这里不重点描述;数据服务模块主要提供数据的访问优化、调度和服务,管理分布异构存储资源上的数据为一体,提供数据的统一访问,允许数据的高速传送、复制操作和副本管理,以及虚拟数据管理;元数据服务为系统提供全局资源的信息服务,提供数据的定位和属性
10、查找,数据的注册和发布,系统资源信息的查询和维护,安全和授权信息和用户元信息的访问和管理,副本信息的管理和选择,为用户和系统提供一个元信息的访问接口和访问协议。安全服务主要支持单一登录认证和多层次的访问控制和授权机制。系统管理主要实现网格系统用户的建立和删除,系统的配置和部署,以及全网格系统状态的监控。Griddaen主要由DRB服务和元数据服务器MDS等组成,见图2。DRB(data Request Broker)服务为用户提供数据访问、存储和管理的功能,它采用分布式结构设计,每一个SITE管理域有一个DRB服务器独立地提供数据访问服务,当用户请求时,DRB Master产生DRB Prox
11、y为用户提供各种数据操作服务。分布的DRB之间可以协同工作联合提供数据服务。DRB对用户的应用请求进行分析并调度到合适的存储资源,启动相应存储点的DRB进行数据服务,为用户提供数据操作和管理服务,DRB获取数据以后,采用高速的数据传输协议直接向客户端发送数据, MDS(MetaData Server)元数据服务器是一个层次式分布服务结构,由局部元信息服务器和中央全局元信息服务器组成,各个局部元数据服务器负责所对应本地的资源和数据元信息服务,提供元信息服务的访问,中央服务器建立各个局部元信息的索引和数据缓冲,为DRB实现统一的访问接口和全局数据视图提供元信息支持。MDS和DRB是相互独立设计和实
12、现的,通过系统的部署和配置建立服务关系。Unix, NTDB2, Oracle, HPSS, UniTree, DMF 存储资源DB2, Oracle, Sybase, SQLServer安全服务认证授权用户映射计费元数据服务数据元信息访问与管理用户管理系统信息访问与管理数据服务访问分发远程数据访问数据传输与操作数据缓冲复制系统管理系统配置管理系统监控统一操作接口和全局操作视图文档系统访问接口文件系统访问接口数据库访问接口元信息访问接口客户副本管理与选择资源和数据代理计算资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入数据注册发布管理Unix, NTDB2, Oracle, HPSS
13、, UniTree, DMF 存储资源DB2, Oracle, Sybase, SQLServer安全服务认证授权用户映射计费元数据服务数据元信息访问与管理用户管理系统信息访问与管理数据服务访问分发远程数据访问数据传输与操作数据缓冲复制系统管理系统配置管理系统监控统一操作接口和全局操作视图文档系统访问接口文件系统访问接口数据库访问接口元信息访问接口客户副本管理与选择资源和数据代理计算资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入数据注册发布管理图1Griddaen系统总体功能服务逻辑图图2 Griddaen系统结构图从应用需
14、求出发,面向广域的异构环境Griddaen 数据网格系统的设计要达到以下几个目标:l l 命名的透明性:网格中的数据单元成千上万且地理上分布,Griddaen采用三种命名空间对数据资源进行命名,允许用户使用一种单一的全局名字机制访问和操作数据,而不需要用户直接使用底层物理存储资源命名、发现和访问机制,。l l 数据分布协同服务:多个DRB之间协同工作,用户可以请求任何一个联邦多域服务器DRB,给出某个特定数据集的标识,Griddaen 调度到合适的DRB提供数据访问操作服务,并能够协调其它DRB联合提供服务,以方便用户访问和使用位于不同节点上的多个数据资源。l l 全局统一视图和一体化操作界面
15、:系统支持各种异构的资源和数据的全局命名和统一的视图,用户通过GUI界面所见都是虚拟的数据资源,系统对资源和数据进行统一命名,并将底层的异构性完全屏蔽。用户只需通过一个标准的API接口,l l 统一的数据访问:抽象存储访问接口,屏蔽底层的存储协议和格式,选择合适的访问协议和接口来实现用户统一的数据访问请求;l l 可扩展性和高可用性:网格系统中数据可以分布在系统中任何一台机器上,Griddaen采用分布设计结构,系统能够支持数据动态的扩展而保持系统的性能,一个Site的DRB和局部元信息服务都可以独立服务,若其出现故障,不会导致系统中其它DRB系统的服务崩溃,此外如果一个节点上的数据不可用,系
16、统可以自动找到包含其副本的其它节点,实现系统高可用性和容错;l l Cache和副本管理机制:Griddaen支持数据的拷贝和移动,缓冲或复制数据,使得从不同访问点的访问可以根据系统状况从最近的节点获取数据,减少数据访问的时间,防止单个数据资源成为瓶颈,实现系统的负载平衡,尽量提高网格中远程数据访问的效率;: l l 安全:保证多系统的安全访问控制策略,实现系统的单一登录;l l 跨域的管理:支持对多域系统的数据和资源在保持局部自治情况下进行统一的全局系统管理、统一的配置和部署。4. 4. 关键技术实现Griddaen主要使用Java语言实现,使用了Globus系统中的一些功能,采用关系型数据
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Griddaen 数据 网格 系统 设计 关键技术 实现
