毕业论文论文范文课程设计实践报告法律论文英语论文教学论文医学论文农学论文艺术论文行政论文管理论文计算机安全
您现在的位置: 毕业论文 >> 计算机安全 >> 正文

基于XML异构数据源集成的研究

更新时间:2015-9-19:  来源:毕业论文
基于XML异构数据源集成的研究
摘要:针对异构数据集成过程中的模式转换问题,提出一种XML模式与关系库模式的转化方法,通过定义XML Schema与关系模式之间的转换规则,以XML Schema文档树生成的结点树为基础,实现了XML模式与关系模式的映射。该方法的最大特点是它不仅可以反映数据的结构特征,而且还能表示数据的语义约束。
论文关键词:XML模式;关系模式,数据集成,异构数据源
  在企业实施信息化进程中,由于企业内各部门的业务和功能归属不同,以及各企业信息化水平存在差异等原因,造成企业拥有许多相互隔离的、由不同核心技术构建的信息服务和管理系统.系统中数据的表示不同,数据交流效果极差,形成“信息孤岛”,从而使得企业内以及企业间的协作效率与效果很不理想。
  如何将这些异构的数据源集成起来,实现有效的信息查询,就成为了一个迫切需要解决的问题[1]。只有将这些孤立的数据源集成起来,提供给用户一个统一的视图,才能从这些资源数据中获取人们所需要的信息。而为大量各种各样的数据提供某种统一的表示方法无疑是解决问题的关键,这就要求能找到一种标准、开放的数据结构来表示数据信息。XML的出现无疑为异构数据源的集成带来了新的希望。它以一种开放的自我描述方式定义数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。同时,本文对关系数据库的完整性约束进行研究,定义了XML模式和关系数据库模式的映射模型,通过对XML模式[3][4]的简化和扩展,提出了一种能够完成XML模式和关系模式之间转换的解决方案。
  2 XML简介
  XML为可扩展标记语言(Extensible Markup Language)的缩写,是一种具有数据描述功能、高度结构性及可验证性的语言。和HTML一样,XML同样使用标记与属性;和HTML的最大的不同点在于XML的标记与属性允许用户自行定义,并可以按照所定义的标记与属性的语法来开发应用程序,因而具有很好的扩展性。在XML文件中,可以使用标记来描述数据,或配合属性来辅助描述数据,因此XML十分适合用于作为标准的描述语言;由于可以借助验证规则(DTD或XML Schema)来规范一个XML文件的内容与结构,保证XML文档的有效性,所以XML又很适合作为一种数据交换的格式[2]。
  3 基于XML模式的数据源集成解决方案
  3.1 集成策略
  在整体结构上采用“数据交换中心”的思想来有效解决不同企业应用系统之间的协同工作。通过采用统一的数据交换标准,使各应用系统与数据交换中心相连,利用数据交换中心来实现数据共享和路由,由于隔离了数据存储层和应用层,使得应用与其底层的数据结构和存储方式无关,从而不需要对原有业务系统进行改造,也不需要对已有的业务流程重新开发。
  基于数据安全性、系统性能、系统扩展性和实施难度等方面的考虑,整个体系结构在物理拓扑上采用星型结构(如下图所示)。
  3.2 集成框架
  数据交换中心之所以能够交换基于不同操作平台和数据库的数据,主要得益于其对信息的统一表示、完整的消息服务能力以及功能完备的交换平台软件系统。信息的统一表示依靠元语言标准、信息标准、元数据标准、显示标准、解析、转换和封装标准来保证。完整的消息服务能力依靠信息的统一封装、统一编址、信息的可靠性传输、路由管理等技术手段实现。交换平台软件系统一般采用基于基础/中心数据库的数据交换、消息中间件服务器等技术方式。
  以下给出该数据交换中心节点及企业终端节点的框架结构(如下图所示),并对各模块功能予以说明。
  异构数据源
  (1)数据操作引擎:它是负责接收和发送XML数据的平台。
  (2)XML解析器:主要是完成XML模式确认的过程,即测试文档是否符合施加到其文档类型之上的约束条件。
  (3)XML映射器:当企业所用的Schema和交换中心使用的Schema不一致的时候,将用到该功能模块。它首先检查是否有相应的XSLT(可扩展样式表语言)文件,如果有,则直接按该文件的规则把企业的XML转换为标准格式的XML文件;如果没有,则从企业用的Schema中提取出对应的数据格式和数据类型以及字段名,根据业务规则把标准Schema中对应的数据格式、数据类型以及字段名一一映射,系统将按此生成一个XSLT文件并用此文件进行映射。
  (4)XML-based转换器:主要完成XML数据模式与其它相应数据模式(关系模式、HTML文档、文本文件等)的转换。
  (5)XML-based封装器:把经过处理后得到的数据按一定的规则转化为XML文件,并将该XML采用SOAP格式进行封装。
  (6)数据处理器:直接与数据库及其他信息系统进行交互。
  3.3 框架特点
  (1)安全性:该框架采用星型拓扑结构,便于对数据集中管理,实施时可以在数据交换中心制定一套统一的安全管理策略。数据交换发生在这个中心节点上,该节点接收来自各个企业的数据,解析接收到的数据并按数据交换目的地所识别的格式进行转换,然到目的地。通过数据交换中心节点,可以在数据源和目的地之间建立一个透明的安全的数据通道。
  (2)松散耦合和集成:该框架实现了Internet环境下企业应用的松散耦合和集成,使企业可以方便的集成现有的应用并扩展新的应用。基于Web服务的数据交换是一种松散耦合的交换方式,它不依赖于任何一个企业,仅是提供一个方法,该方法在数据的发送者和接收者之间建立一种连接,解析双方的数据模式和数据类型,并在两者之间透明的进行数据的转换和传输。对于数据交换的参与者,无需了解对方的数据模式,所有的交换过程都由该服务的提供者完成。
  4 关系模式与XML模式双向映射方法
  4.1 关系模式到XML模式的映射
  关系模式到XML 模式映射流程如下:
  关系模式到XML 模式映射的主要过程分为如下三个步骤:
  (1)关系模式提取。为了保证数据的完整性,该算法不仅提取了关系模式中的属性,并且根据数据库表的主、外键约束,建立数据库中被共享表之间的关系,并将所有属性和约束以有向图表示。
  (2)关系模式到XML模式的转化。关系模式是对关系的描述,包括关系名,组成该关系的诸属性名,属性向域的映像,属性间的依赖关系等。关系模式具有严格的数学基础,可以看作一种扁平(flat)结构。XML是由多层嵌套的元素所组成的文档结构。XML数据格式是一种层状(hierarchical)的数据格式,目前,有多种模式(包括XML DTD、XML Schema、XDR、SOX、DSD、DCD、DDML等等)用来描述XML的数据结构和约束,但是这些模式都没有严格的数学基础,所以没有统一的数学方法来实现关系模式到XML模式的转化,加之XML模式的多样性,也限制了转化算法的通用性。本文根据所研究的XML异构集成中间件的特点,在充分比较的基础上,选择XML Schema作为目标XML模式。所以本文的关系模式到XML模式的转化,是指关系模式到XML Schema的转化。本文针对数据模式的转化流程,提出并实现了关系模式到XML Schema的保留约束映射算法。该算法通过对关系模式和XML Schema的数学建模,结合有向图理论,实现了关系模式中表、列、列属性、约束到XML Schema的基本映射,结果以XML Schema方式存在。
  (3)结果存储。转化后的XML模式可以采用三种方式进行保存:文件方式,数据库存储XML标记方式和XML模式到关系数据库的映射方式存储。根据研究的现况,本文采用XML模式文件直接存储方式来保存转化结果。
  4.1.1映射模型定义
  本文不但要取得关系模式的结构,还要取得其相关的语义信息,因此映射主要分为两部分结构映射和语义映射。结构映射主要是关系模式中的表及属性列在XML文档中的映射,而语义映射主要包括关系模式中实体完整性、参照完整性的映射,以及用户自定义的完整性的映射,将它们细化为主键、外键的映射,唯一性约束的映射,数据类型的映射,缺省值和数据长度的映射等。在此处采用基于模型驱动的映射方法,将关系模式中的列映射为元素。要完成相应的结构和语义的映射,定义如下规则:
  (1)将数据库名映射为XML文档的根元素,在Schema中就是“schema”元素的子元素。
  (2)建立与表相关的元素。对于与某一个表相关的元素,若该表本身在关系数据库中没有引用其它的表,即原表中没有外键,映射为Schema中的复杂类型的元素。而对于存在外键的表,也是直接映射为复杂类型的元素,但是在定义其类型时要指明其嵌套关系,它们的类型均为复杂类型。
  (3)建立复杂类型元素。每一个表结构对应一个复杂类型,实现了表结构映射的相对独立性。复杂类型中定义的元素可以由表中的各个列和被其嵌套的表组成。
  (4)用户自定义约束的表示。主要是指关系模式中,列的数据类型、列是否可以为空、字符串的最大长度、默认值,对于数据类型可以采用元素的type属性来表示,若是内置的简单类型,并且可以直接设置,若还有某些限制如数据长度等可以用simpleType甚至complexType来定义,而对于元素是否可为空则通过定义属性nullable来判断,其定义为,若是定义属性则必须用复杂类型,可以定义length、maxLength、minLength等属性来表示这些相关约束,从而达到在simpleType声明使用length、maxLength、minLength的效果,并且表示出属性列是否可为空,这是simpleType做不到的。
  (5)定义两个属性“primarykey”和“foreignkey”分别表示某元素是主键还是外键,而“primarykey”和“foreignkey”的值便代表着此元素的类型。
  若某关系模式的属性列名为number,下面的属性primarykey表明该列在数据库中为主键,type表明primarykey的属性值为布尔类型,default='true'表明该元素在属性列中是主键。另外,定义“uniqueable”属性来标识元素的唯一性约束。
  (6)对于主键、外键和唯一性约束到XML Schema的映射,在(5)中已经定义了与其相关的属性,只要将属性嵌入到complexType即可,示例中的“number”元素的两个属性表示它在数据库中是一个关系模式的主键,且具有唯一性约束。
  4.2 XML Schema到关系模式的映射
  XML Schema到关系模式的映射实际上是关系模式到XML Schema的逆向过程,通过XML文档,构建出一棵能反映XML Schema文档中能反映各个元素之间关系的结点树,从而达到重构关系模式的目的。XML Schema到关系模式的映射的流程图如下:http://www.lwfree.cn/
  XML模式;关系模式
  4.2.1 XML Schema结点树的定义
  XML Schema本身就是一个XML文档,它符合XML文档所要求的一切规范,但是一般的XML文档树并不能反映Schema文档中定义的各种关系,因此根据需要重新构造一棵能够反映XML Schema文档中的各个元素之间关系的树。为方便Schema与关系模式的转换,做如下定义:
  定义(顶层元素)顶层元素是一个复杂类型的元素,它不能作为其他复杂类型元素的子元素,也不可以作为其他复杂类型元素的参考,即该元素的元素名不能是type和ref属性的值。
  定义(结点树)一个XML Schema 文档定义的各个元素之间的关系构成一棵结点树,记为TNode=
基于XML异构数据源集成的研究下载如图片无法显示或论文不完整,请联系qq752018766
设为首页 | 联系站长 | 友情链接 | 网站地图 |

copyright©lwfree.cn 六维论文网 严禁转载
如果本毕业论文网损害了您的利益或者侵犯了您的权利,请及时联系,我们一定会及时改正。