基于结果模式的数据集成论文-马安香,张斌,张引,高克宁,孙达明

基于结果模式的数据集成论文-马安香,张斌,张引,高克宁,孙达明

导读:本文包含了基于结果模式的数据集成论文开题报告文献综述及选题提纲参考文献,主要关键词:Deep,Web数据集成,结果模式,结果输出模式,冲突

基于结果模式的数据集成论文文献综述

马安香,张斌,张引,高克宁,孙达明[1](2010)在《基于结果模式的Deep Web数据集成》一文中研究指出Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的DeepWeb数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础.(本文来源于《小型微型计算机系统》期刊2010年05期)

马安香[2](2009)在《基于结果模式的Deep Web数据集成关键技术研究》一文中研究指出Deep Web中蕴含的信息数量与质量都要远远高于Surface Web,因此如何有效的获取Deep Web信息并加以集成备受人们关注。目前,国内外的许多研究者已经设计了一些典型的Deep Web数据集成系统框架,并对其中的一些相关技术如Deep Web数据源发现、Deep Web数据源分类、查询接口集成、Deep Web数据源选择及查询分解等进行了深入的研究,并取得了大量成果。Deep Web查询结果处理作为Deep Web数据集成系统中的一个核心功能,需要实时获取、标注并合并数量庞大的结果数据,其性能和效果将直接影响Deep Web数据集成系统。现有的查询结果处理工作在一定程度上实现了自动数据获取、数据标注和结果合并,然而仍存在一些问题,如语义标注性能问题、重复语义标注问题、数据异构与冲突处理问题、数据抽取性能问题、重复模式匹配问题等,这些问题严重影响Deep Web数据集成的性能和有效性。为实现具有高效准确的查询结果处理能力的Deep Web数据集成,本文从Deep Web数据源结果模式的定义出发,提出基于结果模式的Deep Web数据集成机制,对Deep Web数据源结果模式的生成方法、冲突的分类及结果模式冲突检测方法、基于结果模式的Deep Web数据抽取算法和结果输出模式的生成技术等查询结果处理技术进行了深入研究。(1)在分析了现有Deep Web数据集成系统的工作流程及存在不足的基础上,提出了基于结果模式的Deep Web数据集成方法。通过分析Deep Web结果数据的特点,给出了结果模式的定义,它兼顾Deep Web结果数据的语义特征和结构特征,为高效准确的查询结果处理奠定了理论基础。在此基础上,提出了基于结果模式的Deep Web数据集成机制,它以结果模式为核心,通过检测并建立领域内各个Deep Web数据源结果模式间的冲突记录,从而实现实时准确地建立与用户查询请求相对应的结果输出模式,为统一各数据源返回的查询结果奠定基础。结果模式及结果模式间的冲突记录一旦建立,便可在查询结果处理阶段重复使用,从而为高效准确的查询结果处理提供了有效支撑。(2)针对语义标注性能与重复语义标注问题,本文研究了支持高效语义标注的结果模式生成方法。针对结果模式结构特征,提出了基于网页数据特征矩阵的结果模式结构生成方法,根据Deep Web数据源中数据组织特点,给出了网页数据特征矩阵的定义,进而通过构建与分析网页数据特征矩阵来生成结果模式结构特征,为同类结果页面中属性值的获取奠定了基础。针对结果模式语义特征,根据结果模式可以通过对大量样本数据的离线分析来获取这一特点,提出了基于CPN网络的结果模式语义标注方法。给出了有效描述结果数据的基本特征,采用CPN网络学习出数据特征与数据语义之间的关系,语义标注规则一旦建立,便可实时、快速、准确地标注同类结果页面中的属性值,从而有效提高了语义标注性能。(3)针对Deep Web数据源的高度自治性所导致的数据源间的异构问题,本文给出了数据源间冲突的分类及结果模式冲突检测方法。通过分析Deep Web查询接口和结果数据的特点,系统地阐述了Deep Web数据源间可能存在的冲突,并就每一种冲突给出了明确的冲突描述及相应的解决策略。在此基础上,给出了同一领域中结果模式间的冲突检测算法,从而获得结果模式间冲突记录,为进一步的结果输出模式生成和查询结果规范化奠定了良好基础。(4)针对多数Deep Web数据抽取方法无法支持数据语义的获取及嵌套属性的处理,考虑到结果模式的结构特征可以有效地支持待抽取结果页面中属性值的获取,结果模式的语义特征可以有效地支持属性值的语义标注,因此本文提出了基于结果模式的Deep Web数据抽取方法,给出了基于结果模式的Deep Web数据抽取算法,有效地提高了Deep Web数据抽取的性能。(5)针对不同的用户查询请求可能涉及相同的Deep Web数据源所导致的重复模式匹配问题,在结果模式及结果模式间冲突记录的基础上,本文给出了针对不同用户查询请求实时生成相应的结果输出模式的方法。针对结果模式冲突检测阶段检测出的两两数据源间的冲突记录及冲突解决规则,给出了在用户查询请求所涉及的多数据源上的冲突整合规则,在此基础上给出了结果输出模式生成流程和算法,从而达到高效准确地构建满足用户需求的结果输出模式的目的。(本文来源于《东北大学》期刊2009-05-01)

基于结果模式的数据集成论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

Deep Web中蕴含的信息数量与质量都要远远高于Surface Web,因此如何有效的获取Deep Web信息并加以集成备受人们关注。目前,国内外的许多研究者已经设计了一些典型的Deep Web数据集成系统框架,并对其中的一些相关技术如Deep Web数据源发现、Deep Web数据源分类、查询接口集成、Deep Web数据源选择及查询分解等进行了深入的研究,并取得了大量成果。Deep Web查询结果处理作为Deep Web数据集成系统中的一个核心功能,需要实时获取、标注并合并数量庞大的结果数据,其性能和效果将直接影响Deep Web数据集成系统。现有的查询结果处理工作在一定程度上实现了自动数据获取、数据标注和结果合并,然而仍存在一些问题,如语义标注性能问题、重复语义标注问题、数据异构与冲突处理问题、数据抽取性能问题、重复模式匹配问题等,这些问题严重影响Deep Web数据集成的性能和有效性。为实现具有高效准确的查询结果处理能力的Deep Web数据集成,本文从Deep Web数据源结果模式的定义出发,提出基于结果模式的Deep Web数据集成机制,对Deep Web数据源结果模式的生成方法、冲突的分类及结果模式冲突检测方法、基于结果模式的Deep Web数据抽取算法和结果输出模式的生成技术等查询结果处理技术进行了深入研究。(1)在分析了现有Deep Web数据集成系统的工作流程及存在不足的基础上,提出了基于结果模式的Deep Web数据集成方法。通过分析Deep Web结果数据的特点,给出了结果模式的定义,它兼顾Deep Web结果数据的语义特征和结构特征,为高效准确的查询结果处理奠定了理论基础。在此基础上,提出了基于结果模式的Deep Web数据集成机制,它以结果模式为核心,通过检测并建立领域内各个Deep Web数据源结果模式间的冲突记录,从而实现实时准确地建立与用户查询请求相对应的结果输出模式,为统一各数据源返回的查询结果奠定基础。结果模式及结果模式间的冲突记录一旦建立,便可在查询结果处理阶段重复使用,从而为高效准确的查询结果处理提供了有效支撑。(2)针对语义标注性能与重复语义标注问题,本文研究了支持高效语义标注的结果模式生成方法。针对结果模式结构特征,提出了基于网页数据特征矩阵的结果模式结构生成方法,根据Deep Web数据源中数据组织特点,给出了网页数据特征矩阵的定义,进而通过构建与分析网页数据特征矩阵来生成结果模式结构特征,为同类结果页面中属性值的获取奠定了基础。针对结果模式语义特征,根据结果模式可以通过对大量样本数据的离线分析来获取这一特点,提出了基于CPN网络的结果模式语义标注方法。给出了有效描述结果数据的基本特征,采用CPN网络学习出数据特征与数据语义之间的关系,语义标注规则一旦建立,便可实时、快速、准确地标注同类结果页面中的属性值,从而有效提高了语义标注性能。(3)针对Deep Web数据源的高度自治性所导致的数据源间的异构问题,本文给出了数据源间冲突的分类及结果模式冲突检测方法。通过分析Deep Web查询接口和结果数据的特点,系统地阐述了Deep Web数据源间可能存在的冲突,并就每一种冲突给出了明确的冲突描述及相应的解决策略。在此基础上,给出了同一领域中结果模式间的冲突检测算法,从而获得结果模式间冲突记录,为进一步的结果输出模式生成和查询结果规范化奠定了良好基础。(4)针对多数Deep Web数据抽取方法无法支持数据语义的获取及嵌套属性的处理,考虑到结果模式的结构特征可以有效地支持待抽取结果页面中属性值的获取,结果模式的语义特征可以有效地支持属性值的语义标注,因此本文提出了基于结果模式的Deep Web数据抽取方法,给出了基于结果模式的Deep Web数据抽取算法,有效地提高了Deep Web数据抽取的性能。(5)针对不同的用户查询请求可能涉及相同的Deep Web数据源所导致的重复模式匹配问题,在结果模式及结果模式间冲突记录的基础上,本文给出了针对不同用户查询请求实时生成相应的结果输出模式的方法。针对结果模式冲突检测阶段检测出的两两数据源间的冲突记录及冲突解决规则,给出了在用户查询请求所涉及的多数据源上的冲突整合规则,在此基础上给出了结果输出模式生成流程和算法,从而达到高效准确地构建满足用户需求的结果输出模式的目的。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

基于结果模式的数据集成论文参考文献

[1].马安香,张斌,张引,高克宁,孙达明.基于结果模式的DeepWeb数据集成[J].小型微型计算机系统.2010

[2].马安香.基于结果模式的DeepWeb数据集成关键技术研究[D].东北大学.2009

标签:;  ;  ;  ;  ;  

基于结果模式的数据集成论文-马安香,张斌,张引,高克宁,孙达明
下载Doc文档

猜你喜欢