文档挖掘论文-张静宣

文档挖掘论文-张静宣

导读:本文包含了文档挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:应用程序编程接口,数据挖掘,API教程,技术问答对

文档挖掘论文文献综述

张静宣[1](2018)在《API文档挖掘研究》一文中研究指出随着软件复用技术的不断发展,软件开发者越来越依赖于使用第叁方类库来实现特定的服务和功能。通过调用第叁方类库中的应用程序编程接口(API),开发者可以节省大量的开发时间,有效地提高软件的开发效率。然而,API通常比较难以学习和使用。面对一个不熟悉的API,开发者倾向于寻找各种各样的API文档来学习API的正确使用。因此,API文档的质量对于API的学习和使用效率,乃至软件的开发效率都至关重要。近些年来,如何有效地解决API文档的各种问题,进而提高API的学习和使用效率是研究人员研究的热点问题。虽然研究人员已经提出了一些算法来解决API文档的问题,但是这些算法没有充分利用API文档的领域特定知识,算法结果有待进一步提升。本文围绕在API的学习和使用过程中产生的叁种典型的API文档,即API教程,API技术问答对和API相关的缺陷报告开展分析与挖掘研究。针对API教程冗长且难理解的问题,本文分别提出了一种更精确的监督算法和一种无监督算法,为开发者推荐API教程解释片段。针对API技术问题难回答,本文提出了一种基于API规范和历史信息的API推荐算法,帮助开发者定位正确的API。针对API相关的缺陷难修复的问题,本文提出了基于贡献者写作风格的缺陷报告摘要构建算法,帮助开发者快速理解API相关的缺陷的修复过程。具体来说,本文主要研究工作包括:(1)监督与无监督API教程片段推荐算法设计。API教程的信息冗长延长了开发者学习API的时间。为了有效地解决API教程冗长问题,本文提出了一种监督的API教程片段推荐算法。该方法将API教程切分成片段,为开发者推荐期望的API教程片段。该方法充分挖掘API教程的内在联系,提出了两类重要的分类特征,即共现API特征和基于扩展的API特征,提高了 API教程片段推荐的准确率。同时,为了提高算法的实用性,本文进一步提出了一种无监督API教程片段推荐算法。经过对大量的API教程片段数据进行观察发现,并不是所有的API教程片段都是在解释API。本文提出了识别非解释性API教程片段的启发式规则,并且创新地利用PageRank算法和主题模型算法,分别从词法结构和语义的角度进行分析和推荐。本文提出的无监督算法不仅获得了最好结果,而且具有很好的实用性。(2)基于API规范和历史信息的API推荐算法设计。API类库中通常封装了成百上千的API,开发者面对众多的API难以选择。Stack Overflow等流行的技术问答网站上积累了海量的API相关问题,它们的解决时长显着超过其他问题。为了减少开发者的等待时间,加快API相关问题的解决,本文创新地利用API规范和历史信息来为API相关问题推荐正确的API。本文提出的API推荐算法显着提高了推荐准确率,节省了开发者选择API的时间。(3)基于贡献者写作风格的API相关的缺陷报告摘要构建算法设计。由于API错误使用导致的缺陷通常难以修复。在修复API错误使用导致的缺陷时,开发者通常需要参考以前已经修复好的缺陷的修复方法。因此,对缺陷报告构建精确的摘要可以减少开发者阅读和理解缺陷报告的时间,加快API相关缺陷的修复过程。现有的缺陷报告摘要构建算法仅仅考虑缺陷报告本身的内容,并没有考虑人的因素。本文创新地对贡献者的写作风格进行建模,并对典型的贡献者写作风格进行了实证研究。以贡献者写作风格相似的缺陷报告作为约简训练集构建算法,不仅可以有效减少训练时间,而且可以提高缺陷报告摘要构建的准确率。本文针对围绕API学习和使用过程中产生的典型的API文档开展分析与挖掘研究。在分析了已有工作及其存在的问题的基础上,充分考虑领域特定知识,提出了相应的解决方案。本论文的研究方法可以进一步用于软件工程其他领域的分析研究工作。(本文来源于《大连理工大学》期刊2018-06-05)

罗梓恒[2](2010)在《基于频繁变化结构的动态XML文档挖掘研究》一文中研究指出XML数据是一种自描述,半结构化的数据,具有其独特而新颖的复杂数据结构,在数据交换方面起着非常重要的作用,越来越多的数据使用XML形式进行存储和表示,现在已经出现了一些基于XML的原生数据库。因此针对XML数据进行数据挖掘成为了迫切需要解决的问题。国内外对于XML数据进行挖掘做了大量研究工作,这些研究都是基于静态的XML文档,然而在实际中,XML文档是处于不断变化过程中的,随着历史版本的变化而不断改变。一系列版本中隐含着XML文档变化差异信息,静态的挖掘技术已不能处理这种动态变化的信息,因此急切的需要研究动态XML数据挖掘技术,这种技术可以用于超大XML文档的变化探测,高效XML索引,XML搜索引擎等相关领域,其中从动态XML文档中挖掘出的频繁变化结构可以用于XML关联规则挖掘、Web使用挖掘、XML变化探测、XML文档分类与聚类等,本文致力于研究动态XML数据中的数据挖掘。本文在分析现有的频繁变化结构挖掘算法的不足后,探讨采用对动态XML文档加入时间信息进行建模,提出时序模型T-DOM,并结合挖掘频繁变化结构的叁个参数指标,实现了两个采用时序XML文档进行频繁变化结构挖掘的算法:FCSBF算法和FCSDF算法。实验结果表明基于时序模型的动态XML文档挖掘算法是高效的。在此基础之上,提出了一种新颖的针对动态XML文档做聚类的算法DClustering,使用频繁变化结构作为特征向量对时序模型表示的动态XML文档做聚类,实验结果表明算法是有效的,能够很好的将具有相似特征的动态XML文档聚为一类。本文工作获得吉林省科技发展计划(20090704)“半结构化数据库关键技术研究”项目支持。(本文来源于《吉林大学》期刊2010-04-01)

陈莉,焦李成[3](2003)在《文档挖掘与降维技术》一文中研究指出提出了基于虚拟数据库和分层数据库的文档挖掘的一般模型,讨论了用于降低输入空间维数的维削减技术,以提高挖掘效率、改善挖掘性能。实验结果表明文中的方法是可行的。(本文来源于《西北大学学报(自然科学版)》期刊2003年03期)

蔡立军,张大方[4](2003)在《电子文档挖掘技术在电子邮件监控系统中的应用》一文中研究指出1 引言随着Internet技术的发展,各种网络应用服务越来越多。其中,网络中广泛应用的电子邮件(E-mail)正成为一种快捷而廉价的通信手段。然而,电子邮件在给人们带来很多方便的同时,也产生了一系列的新问题:有人利用电子邮件出卖机密情报、散布色情淫秽内容,更有人利用电子邮件散发反动传单、蛊惑人心、散布不利于国家稳定、安全的言论,同时各种垃圾邮件、邮件炸弹、虚假广告也给用户收发E-mail带来了极大的困扰。(本文来源于《计算机科学》期刊2003年04期)

文档挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

XML数据是一种自描述,半结构化的数据,具有其独特而新颖的复杂数据结构,在数据交换方面起着非常重要的作用,越来越多的数据使用XML形式进行存储和表示,现在已经出现了一些基于XML的原生数据库。因此针对XML数据进行数据挖掘成为了迫切需要解决的问题。国内外对于XML数据进行挖掘做了大量研究工作,这些研究都是基于静态的XML文档,然而在实际中,XML文档是处于不断变化过程中的,随着历史版本的变化而不断改变。一系列版本中隐含着XML文档变化差异信息,静态的挖掘技术已不能处理这种动态变化的信息,因此急切的需要研究动态XML数据挖掘技术,这种技术可以用于超大XML文档的变化探测,高效XML索引,XML搜索引擎等相关领域,其中从动态XML文档中挖掘出的频繁变化结构可以用于XML关联规则挖掘、Web使用挖掘、XML变化探测、XML文档分类与聚类等,本文致力于研究动态XML数据中的数据挖掘。本文在分析现有的频繁变化结构挖掘算法的不足后,探讨采用对动态XML文档加入时间信息进行建模,提出时序模型T-DOM,并结合挖掘频繁变化结构的叁个参数指标,实现了两个采用时序XML文档进行频繁变化结构挖掘的算法:FCSBF算法和FCSDF算法。实验结果表明基于时序模型的动态XML文档挖掘算法是高效的。在此基础之上,提出了一种新颖的针对动态XML文档做聚类的算法DClustering,使用频繁变化结构作为特征向量对时序模型表示的动态XML文档做聚类,实验结果表明算法是有效的,能够很好的将具有相似特征的动态XML文档聚为一类。本文工作获得吉林省科技发展计划(20090704)“半结构化数据库关键技术研究”项目支持。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档挖掘论文参考文献

[1].张静宣.API文档挖掘研究[D].大连理工大学.2018

[2].罗梓恒.基于频繁变化结构的动态XML文档挖掘研究[D].吉林大学.2010

[3].陈莉,焦李成.文档挖掘与降维技术[J].西北大学学报(自然科学版).2003

[4].蔡立军,张大方.电子文档挖掘技术在电子邮件监控系统中的应用[J].计算机科学.2003

标签:;  ;  ;  ;  

文档挖掘论文-张静宣
下载Doc文档

猜你喜欢