主题自动抽取论文-陈晓萍

主题自动抽取论文-陈晓萍

导读:本文包含了主题自动抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:自动摘要,主题模型,短文本,图排序

主题自动抽取论文文献综述

陈晓萍[1](2017)在《基于主题的短文本自动摘要抽取研究与应用》一文中研究指出微博、论坛、问答系统等平台的蓬勃发展促使人们在网络上的交互越来越多,为人们提供便利的同时也产生了海量的短文本信息。人们在阅读这些实时更新的短文本信息时往往受到短文本长度有限、表达方式自由且结构模糊等因素的干扰。如何能够在有限的时间内掌握大量的信息、迅速把握事件的发展动向已是迫切需要解决的问题。自动摘要技术是解决这个问题的有效手段。文本的摘要具有概括能力强、简洁且信息完整的优点,是文本挖掘的重要任务之一。本文针对微博短文本进行自动摘要的提取,同时关注文本本身的统计特征和隐含的主题信息,旨在生成一个主题(事件)下相关的摘要信息。工作主要包括以下两个方面:1)短文本的表示模型:为克服传统的文本表示模型在短文本集合上的缺陷,满足面向主题的任务需求,本文对基于语义的短文本表示向量模型进行了改进。采用潜在狄利克雷分布(LDA)对短文本进行主题建模,并利用梯度下降算法计算词向量权重,使得短文本中的主题相似性能够通过词语权重的不同而得到凸显。最后使用向量加权平均的方法建立短文本的表示模型,提取自动摘要时为捕获短文本集合的主题信息做准备。通过实验验证,本论文的模型比无权重的主题向量表示模型在分布的距离上提高了2.5%,具有较好的短文本表达能力。2)自动摘要的抽取:本论文针对一个主题的微博数据集,在CoRank算法的基础上提出了LDA-Co Rank算法,采用基于图排序的算法进行自动摘要的抽取。LDA-Co Rank算法主要进行了四点改进:a.重定义边关系:将每个微博文本当作顶点,并采用短文本的主题向量表示模型对文本建模,计算文本间的余弦相似度,并通过设定阈值限制边关系的构建;b.重定义词权重:采用Hybrid TF-IDF方法进行微博关键词的权重计算,并通过迭代得到词句关系权重;c.加入冗余度控制策略:本论文采用最大边缘相关算法对候选摘要句进行冗余度的控制;d.增加摘要结果的优化:为增加摘要结果通顺度和可读性,论文对候选摘要句进行结构优化,并按照时间重新排列后生成摘要结果。最后,论文通过ROUGE评估方法和人工交互评价的方法对摘要抽取结果进行综合评估。在Text Rank、Co Rank和LDA-Co Rank叁种算法中,本论文算法的ROUGE得分最高,且在ROUGE-1上的F值比Co Rank算法提高了5.66%,实验结果证明LDA-Co Rank算法抽取的摘要在主题信息的完整度和连贯性方面具有较好的性能,而人工交互评估得到的系统性能也是其中最靠近性能上界的。(本文来源于《电子科技大学》期刊2017-03-29)

徐超,王萌[2](2013)在《基于局部主题关键句抽取的多文档自动文摘方法》一文中研究指出文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。(本文来源于《计算机光盘软件与应用》期刊2013年18期)

夏天[3](2012)在《中心网页中主题网页链接的自动抽取》一文中研究指出基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入叁类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。(本文来源于《山东大学学报(理学版)》期刊2012年05期)

张春元[4](2011)在《基于CRFs的新闻网页主题内容自动抽取方法》一文中研究指出针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。(本文来源于《广西师范大学学报(自然科学版)》期刊2011年01期)

刘金岭,谈芸,李健普,袁娜[5](2010)在《基于多因素的中文文本主题自动抽取方法》一文中研究指出提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系。根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦。对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇。综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题。实验结果表明,该方法具有较高的抽准率。(本文来源于《计算机技术与发展》期刊2010年07期)

周星[6](2010)在《模板化Web文档的主题信息自动抽取方法研究》一文中研究指出人类社会的发展经历了农业社会、工业社会、信息社会,正朝着智能社会发展。从某种角度上说,人类社会目前处于由信息社会向智能社会过渡的阶段。在这个阶段,信息依然是主流,是基础。人们的学习、生活和工作在很大程度上都依赖于互联网上的信息资源。网上的信息资源的载体形式多样,有文字、音频、视频、图形图像。但是,目前计算机对信息载体的理解能力还很低,而且计算机对信息载体的分析技术以文字处理较为成熟,语音处理、图形图像识别、以及视频识别都还处于起步阶段。另外,人们想在浩瀚的信息海洋中搜集信息,仅仅依靠人工的力量是不可行的,需要借助计算机快速的处理能力。因此,人们搜集信息的方式就主要表现为借助计算机,抽取互联网中Web文档的文本信息。信息抽取技术为人们搜集信息提供了极大的帮助,从很大程度上使人的角色发生了转变,从机械地信息复制者转变为制定规则的决策者。但是,在面向专业服务网的信息聚焦系统中,由于信息源网站数量巨大,人工地制定网页的解析规则(即信息抽取规则)是一个既花时间又很枯燥的工作。如何使人和机器优势互补,既发挥人的决策能力,又发挥机器的快速处理能力,使信息抽取的准确率和效率更高,这是本文研究的主要内容。本文提出了一个模板化Web文档的主题信息自动抽取的框架,该框架把主题信息自动抽取逻辑上分成了叁个模块:抽取规则生成模块、主题信息抽取模块、自动反馈监测机制模块。其中最为重要的是抽取规则生成模块,它是整个框架的驱动基础。论文着重讨论了抽取规则生成模块的相关算法实现。抽取规则生成的整个过程分为叁个阶段:文档预处理阶段、主题区域定位阶段和主题信息精确定位阶段。在Web文档预处理阶段,首先利用HTMLParser将Web文档转化为DOM树,再使用无关结点过滤算法,无效结点过滤算法对部分噪音信息进行过滤。在主题区域定位阶段,主要对主题信息所在的区域块进行定位,它分为两个子阶段,一是动态区域块定位,由于主题区域必然是动态区域块,所以首先利用DOM树匹配算法计算两个模板化文档对应的DOM树最大匹配值,分离出动态区域子树和静态区域子树,进而实现动态区域块的定位;二是非主题链接块过滤,首先定位出DOM树的重复区域,然后通过统计重复区域链接文字和非链接文字的个数过滤非主题链接块。在主题信息精确定位阶段,通过分析各个主题信息的多方面的特征制定出对应的启发式规则,根据启发式规则算法定位主题结点,并获得主题结点在DOM树中的路径作为抽取规则。本文最后给出了模板化Web文档的主题信息自动抽取系统的主界面,同时给出了两个新闻网站的信息抽取结果。另外,本文用析全率和析准率两个指标对信息抽取系统的性能进行了评价,结果表明该系统能够有效地代替人工进行模板化Web文档的主题信息的自动抽取工作,而且抽取效果很好,具有很好的应用推广价值。(本文来源于《华中师范大学》期刊2010-05-01)

徐超,王萌,何婷婷,张勇[7](2008)在《基于局部主题关键句抽取的自动文摘方法》一文中研究指出自动文摘是语言信息处理中的重要环节。该文提出一种基于局部主题关键句抽取的中文自动文摘方法。通过层次分割的方法对文档进行主题分割,从各个局部主题单元中抽取一定数量的句子作为文章的文摘句。通过事先对文档进行语义分析,有效地避免了数据冗余和容易忽略分布较小的主题等问题。实验结果表明了该方法的有效性。(本文来源于《计算机工程》期刊2008年22期)

岳昆,李劲,石磐,刘惟一[8](2008)在《基于语义的Web服务主题自动抽取》一文中研究指出从特定领域的多个Web服务中自动抽取出描述其功能特征的主题信息,利于服务分类管理、高效服务发现及合成.将WSDL文档中的服务、操作、输入和输出参数名作为服务描述的要素(称为项),基于对多个WSDL文档中各项的统计计算,分别提出项权重和项集语义覆盖度的概念,并给出基于这两个语义度量标准的关键项自动抽取算法,进而得到以关键项集描述的Web服务主题.实验结果表明,提出的服务主题自动抽取方法具有较高的效率、查准率和查全率.(本文来源于《第二十五届中国数据库学术会议论文集(二)》期刊2008-10-24)

孙宏纲,陆余良[9](2008)在《中文博客主题情感句自动抽取研究》一文中研究指出博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。(本文来源于《计算机工程与应用》期刊2008年20期)

张庆国,章成志,薛德军,张君玉[10](2007)在《基于K最近邻的隐含主题自动抽取》一文中研究指出现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K 最近邻方法作为机器学习领域的一个经典的方法, 在很多领域都有出色的表现。本文利用 K 最近邻方法的思想,提出了一种基于 K 最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言:然后,以人工标注关键词的文献数据作为训练集,使用 K 最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题。(本文来源于《第叁届全国信息检索与内容安全学术会议论文集》期刊2007-11-01)

主题自动抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

主题自动抽取论文参考文献

[1].陈晓萍.基于主题的短文本自动摘要抽取研究与应用[D].电子科技大学.2017

[2].徐超,王萌.基于局部主题关键句抽取的多文档自动文摘方法[J].计算机光盘软件与应用.2013

[3].夏天.中心网页中主题网页链接的自动抽取[J].山东大学学报(理学版).2012

[4].张春元.基于CRFs的新闻网页主题内容自动抽取方法[J].广西师范大学学报(自然科学版).2011

[5].刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展.2010

[6].周星.模板化Web文档的主题信息自动抽取方法研究[D].华中师范大学.2010

[7].徐超,王萌,何婷婷,张勇.基于局部主题关键句抽取的自动文摘方法[J].计算机工程.2008

[8].岳昆,李劲,石磐,刘惟一.基于语义的Web服务主题自动抽取[C].第二十五届中国数据库学术会议论文集(二).2008

[9].孙宏纲,陆余良.中文博客主题情感句自动抽取研究[J].计算机工程与应用.2008

[10].张庆国,章成志,薛德军,张君玉.基于K最近邻的隐含主题自动抽取[C].第叁届全国信息检索与内容安全学术会议论文集.2007

标签:;  ;  ;  ;  

主题自动抽取论文-陈晓萍
下载Doc文档

猜你喜欢