文档扩展论文-徐建民,何丹丹,吴树芳

文档扩展论文-徐建民,何丹丹,吴树芳

导读:本文包含了文档扩展论文开题报告文献综述及选题提纲参考文献,主要关键词:信念网络,文档关系,检索模型,文档相似度

文档扩展论文文献综述

徐建民,何丹丹,吴树芳[1](2019)在《基于文档关系的扩展信念网络检索模型》一文中研究指出合理利用文档关系可以提高模型的检索性能。针对基本信念网络检索模型未考虑文档关系的不足,通过在基本模型上增加一层文档节点,提出一种具有两层文档节点的扩展信念网络检索模型,给出了模型的拓扑结构和概率推导。在拓扑结构中,术语与查询的关系、术语与文档的关系和两层文档之间的关系都用弧来表示,其中文档关系依据文档相似度确定。在概率推导中,利用文档相似度及文档节点的父文档个数对原模型的概率推导做出修正,使得检索概率更为准确。实验采用折损累积增益值和查准率-查全率曲线来评价扩展模型的性能,结果表明,扩展模型使得相关文档排名更合理,并且在保证查全率的条件下提高了查准率。(本文来源于《情报学报》期刊2019年11期)

黄历铭[2](2016)在《将文档玻尔兹曼机应用于查询扩展》一文中研究指出关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩展方法中,应该存在一个更合适的分布对反馈文档进行建模,从而可以更自然地处理反馈文档中词项与词项之间的依赖关系,获得优于传统相关模型(RM,用于生成反馈文档)的建模能力。在信息检索领域里,最近,文档玻尔兹曼机(DBM)被提出,它对文档进行建模时,不再保留“词项之间相互独立”的假设,即该模型可以自然地捕获词项与词项之间的依赖关系。同时,DBM已被证明是传统语言模型的泛化,而且该模型在ad hoc查询任务中获得了更好的结果。在本文中,基于这样一个新的文档模型,我们将传统的RM方法中的多项分布替换为DBM,同时保留原始的QE框架,保证模型的简洁。在本文提出的查询扩展方法中,利用反馈文档训练DBM,得到新的相关模型,该相关模型称为相关DBM(rDBM)。扩展后的查询根据rDBM中的参数信息生成,并且本文给出了给定文档中扩展查询的似然函数,该似然函数的值作为对文档的最终评分,从而对文档进行排序。在训练rDBM时遇到的一个难点是数据稀疏问题,这将导致训练出来的rDBM模型是过拟合的,从而影响查询结果。为了解决该问题,本文采用了可信信息优先原则(CIF)优化rDBM模型,优化过的rDBM模型使我们的查询扩展方法更有效率、更有实用价值。本文在TREC数据集上进行了相关对比实验,实验结果证明本文提出的基于DBM的查询扩展方法的有效性,以及模型选择方法CIF的有效性。除此之外,本文中采用赤池信息准则AIC方法对文档玻尔兹曼机模型进行优化,一方面降低了模型的复杂度,另一方面避免了由于数据稀疏产生的过拟合现象,提高了检索效果。这也在TREC数据集上得到了证明。(本文来源于《天津大学》期刊2016-11-01)

王琳[3](2016)在《短文本文档建模及查询扩展方法研究》一文中研究指出随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短信息,聊天记录等。其特点是信息长度短、语言形式灵活、数据规模大、时效性强、更新速度快。传统的文本挖掘方法没有考虑这些特点,不能够满足人们从大量短文本中准确获取信息的需要。因此发明并实现一种更为适合短文本信息的建模方法,具有重要的理论价值和实践意义。 本文具体研究工作如下:(1)提出一种更为适合短文本领域的文档建模方法,有助于提高短文本相关自然语言处理任务的准确度。使用叁层置信网络能量模型,融合词向量信息,同时学习文档在线性空间与非线性空间下的向量表达,从而将短文本映射成文本向量的形式。本文提出一种深层受限波尔兹曼机模型,模型中加入词向量信息,丰富了短文本数据的语义信息,可以更准确地对短文本文档进行抽象表达。在公开的叁个数据集上,使用得到的短文本线性表达与非线性表达进行文档分类与文档检索任务,均得到了令人满意的结果,提高了短文本数据在此类任务上的准确率。(2)提出一种使用词向量对检索词进行意图识别的查询扩展方法。利用深度学习训练得到的词向量具有线性关系的特性,结合文档建模方法中得到的单词权重,提出一种从全局角度进行查询扩展的方法。本文重点分析了伪相关反馈查询扩展方法与词向量查询扩展方法的不同,比较它们各自的优势与局限性。在新浪微博语料集上进行检索实验,结果表明,本文提出的融合基于全局文档集的查询扩展方法与局部文档集的查询扩展方法,可以有效去除扩展词中的噪音,提高扩展词的质量,最终提升检索任务的NDCG值。(本文来源于《大连理工大学》期刊2016-05-01)

王磊,张红梅,郭有强[4](2015)在《基于扩展Dewey编码的XML文档关键字查询算法研究》一文中研究指出为实现XML关键字查询,提出一种基于扩展Dewey编码快速求解SLCA的新算法:FEDA.算法利用Dewey扩展编码快速命中含有N个关键字的集合,将最终交集看做一棵简化的XML树,所有的叶节点即为求解的SLCA.该算法与经典的ILE算法进行对比,效率优于ILE算法.(本文来源于《海南师范大学学报(自然科学版)》期刊2015年04期)

崔倩倩[5](2015)在《基于文档重构的查询扩展》一文中研究指出快速发展的互联网技术为人们带来了丰富的信息资源,但同时也为信息的查找带来了困难,信息检索系统就是为了解决这一问题而产生的。但是检索过程中存在过多的干扰因素,如同义词、近义词,用户在交互界面输入的信息不准确等,这些都能降低检索的准确率和召回率。为了提高信息检索的性能,20世纪70年代提出了查询扩展技术,这一技术的出现引起了研究人员的重视,具有一定的研究意义和实用价值。本文的主要工作包括以下几个部分:第一,概述了查询扩展技术的研究现状、背景及意义,介绍向量空间模型和基于全局分析的、基于局部分析的、基于用户查询日志的和基于语义词典的查询扩展技术的基本原理、适用条件及检索性能,分析了它们的优缺点。第二,提出了基于文档重构的查询扩展方法。选择局部上下文分析方法作为研究对象,针对其依赖于初次检索文档相关性的缺陷进行改进,将文档重构思想与语义词典相结合,对查询词进行扩展后再进行第一次检索,提高初检结果文档集的相关性。基于文档重构的查询扩展方法的基本思想是:首先将文档重构思想与语义词典结合,限制扩展的层数,在WordNet中计算概念之间的相似度,选择相似度高的词语作为查询词的语义扩展词集,以提高初次检索的准确率和召回率。然后对最终的文档集的前n篇文档进行重新组织和排序,提高P@N的结果,满足用户的检索需求。第叁,将查询扩展模块与开源框架Nutch结合,通过计算输入的测试集返回的文档集的评价指标,对该系统与传统非扩展检索系统、基于局部上下文分析方法的检索系统进行对比,证明了其在检索性能方面有相对的提高。(本文来源于《北京工业大学》期刊2015-06-01)

苏赢彬,杜学绘,夏春涛,李海华[6](2014)在《基于文档平滑和查询扩展的文档敏感信息检测方法》一文中研究指出由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题。为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法。将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法。结果表明该算法是一种能更有效检测敏感信息的方法。(本文来源于《计算机应用》期刊2014年09期)

赵一超[7](2014)在《微博中的文档扩展和好友推荐算法研究》一文中研究指出微博,一种强大有效的传播媒体和网络平台。随着微博用户的持续增加,产生大量的短文本,而针对短文本的信息处理也成为研究热点。如何在数以亿记的微博数据中信息中获取自己的所期待的内容成为一项严峻的研究。针对于微博用户发布的内容及操作行为进行研究,其中涉及到的信息扩展技术、个性化推荐技术等都成为研究重点。本文以微博短文本为主要研究对象,在深入了解微博特点的基础上,对微博内容的检索系统中的文档扩展子模块进行研究,对微博用户的行为进行挖掘,研究用户活跃度对个性化好友推荐的影响,主要的研究内容及工作包括如下:第一,调研现有阶段成熟的查询扩展的技术和个性化推荐技术。通过国内外查询扩展和推荐技术的发展,认识现有技术的发展现状,深入研究了多种经典算法,引出本文中涉及到的文档扩展算法和基于活跃度的用户推荐的算法。同时就算法的评价指标进行介绍,便于后续文中算法的衡量。第二,设计和实现了微博短文本的文档扩展模块。本章分析了因微博短小、关键词稀疏等原因导致的文档建模过程困难,提出基于微博文档扩展的检索算法,提升文档模型估计的精确度,将现有语料库作为文档信息增加的来源,根据文档的伪查询反馈获得相似近邻文档,并对现有语料库进行补充,提高语料关键词、热点词的概率分布,提升对于微博检索的潜在信息的发现,在已有的TREC微博数据上进行验证,表明对文档扩展能够改善检索的性能。第叁,设计和实现了微博好友个性化推荐中的基于用户活跃度的子系统。研究用户活跃程度对推荐效果的影响,挖掘微博用户的行为特点以及操作行为,通过用户操作矩阵和活跃度矩阵的描述获得对于用户活跃度的描述,明确用户活跃度对于个性化推荐的影响因素,改善已有的微博推荐系统。这些技术的不断深入有效的改善检索和个性化推荐的效果,提高用户对于检索结果和个性化推荐命中率和满意率,提升微博检索效率,优化推荐的结果,提升用户体验。(本文来源于《北京邮电大学》期刊2014-06-10)

羊帅,王锋,林兰芬,朱晓伟,谢非[8](2013)在《基于自动查询扩展的专利文档检索方法》一文中研究指出针对现有专利检索中的用户意图理解及查询扩展不足问题,提出了一种基于自动查询扩展的专利文档检索方法。首先结合专利文档特点,采用基于改进TF-IDF公式的专利领域词表提取方法,构建专利领域词表。在检索阶段,对查询输入串进行分析得到查询关键词汇,同领域词表相结合,确定查询所在领域及查询扩展难度。利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。实验结果表明,该方法具有较高的召回率和平均准确率。(本文来源于《中国科技论文》期刊2013年10期)

羊帅[9](2013)在《基于自动查询扩展的专利文档检索方法》一文中研究指出近年来信息检索在社会经济发展中的重要性愈发显现。专利文档作为保存现代科技成果的重要方式,几乎包含一切应用领域的创新成果,涉及社会生活的方方面面。对专利文档信息的应用的第一步,就是对专利文档的有效检索。随着专利数量的增长,对高效专利检索的需求越来越高。本文在研究了当前常见的专利检索方法和查询扩展技术的基础上,分析了专利文档及专利检索的特点,提出了一种基于自动查询扩展的专利文档检索方法,用于对英文专利文档的检索。方法首先对专利文档进行预处理,利用国际专利分类体系,针对专利文档特点对TF-IDF(Term Frequency-Inverse Document Frequency)公式进行改进,提出基于改进TF-IDF公式的专利领域词表提取方法,成功构建了专利领域词表。接着对查询输入串进行分析得到查询关键词汇,同领域词表相结合,以确定查询所在领域及查询扩展难度。然后利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析以及词汇间语义关联度计算的结果,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。本文采用NTCIR-6的测试集,设计了一些实验,并进行了对比分析。实验验证了使用本方法完成专利检索的可行性,与其他检索方法的横向对比表明该方法具有较高的召回率和平均准确率,是一种有效可行的专利检索方法。(本文来源于《浙江大学》期刊2013-01-10)

骆伟琼[10](2012)在《吉林省五家企业通用分类标准实施工作积极推进》一文中研究指出在吉林省,企业学员参加通用分类标准实施培训班,不能光听,还得拿着笔记本跟着老师一起演练;被选为试点先行的企业,不只是因为基础好,还因为有热情、有信心。     通过制定实施方案、确定实施步骤、建立领导机制、开展培训辅导,目前,吉林省5家企业通用分类标(本文来源于《中国会计报》期刊2012-09-14)

文档扩展论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

关于查询扩展(QE)的研究工作中,大多数研究工作假设文档中的词项是相互独立的。因此研究者对查询扩展模型里的反馈文档进行建模时,一般使用的是多项分布。本文认为,在查询扩展方法中,应该存在一个更合适的分布对反馈文档进行建模,从而可以更自然地处理反馈文档中词项与词项之间的依赖关系,获得优于传统相关模型(RM,用于生成反馈文档)的建模能力。在信息检索领域里,最近,文档玻尔兹曼机(DBM)被提出,它对文档进行建模时,不再保留“词项之间相互独立”的假设,即该模型可以自然地捕获词项与词项之间的依赖关系。同时,DBM已被证明是传统语言模型的泛化,而且该模型在ad hoc查询任务中获得了更好的结果。在本文中,基于这样一个新的文档模型,我们将传统的RM方法中的多项分布替换为DBM,同时保留原始的QE框架,保证模型的简洁。在本文提出的查询扩展方法中,利用反馈文档训练DBM,得到新的相关模型,该相关模型称为相关DBM(rDBM)。扩展后的查询根据rDBM中的参数信息生成,并且本文给出了给定文档中扩展查询的似然函数,该似然函数的值作为对文档的最终评分,从而对文档进行排序。在训练rDBM时遇到的一个难点是数据稀疏问题,这将导致训练出来的rDBM模型是过拟合的,从而影响查询结果。为了解决该问题,本文采用了可信信息优先原则(CIF)优化rDBM模型,优化过的rDBM模型使我们的查询扩展方法更有效率、更有实用价值。本文在TREC数据集上进行了相关对比实验,实验结果证明本文提出的基于DBM的查询扩展方法的有效性,以及模型选择方法CIF的有效性。除此之外,本文中采用赤池信息准则AIC方法对文档玻尔兹曼机模型进行优化,一方面降低了模型的复杂度,另一方面避免了由于数据稀疏产生的过拟合现象,提高了检索效果。这也在TREC数据集上得到了证明。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档扩展论文参考文献

[1].徐建民,何丹丹,吴树芳.基于文档关系的扩展信念网络检索模型[J].情报学报.2019

[2].黄历铭.将文档玻尔兹曼机应用于查询扩展[D].天津大学.2016

[3].王琳.短文本文档建模及查询扩展方法研究[D].大连理工大学.2016

[4].王磊,张红梅,郭有强.基于扩展Dewey编码的XML文档关键字查询算法研究[J].海南师范大学学报(自然科学版).2015

[5].崔倩倩.基于文档重构的查询扩展[D].北京工业大学.2015

[6].苏赢彬,杜学绘,夏春涛,李海华.基于文档平滑和查询扩展的文档敏感信息检测方法[J].计算机应用.2014

[7].赵一超.微博中的文档扩展和好友推荐算法研究[D].北京邮电大学.2014

[8].羊帅,王锋,林兰芬,朱晓伟,谢非.基于自动查询扩展的专利文档检索方法[J].中国科技论文.2013

[9].羊帅.基于自动查询扩展的专利文档检索方法[D].浙江大学.2013

[10].骆伟琼.吉林省五家企业通用分类标准实施工作积极推进[N].中国会计报.2012

标签:;  ;  ;  ;  

文档扩展论文-徐建民,何丹丹,吴树芳
下载Doc文档

猜你喜欢