专利文本自动分类论文-贾杉杉,刘小安,彭涛

专利文本自动分类论文-贾杉杉,刘小安,彭涛

导读:本文包含了专利文本自动分类论文开题报告文献综述及选题提纲参考文献,主要关键词:机器学习,专利自动分类,分类器,文本表示

专利文本自动分类论文文献综述

贾杉杉,刘小安,彭涛[1](2017)在《基于IPC的专利文本自动分类研究综述》一文中研究指出使用机器学习方法对专利文本按国际专利分类(IPC)体系进行分类已经有近20年的历史,且已取得了一系列的研究成果。首先概述国际专利分类IPC的专利分类体系;然后详细介绍常用的文本表示、特征和降维方法以及机器学习的算法在专利自动分类研究中的进展;最后对专利自动分类的发展方向进行总结和展望。(本文来源于《中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集》期刊2017-12-21)

缪建明,贾广威,张运良[2](2016)在《基于摘要文本的专利快速自动分类方法》一文中研究指出随着我国专利申请数量的迅猛发展,对受理专利实现快速分类的需求也越来越迫切。作为专业性知识极强的科技文献,专利自动分类的正确率远高于普通文本的分类效果。基于专利摘要进行快速自动分类的方法,充分考虑专利类别的层次结构特性,建立不同层次的类别特征中心向量,采用经典的类中心向量分类算法实现专利的快速自动分类。实验结果表明:该方法在专利不同层次上的分类效果明显,时效性大大提高,能够满足专利快速分类的实际需求。(本文来源于《情报理论与实践》期刊2016年08期)

马双刚[3](2016)在《基于深度学习理论与方法的中文专利文本自动分类研究》一文中研究指出在当前经济全球化的时代,科技成为第一生产力。国家和企业的进步,越来越多地依赖于科技的创新。作为科技载体的专利的数量和质量已经成为衡量国家和企业创新能力的重要指标,因而专利申请的数量大大增加。世界知识产权组织的统计结果表明,专利文本中蕴含了全世界90%-95%的发明创造,表征着世界科技的发展水平。如何从这些专利文本中获取和利用科技信息,为国家和企业的发展提供战略支持,是国内外相关学者和专家研究的重点。而专利文本的分类作为最基础的步骤,制约着专利文本信息的获取和利用。目前,专利文本的分类主要以人工方式为主,自动分类方式已经开始作为辅助手段,但大规模的专利文本自动分类尚未实现,因此研究专利文本的自动分类具有重要的现实意义。基于专利文本的语义特征,借助自动分类技术,专利工作人员能够对大量的专利文本进行自动且高效地分类,提高工作效率的同时,能够更好地对专利文本中蕴含的丰富的科技信息进行分析和利用。因此,本文在对专利文本自动分类的基本框架和基本原理进行系统梳理的基础上,设计了一个基于深度学习理论的中文专利自动文本分类方法,方法的主要内容如下:首先对专利文本进行预处理和特征选择,得到专利文本的形式化表示;然后基于深度学习理论,用降噪自动编码器构建深度学习网络,自动学习得到专利文本的低维特征编码,并在网络的最顶层采用支持向量机算法对其进行分类,根据分类的结果不断调整网络中的各层参数得到分类器;最后采用已知类别的专利文本测试集对分类器进行分类测试,得到测试分类的准确率、召回率和F值以验证本文设计的方法的可行性。另外,为了验证本论文设计方法的有效性和优越性,本文借鉴其他学者的方法,将得到的分类测试结果分别与K近邻算法、支持向量机算法和反向传播神经网络算法等经典算法得到的分类测试结果进行比较。本文设计的专利文本自动分类方法在测试集上平均得到了95%以上的分类准确率和94%以上的分类召回率,优于经典算法,表明本文设计的方法是有效而且优越的。(本文来源于《江苏大学》期刊2016-06-01)

汪晓刚,蒋健安,孙志挥[4](2009)在《一种面向专利信息的文本自动分类算法》一文中研究指出讨论了两种常用的文本分类算法:Rocchio方法和K近邻方法。前者速度快,但是分类精度通常不能令人满意。后者则相反,他在分类时要花费更多的时间,但分类效果要好很多。通过综合他们的优点并结合专利文本的特点提出了一种适用于专利文本自动分类的层次分类方法。实验表明,该算法具有较好的分类精度与效率。(本文来源于《科技创新导报》期刊2009年15期)

马芳[5](2009)在《基于神经网络的文本挖掘在专利自动分类中的研究与应用》一文中研究指出专利信息作为重要的技术情报源,记载了人类社会发明创造的成就和轨迹。面对海量的专利数据库,为了尽快找到所需要的专利信息,每一件专利都会按照其技术内容分配相应的国际专利分类号(IPC)。然而目前的专利分类仍然采用手工操作,显然手工分类方法效率低、费用高、分类结果一致性较差。因此,实现专利文本的自动分类有着重要的意义。专利自动分类是指在给定的分类体系下,根据专利文本的内容(标题、摘要)自动确定专利文本所属类别的过程。由于专利信息中所包含的是大规模的、非结构化的文本信息,为了发现隐藏在其中的可用知识,本文将文本挖掘技术引入专利自动分类系统,利用径向基函数神经网络(RBFNN)算法实现专利的自动分类。在此系统中,主要包括特征向量构建和分类模型构建两部分内容。在特征向量构建过程中,首先选用目前国内最有影响的汉语词法分析系统(ICTCLAS)对专利文本进行分词,在此基础上,本文将IPC类别描述本身信息中的词添加到现有的词典中,进一步提高了分词的准确性。然后,为了比较不同的特征选择算法对分类效果的影响,分别采用信息增益IG和互信息MI对专利文本特征进行降维处理。最后,采用经典的权重计算公式(TF×IDF)计算特征词在向量空间模型(VSM)中的权值,同时,为了体现不同文本位置信息对该文本区分度的差异,提出了一种考虑位置信息进行加权来计算特征词权重的方法(PTF×IDF算法)。在分类模型构建过程中,采用径向基函数神经网络(RBFNN)分类方法完成专利文本的训练和分类。在分类过程中,首先通过K-均值聚类法对输入的训练样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后再利用最小平方误差法训练得到输出层连接权值,将其保存为分类模型的参数,最后对测试样本进行分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F_1值在70%以上。(本文来源于《山东理工大学》期刊2009-04-16)

蒋健安,陆介平,倪巍伟,孙志挥[6](2008)在《一种面向专利文献数据的文本自动分类方法》一文中研究指出中文专利文献自动分类目前尚无成熟适用的方法。分析了文本自动分类的关键技术,并结合专利数据的特点对无词典分词和权重计算进行了改进,提出了一种适用于专利数据分类的层次分类方法,给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。(本文来源于《计算机应用》期刊2008年01期)

专利文本自动分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着我国专利申请数量的迅猛发展,对受理专利实现快速分类的需求也越来越迫切。作为专业性知识极强的科技文献,专利自动分类的正确率远高于普通文本的分类效果。基于专利摘要进行快速自动分类的方法,充分考虑专利类别的层次结构特性,建立不同层次的类别特征中心向量,采用经典的类中心向量分类算法实现专利的快速自动分类。实验结果表明:该方法在专利不同层次上的分类效果明显,时效性大大提高,能够满足专利快速分类的实际需求。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

专利文本自动分类论文参考文献

[1].贾杉杉,刘小安,彭涛.基于IPC的专利文本自动分类研究综述[C].中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集.2017

[2].缪建明,贾广威,张运良.基于摘要文本的专利快速自动分类方法[J].情报理论与实践.2016

[3].马双刚.基于深度学习理论与方法的中文专利文本自动分类研究[D].江苏大学.2016

[4].汪晓刚,蒋健安,孙志挥.一种面向专利信息的文本自动分类算法[J].科技创新导报.2009

[5].马芳.基于神经网络的文本挖掘在专利自动分类中的研究与应用[D].山东理工大学.2009

[6].蒋健安,陆介平,倪巍伟,孙志挥.一种面向专利文献数据的文本自动分类方法[J].计算机应用.2008

标签:;  ;  ;  ;  

专利文本自动分类论文-贾杉杉,刘小安,彭涛
下载Doc文档

猜你喜欢