语言模型压缩论文-祁斌川,杨端端,丁建国

语言模型压缩论文-祁斌川,杨端端,丁建国

导读:本文包含了语言模型压缩论文开题报告文献综述及选题提纲参考文献,主要关键词:语言模型,压缩方法,聚类算法,多级索引

语言模型压缩论文文献综述

祁斌川,杨端端,丁建国[1](2012)在《基于聚类和索引技术的语言模型压缩方法》一文中研究指出由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。(本文来源于《计算机技术与发展》期刊2012年12期)

翟明新[2](2012)在《统计语言模型平滑技术和压缩技术的研究与实现》一文中研究指出随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据计算机语言学经验主义的研究办法得到的自然语言处理系统的核心就是统计语言模型。统计语言模型是利用统计的方法描述自然语言内在规律的数学模型。统计语言模型的发展目前面临的两个主要问题是数据稀疏问题和规模过大问题,为此模型建立以后要对模型进行平滑和压缩。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了模型的平滑技术和压缩技术,重点研究了模型的压缩技术。在介绍当前已有的统计语言模型平滑技术和压缩技术基础上,本文针对average-count平滑方法,提出了一种改进方法;针对基于相对熵的剪枝方法优化了其计算方法;针对分组方法提出了一种基于方差的分组方法,然后将改进后的基于相对熵的剪枝方法和基于方差的分组方法相结合,作为本文最终的压缩方法。论文的最后通过统计语言模型性能测试实验平台来测试本文提出的这些改进技术的性能,平台通过测试模型的困惑度大小来测试平滑方法的优劣,通过中文整句拼音输入法的错误率大小来证明压缩方法的好坏。实验表明,本文提出的这些改进技术要好于原有方法。(本文来源于《西安电子科技大学》期刊2012-02-01)

吴晓春,吴娴,李培峰,朱巧明[3](2008)在《基于分组的次数与规则剪枝相结合的语言模型压缩方法研究》一文中研究指出由于庞大的训练语料,统计语言模型的大小往往会超出手持设备的存储能力。随着现阶段资源受限设备的迅速发展,语言模型的压缩研究也就显得更加重要。本文提出了一个语言模型压缩方法,即将次数剪切与规则剪枝方法相结合,并使用分组的方法保证在不减少单元数目的情况下压缩模型。文章对使用新的算法得到的语言模型与次数剪切和规则剪枝方法分别进行困惑度比较。实验结果表明,使用新方法得到的语言模型性能更好。(本文来源于《计算机工程与科学》期刊2008年11期)

吴晓春,吴娴,朱巧明[4](2008)在《一个语言模型压缩方法的研究与实践》一文中研究指出随着手持设备的发展,语言模型压缩在研究中占据着重要位置。使用互信息和熵差相结合的方法对二元模型进行压缩。其基本思想是首先使用互信息对二元信息重要性进行判断,然后使用基于熵差的压缩方法得到最终的语言模型,以困惑度为评价标准将使用该方法压缩后的语言模型与其他方法进行比较。实验结果表明该方法得到的模型性能更好。(本文来源于《苏州大学学报(工科版)》期刊2008年03期)

语言模型压缩论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着全社会信息化进程的迅速发展,使用计算机处理语言文字的重要性与紧迫性日益显现出来,自然语言处理系统得到迅速发展。而目前根据计算机语言学经验主义的研究办法得到的自然语言处理系统的核心就是统计语言模型。统计语言模型是利用统计的方法描述自然语言内在规律的数学模型。统计语言模型的发展目前面临的两个主要问题是数据稀疏问题和规模过大问题,为此模型建立以后要对模型进行平滑和压缩。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了模型的平滑技术和压缩技术,重点研究了模型的压缩技术。在介绍当前已有的统计语言模型平滑技术和压缩技术基础上,本文针对average-count平滑方法,提出了一种改进方法;针对基于相对熵的剪枝方法优化了其计算方法;针对分组方法提出了一种基于方差的分组方法,然后将改进后的基于相对熵的剪枝方法和基于方差的分组方法相结合,作为本文最终的压缩方法。论文的最后通过统计语言模型性能测试实验平台来测试本文提出的这些改进技术的性能,平台通过测试模型的困惑度大小来测试平滑方法的优劣,通过中文整句拼音输入法的错误率大小来证明压缩方法的好坏。实验表明,本文提出的这些改进技术要好于原有方法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

语言模型压缩论文参考文献

[1].祁斌川,杨端端,丁建国.基于聚类和索引技术的语言模型压缩方法[J].计算机技术与发展.2012

[2].翟明新.统计语言模型平滑技术和压缩技术的研究与实现[D].西安电子科技大学.2012

[3].吴晓春,吴娴,李培峰,朱巧明.基于分组的次数与规则剪枝相结合的语言模型压缩方法研究[J].计算机工程与科学.2008

[4].吴晓春,吴娴,朱巧明.一个语言模型压缩方法的研究与实践[J].苏州大学学报(工科版).2008

标签:;  ;  ;  ;  

语言模型压缩论文-祁斌川,杨端端,丁建国
下载Doc文档

猜你喜欢