中英文混合分词论文-王茜

中英文混合分词论文-王茜

导读:本文包含了中英文混合分词论文开题报告文献综述及选题提纲参考文献,主要关键词:字符串匹配,分词,算法,逆向最大匹配法

中英文混合分词论文文献综述

王茜[1](2011)在《基于字符串匹配的中英文混合分词技术研究》一文中研究指出分词是指将自然语言中的字符串正确切分为词语。它是自然语言处理过程中首要的技术环节,其重要性不言而喻。目前的中文分词技术主要针对中文文本进行分词。而对于日益增多的中英文混合文本,采用传统的基于中文分词的技术,分词效果不理想,有必要研究中英文混合分词技术。论文首先介绍了四种基本的分词算法,并探讨了分词的关键问题及解决办法。然后介绍了分词系统的评价体系,然后在原有的中文分词系统评价体系基础上,提出了两条适用于中英文混合分词系统的评价指标。其次论文分别通过几组实验的方法确定中英文混合分词模型的技术和策略。一是对分词词典机制和基于字符串匹配的分词算法进行了对比实验,在此基础上提出了基于字符串匹配的中英文混合分词解决思路,为建立中英文混合分词模型打下基础。二是采用整词二分、TRIE索引树、逐字二分、双字哈希四种词典机制进行对比实验,最终选定双字哈希索引词典机制作为分词模型的词典机制。叁是分别采用正向最大匹配算法、逆向最大匹配算法进行中文、中英文混合文本的对比实验,从而确定选用逆向最大匹配法为分词模型的分词算法。四是将逆向最大匹配算法进行改进,将待处理字符串的长度和以它的双字为首的哈希词典的最大词长进行比较,从而确定逆向最大匹配过程中的最大词长。这样的做法能够有效地减少分词过程中的匹配次数,从而达到提高分词效率的目的。论文中还针对分词研究中的歧义处理、未登录词的识别等关键问题展开分析和讨论。提出基于长词,词频与单字函数相结合的消歧算法,通过对人民日报分词语料库进行数据实验,歧义字段的消解能达到96.50%左右的正确率。在未登录词的识别中,运用统计方法对中文姓名进行了有效的识别。论文基于以上思路最终建立了一个基于字符串匹配的中英文混合分词模型,该模型实现了对词典的加载以及中英文混合分词,并为分词算法的扩展预留接口。根据分词系统评价指标对本模型进行综合评价,各项指标表现良好,具有一定的参考价值。(本文来源于《四川师范大学》期刊2011-04-08)

田占霄[2](2009)在《中英文混合分词方法及应用研究》一文中研究指出随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自从20世纪80年代初,中文信息处理提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,并且基于中文分词的算法也随着信息的多元化,复杂化在不断的升级,改进和完善。分词算法在信息检索,自动归档等领域都有着广泛的应用,但是由于中国经济的飞速发展使得中国与世界的联系更加紧密,在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样,信息的形式就难免要使用中外语言混合的形式来表达,特别是中英文混合使用的情况将会越来越普遍。这就要求信息处理系统不仅能够将中文正确分词,还要能够对中英文混合的情况正确分词。目前有关中英文混合分词的研究相对较少,还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开,没有对其进行词的判断和消岐处理。基于此课题首先研究中英文混合的新特点,并着重研究了中英文混合分词的算法,特别是混合分词的消岐问题。本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯,分析了现有的中文分词算法,提出了一种实用的中英文混合分词算法。对于分词难点之一的消歧问题,本文做了深入的研究,并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。对于最大词长问题的解决本文充分考虑了分词速度的要求,提出了以待切分字符串的双首字开始的Hash词典的词长和待切分文本的长度进行比较从而确定RMM的最大词长。为了验证该算法的效率,开发了中英文混合分词系统,以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。试验表明,该算法能够有效的将中英文混合文档正确的分词,其消歧率到达了较高的水平,算法对未登录词中的姓名名词也有很好的识别能力。最后依据算法的分词结果初步达到了文章自动分类归档的目的。(本文来源于《河北农业大学》期刊2009-06-15)

中英文混合分词论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着科学技术的迅猛发展,计算机在各个领域得到了前所未有的广泛应用。已从过去的数据处理、信息处理发展到现在的知识处理和对语言文字的信息处理。自从20世纪80年代初,中文信息处理提出自动分词以来,众多专家和学者在这一领域取得了令人可喜的进展,并且基于中文分词的算法也随着信息的多元化,复杂化在不断的升级,改进和完善。分词算法在信息检索,自动归档等领域都有着广泛的应用,但是由于中国经济的飞速发展使得中国与世界的联系更加紧密,在一些前沿领域或是国人刚刚开始涉足的领域就难免要借鉴和引用一些发达国家的科研成果或创新理论。这样,信息的形式就难免要使用中外语言混合的形式来表达,特别是中英文混合使用的情况将会越来越普遍。这就要求信息处理系统不仅能够将中文正确分词,还要能够对中英文混合的情况正确分词。目前有关中英文混合分词的研究相对较少,还没有形成比较成熟的理论,中英文混合分词的规范、评价体系还没有建立。对于中英文混合字段一般是将中文汉字和英文字母、中文汉字和阿拉伯数字、英文字母和阿拉伯数字直接分开,没有对其进行词的判断和消岐处理。基于此课题首先研究中英文混合的新特点,并着重研究了中英文混合分词的算法,特别是混合分词的消岐问题。本文主要研究了中英文混合的形式、结构以及人们使用中英文混合的习惯,分析了现有的中文分词算法,提出了一种实用的中英文混合分词算法。对于分词难点之一的消歧问题,本文做了深入的研究,并在现有消歧算法基础之上分析了需要继续消歧的原因并且给出了具体实施方法。对于最大词长问题的解决本文充分考虑了分词速度的要求,提出了以待切分字符串的双首字开始的Hash词典的词长和待切分文本的长度进行比较从而确定RMM的最大词长。为了验证该算法的效率,开发了中英文混合分词系统,以中国风能信息中心系统为例对中英文混合分词算法做了试验验证。试验表明,该算法能够有效的将中英文混合文档正确的分词,其消歧率到达了较高的水平,算法对未登录词中的姓名名词也有很好的识别能力。最后依据算法的分词结果初步达到了文章自动分类归档的目的。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中英文混合分词论文参考文献

[1].王茜.基于字符串匹配的中英文混合分词技术研究[D].四川师范大学.2011

[2].田占霄.中英文混合分词方法及应用研究[D].河北农业大学.2009

标签:;  ;  ;  ;  

中英文混合分词论文-王茜
下载Doc文档

猜你喜欢