翻译等价对论文-夏青

翻译等价对论文-夏青

导读:本文包含了翻译等价对论文开题报告文献综述及选题提纲参考文献,主要关键词:命名实体等价对,汉柬双语,音译模型,维基百科

翻译等价对论文文献综述

夏青[1](2016)在《汉柬命名实体翻译等价对获取方法研究》一文中研究指出命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价对获取方法的研究上,还处于起步阶段。本文主要围绕如何获取汉柬命名实体等价对进行研究。论文的主要工作归纳如下:1.基于维基百科的汉柬命名实体等价对抽取基于维基百科的汉柬命名实体等价对抽取将互联网中的维基百科作为获取命名实体等价对的载体,利用维基百科多语言描述的特点作为汉语与柬埔寨语的桥梁,根据维基百科的页面结构特点定义了汉柬命名实体等价对抽取的规则,抽取了一定规模的高质量汉柬命名实体等价对,构建了汉柬命名实体库。2.基于机器学习方法的柬-汉音译模型构建基于机器学习方法的柬-汉音译模型通过将柬文命名实体翻译为中文命名实体的方式获取汉柬命名实体等价对。构建柬-汉音译模型将音译问题转化为音节切分标注和音节翻译标注两步标注序列问题,采用最大熵和条件随机场的机器学习方法构建音译模型。与统计机器翻译方法比较,机器学习构建的音译模型翻译效果更好。3.基于特征相似度的可比语料挖掘汉柬命名实体等价对基于特征相似度的可比语料挖掘汉柬命名实体等价对首先在汉柬双语可比语料中识别命名实体。根据不同类型命名实体自身的特点以及命名实体在可比语料中的特点定义了音译特征、翻译特征、上下文词向量特征、长度特征。分别计算候选命名实体各特征的相似度,根据不同类型的命名实体设置了不同特征相似度权重,通过各特征相似度加权求和的方式计算候选命名实体等价对的最终相似度,挖掘汉柬可比语料中的命名实体等价对。通过相似度计算的方法在汉柬可比语料中挖掘到了一定数量的汉柬命名实体等价对。(本文来源于《昆明理工大学》期刊2016-03-01)

林声[2](2009)在《可比语料中命名实体翻译等价对抽取方法研究》一文中研究指出大规模的命名实体翻译等价对可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抽取命名实体翻译等价对的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。同平行语料库相比较,可比语料库的限制少、易于更新、并且容易获得。因此现在可比语料中知识的挖掘已成为研究的热点。本文提出一种在可比语料库中,基于多特征的中英命名实体翻译等价对抽取方法。具体而言,首先从中英可比语料库中分别抽取中文命名实体和英文命名实体,然后通过计算中英命名实体之间多个特征的特征值得到命名实体匹配对,最后使用基于多特征二值分类模型来判断命名实体匹配对是否为正确的命名实体翻译等价对。其中在得到命名实体匹配对时,本文使用了判别训练算法来进行多特征的融合。最终得到正确率较高的命名实体翻译等价对集合。本文设计和实现了基于上述方法的命名实体翻译等价对抽取系统,系统的输入是中英可比语料;输出是中英文的命名实体翻译等价对集合。系统分为4个模块:(1)中英文命名实体抽取模块;(2)多个特征的命名实体翻译等价对匹配模块;(3)多特征融合模块;(4)命名实体翻译等价对对齐模块。中英文命名实体抽取模块,分别使用中文命名实体抽取工具和英文命名实体抽取工具,从可比较语料中抽取中文命名实体和英文命名实体。多个特征的命名实体翻译等价对匹配模块,使用翻译模型特征、音译模型特征、匹配模型特征等六个特征计算得到文命名实体和英文命名实体的匹配对。多特征融合模块,使用判别训练算法最小样本风险(MSR)算法,计算各个特征的特征参数进行特征融合。命名实体翻译等价对对齐模块,将对齐问题转化为分类问题,采用支持向量机(SVM)分类模型,使用翻译模型、音译模型等特征,进行二值分类,从而判断出匹配对是否为命名实体翻译等价对。本文的主要贡献有:(1)提出了一套能从可比较语料库中抽取命名实体翻译等价对的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合多特征、特征融合、对齐模型等模块,该框架可以获得比同类方法更好的性能。(本文来源于《大连理工大学》期刊2009-11-01)

陈怀兴,尹存燕,陈家骏[3](2008)在《一种命名实体翻译等价对的抽取方法》一文中研究指出有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。(本文来源于《中文信息学报》期刊2008年04期)

孙广范,宋金平,袁琦,肖健,单玉秋[4](2007)在《中英可比语料库中翻译等价对抽取方法研究》一文中研究指出回顾了语料库分类及可比语料库中翻译等价对抽取方法研究的历史。根据从可比语料库中提取翻译等价对所依据的基本假设:一个语言中一个词在对应到另外一种语言时其与周围词之间的共现搭配关系仍然被保持,采用双向等价对获取计算然后求交集、词加权因数TF(iw)*IDF(i)值计算、上下文词的词性信息利用的方法来提高翻译等价对提取正确率。描述了翻译等价对抽取实验步骤,并对实验结果进行了简要分析。实验结果表明上述方法可以有效提高翻译等价对计算结果的正确率。最后提出了需要进一研究的问题。(本文来源于《计算机工程与应用》期刊2007年32期)

张春祥,赵铁军,李生[5](2006)在《基于多重线性回归模型的翻译等价对获取》一文中研究指出翻译等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用。文章从双语句对的译文等价树中抽取翻译等价对。使用译文直译率、短语对齐概率和目标语-源语言短语长度差异等特征对自动获取的等价对进行评价。提出了一种基于多重线性回归模型的等价对评价方法,并结合N-Best策略对候选翻译等价对进行过滤。实验结果表明:在开放测试中,基于多重线性回归模型的等价对评价及过滤方法其性能要优于其它方法。(本文来源于《计算机工程与应用》期刊2006年04期)

吕雅娟,李生,赵铁军,杨沐昀[6](2003)在《基于双语语料库的翻译等价对自动抽取》一文中研究指出提出了一种利用双语语料库自动抽取多词翻译等价对的方法。首先利用N-gram模型获得候选翻译单元,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。在翻译概率的计算中对3种常用的统计同现测度进行了比较。实验表明,当语料规模较小时,对数似然比(Log Likelihood Ratio)测度对于翻译等价对的抽取具有较好的效果。与现有方法相比,该方法较好地解决了翻译等价对抽取中多词单元对应及间接相关问题。(本文来源于《高技术通讯》期刊2003年05期)

翻译等价对论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

大规模的命名实体翻译等价对可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抽取命名实体翻译等价对的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。同平行语料库相比较,可比语料库的限制少、易于更新、并且容易获得。因此现在可比语料中知识的挖掘已成为研究的热点。本文提出一种在可比语料库中,基于多特征的中英命名实体翻译等价对抽取方法。具体而言,首先从中英可比语料库中分别抽取中文命名实体和英文命名实体,然后通过计算中英命名实体之间多个特征的特征值得到命名实体匹配对,最后使用基于多特征二值分类模型来判断命名实体匹配对是否为正确的命名实体翻译等价对。其中在得到命名实体匹配对时,本文使用了判别训练算法来进行多特征的融合。最终得到正确率较高的命名实体翻译等价对集合。本文设计和实现了基于上述方法的命名实体翻译等价对抽取系统,系统的输入是中英可比语料;输出是中英文的命名实体翻译等价对集合。系统分为4个模块:(1)中英文命名实体抽取模块;(2)多个特征的命名实体翻译等价对匹配模块;(3)多特征融合模块;(4)命名实体翻译等价对对齐模块。中英文命名实体抽取模块,分别使用中文命名实体抽取工具和英文命名实体抽取工具,从可比较语料中抽取中文命名实体和英文命名实体。多个特征的命名实体翻译等价对匹配模块,使用翻译模型特征、音译模型特征、匹配模型特征等六个特征计算得到文命名实体和英文命名实体的匹配对。多特征融合模块,使用判别训练算法最小样本风险(MSR)算法,计算各个特征的特征参数进行特征融合。命名实体翻译等价对对齐模块,将对齐问题转化为分类问题,采用支持向量机(SVM)分类模型,使用翻译模型、音译模型等特征,进行二值分类,从而判断出匹配对是否为命名实体翻译等价对。本文的主要贡献有:(1)提出了一套能从可比较语料库中抽取命名实体翻译等价对的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合多特征、特征融合、对齐模型等模块,该框架可以获得比同类方法更好的性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

翻译等价对论文参考文献

[1].夏青.汉柬命名实体翻译等价对获取方法研究[D].昆明理工大学.2016

[2].林声.可比语料中命名实体翻译等价对抽取方法研究[D].大连理工大学.2009

[3].陈怀兴,尹存燕,陈家骏.一种命名实体翻译等价对的抽取方法[J].中文信息学报.2008

[4].孙广范,宋金平,袁琦,肖健,单玉秋.中英可比语料库中翻译等价对抽取方法研究[J].计算机工程与应用.2007

[5].张春祥,赵铁军,李生.基于多重线性回归模型的翻译等价对获取[J].计算机工程与应用.2006

[6].吕雅娟,李生,赵铁军,杨沐昀.基于双语语料库的翻译等价对自动抽取[J].高技术通讯.2003

标签:;  ;  ;  ;  

翻译等价对论文-夏青
下载Doc文档

猜你喜欢