短语消息论文-蔡立坤

短语消息论文-蔡立坤

导读:本文包含了短语消息论文开题报告文献综述及选题提纲参考文献,主要关键词:即时通信,短语消息,文本聚类

短语消息论文文献综述

蔡立坤[1](2016)在《即时通信的短语消息文本聚类方法研究》一文中研究指出随着互联网技术及移动应用的快速发展,人们对信息获取的需求越来越大,同时想要快速高效地从大量、充满噪声的数据中获取有价值的信息也变得越来越困难。即时通信作为应用最广泛、使用频率最高的互联网应用,源源不断地产生海量的数据,这些数据关键词稀疏、句法不规范,如何在这海量不规范的短语消息中快速有效地寻找到有价值的信息成为一个难题。本文首先分析了文本聚类的一般流程,并在对比了国内外文本聚类研究现状的基础上,详细地介绍了即时通信上的短语消息的特点,以及针对短语消息文本聚类的关键技术。第二,为解决关键词稀疏导致的文本相似度计算偏差以及文本相似度普遍较低的问题,本文提出了一种基于语义的动态文本相似度计算方法,并改进了HowNet的语义相似度计算方法;第叁,为解决短语消息句法不规范、单条消息包含的内容较少的问题,本文提出了一种多因素的对话线索抽取方法,将单条消息抽取成对话;第四,为解决k-means方法初值难以确定的问题,本文提出一种改进的Apriori频繁项集挖掘方法,并在该方法的基础上提出Apr-means混合聚类算法,在频繁项集挖掘结果的基础上自融合生成K-means的初始聚簇中心。最后,通过实验表明本文所提出的即时通信短语消息文本聚类方法在准确率和速度上均有一定的提高。为了编写程序完成以上方法的实验验证,本文设计并实现了一个面向即时通信短语消息的数据可视化系统。该系统主要包括存储模块、辅助模块、聚类模块和可视化模块。系统采用一键式操作,对聚类结果、用户信息、消息信息等以图表的形式进行可视化的展示。(本文来源于《北京理工大学》期刊2016-06-01)

王乐[2](2008)在《短语消息聚类相关技术研究》一文中研究指出随着互联网和通信技术的发展,Instant Messaging、Internet Relay Chat等即时通信工具得到广泛普及和应用。这些即时通信工具往往产生大量的、用于人们交流和通信的交互性短文本,简称为短语消息。短语消息在传递公开信息的同时携带了丰富的用户信息,从而成为一种新的具有极大价值的信息资源。对短语消息进行分析和挖掘,对于信息的管理和优化、关键信息的提取、以及信息的理解等具有重要意义。短语消息是一种即时交互性短文本,与常规文本相比,具有不完整性、交错性、不规范性和混淆性的特点。此外,高速的短语消息流造成了大规模的短语消息归档数据库。这些特征给短语消息挖掘研究提出了挑战。本文以短语消息挖掘为背景,以短语消息聚类相关技术为研究内容,以构建准确、高可伸缩的短语消息聚类系统为目标,展开了从短文本相似性度量到短语消息预处理,再到并行的短语消息聚类算法的系列研究。主要研究成果包括:(1)针对短语消息的特点,提出了一个短语消息聚类系统模型MeCSyM,该模型兼顾了短语消息流和归档的短语消息数据库场景,包括短语消息会话抽取、短文本表示与相似性度量、并行短语消息聚类算法叁个主要部分,为短语消息聚类提供了一个可选的总体研究方针和路线,是本文开展短语消息聚类研究、设计和实现的基础。(2)详细分析了短语消息的内容特征、语法特征和时间特征,提出了短语消息流上的会话抽取算法DWExter。利用短语消息间时间分布特征,设计了双时间窗口机制及其数据结构RMR,以支持DWExter算法较高的执行效率,实现动态短语消息流上高效的会话抽取功能。在真实数据集上的实验表明,与两个基准测试算法相比,DWExter的准确性分别提高了约85%和18%。(3)针对短文本关键词稀疏而导致常规度量方法下文本相似度漂移的问题,提出了基于HowNet和语料集的词间关系量化算法CrtNRG。在该算法的基础上,针对高速文本消息流分析和大规模短文本数据挖掘,提出了短文本的动态向量表示和相似性度量算法SiM。在短文本聚类实验中,分别采用TF-IDF方法、基于语料集的方法和SiM算法作为文本相似性度量算法,实验结果表明,与TF-IDF方法相比,SiM算法使聚类质量提高了一倍以上,而与基于语料集的方法相比,采用SiM算法的聚类质量也得到了约36%的提升。(4)在分析k-means算法和基于频繁词集聚类算法特点的基础上,提出了一个短文本混合聚类算法SHDC。该算法利用上述的SiM算法,可以为短语消息会话生成高质量的聚类结果,并且为聚簇提供了描述信息。另外,以降低数据子集间耦合度为目标,设计了一个纵向的数据划分策略VDiV。以此为基础,提出了并行k-means的改进算法OK-means,并提出了粗聚类的概念和并行粗聚类算法parROC。基于以上两个并行算法,设计了一个并行的短文本混合聚类算法parSHDC。实验结果表明,相对PDDP K-mean和并行k-means算法,parSHDC在聚类质量上分别提高了约12%和18%,而加速比分别提高了约38%和50%。(5)基于上述研究成果和研究组已有的系统平台StarTPMonitor,设计并实现了一个短语消息聚类原型系统StarSTMiner+,通过对StarSTMiner+系统结构的介绍,讨论了主要模块的实现方法和可进一步完善的方面。(本文来源于《国防科学技术大学》期刊2008-10-01)

短语消息论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网和通信技术的发展,Instant Messaging、Internet Relay Chat等即时通信工具得到广泛普及和应用。这些即时通信工具往往产生大量的、用于人们交流和通信的交互性短文本,简称为短语消息。短语消息在传递公开信息的同时携带了丰富的用户信息,从而成为一种新的具有极大价值的信息资源。对短语消息进行分析和挖掘,对于信息的管理和优化、关键信息的提取、以及信息的理解等具有重要意义。短语消息是一种即时交互性短文本,与常规文本相比,具有不完整性、交错性、不规范性和混淆性的特点。此外,高速的短语消息流造成了大规模的短语消息归档数据库。这些特征给短语消息挖掘研究提出了挑战。本文以短语消息挖掘为背景,以短语消息聚类相关技术为研究内容,以构建准确、高可伸缩的短语消息聚类系统为目标,展开了从短文本相似性度量到短语消息预处理,再到并行的短语消息聚类算法的系列研究。主要研究成果包括:(1)针对短语消息的特点,提出了一个短语消息聚类系统模型MeCSyM,该模型兼顾了短语消息流和归档的短语消息数据库场景,包括短语消息会话抽取、短文本表示与相似性度量、并行短语消息聚类算法叁个主要部分,为短语消息聚类提供了一个可选的总体研究方针和路线,是本文开展短语消息聚类研究、设计和实现的基础。(2)详细分析了短语消息的内容特征、语法特征和时间特征,提出了短语消息流上的会话抽取算法DWExter。利用短语消息间时间分布特征,设计了双时间窗口机制及其数据结构RMR,以支持DWExter算法较高的执行效率,实现动态短语消息流上高效的会话抽取功能。在真实数据集上的实验表明,与两个基准测试算法相比,DWExter的准确性分别提高了约85%和18%。(3)针对短文本关键词稀疏而导致常规度量方法下文本相似度漂移的问题,提出了基于HowNet和语料集的词间关系量化算法CrtNRG。在该算法的基础上,针对高速文本消息流分析和大规模短文本数据挖掘,提出了短文本的动态向量表示和相似性度量算法SiM。在短文本聚类实验中,分别采用TF-IDF方法、基于语料集的方法和SiM算法作为文本相似性度量算法,实验结果表明,与TF-IDF方法相比,SiM算法使聚类质量提高了一倍以上,而与基于语料集的方法相比,采用SiM算法的聚类质量也得到了约36%的提升。(4)在分析k-means算法和基于频繁词集聚类算法特点的基础上,提出了一个短文本混合聚类算法SHDC。该算法利用上述的SiM算法,可以为短语消息会话生成高质量的聚类结果,并且为聚簇提供了描述信息。另外,以降低数据子集间耦合度为目标,设计了一个纵向的数据划分策略VDiV。以此为基础,提出了并行k-means的改进算法OK-means,并提出了粗聚类的概念和并行粗聚类算法parROC。基于以上两个并行算法,设计了一个并行的短文本混合聚类算法parSHDC。实验结果表明,相对PDDP K-mean和并行k-means算法,parSHDC在聚类质量上分别提高了约12%和18%,而加速比分别提高了约38%和50%。(5)基于上述研究成果和研究组已有的系统平台StarTPMonitor,设计并实现了一个短语消息聚类原型系统StarSTMiner+,通过对StarSTMiner+系统结构的介绍,讨论了主要模块的实现方法和可进一步完善的方面。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

短语消息论文参考文献

[1].蔡立坤.即时通信的短语消息文本聚类方法研究[D].北京理工大学.2016

[2].王乐.短语消息聚类相关技术研究[D].国防科学技术大学.2008

标签:;  ;  ;  

短语消息论文-蔡立坤
下载Doc文档

猜你喜欢