热点信息发现论文-蔡文举

热点信息发现论文-蔡文举

导读:本文包含了热点信息发现论文开题报告文献综述及选题提纲参考文献,主要关键词:热点发现,热点追踪,排名聚合算法,时间序列预测

热点信息发现论文文献综述

蔡文举[1](2015)在《基于互联网金融异构信息挖掘的热点发现与追踪》一文中研究指出近年来,沪深A股市场上涌现出了许多热点概念,例如2015年上半年期间,“国企改革”、“互联网金融”、“一带一路”、“沪港通”等概念相继成为热点并频繁出现。相关个股在某一概念、热点背景下,往往在短期内有较好的市场表现。如何抓住这种市场上的热点、概念带来的投资机会,是量化研究领域非常关心的问题。本课题围绕A股市场热点发现这一问题,从互联网海量金融数据中挖掘出当前市场的热点个股以及相关板块,追踪市场热点的发展过程,并向投资者提供有价值的市场信息。本课题研究的主要内容如下:互联网金融异构信息获取及预处理:主要分为叁大类信息,第一类是A股实时行情数据,主要包括A股市场股票的每日价格涨跌和成交量;第二类是A股财务信息及板块分类;第叁类是个股舆情数据,主要包括新闻数据和股吧数据。获取这些数据后,通过进一步去噪,优化,提炼等处理,将原始的非结构化的金融数据处理为结构化数据,为后续系统的构建提供准确的数据保障。基于排名聚合算法的热点发现:本文把市场热点发现问题转化为排名聚合问题,从市场的热度信息中挖掘热度指标,将热度指标转化为热度排名,并采用排名聚合方法将众多的热度排名转化为综合热度排名,从热度排名信息中发现市场热点。本文主要研究了一类基于无监督的排名聚合算法,并从行情、股吧、新闻叁个维度进行热度计算,搭建了一套完善且有效的热点发现模块。基于时间序列预测方法的热点追踪:完成热点发现模块后,从热度时间序列信息出发,研究市场上的热点变化规律。根据历史热度序列去预测未来热度序列正是时间序列预测所研究的内容。本文主要研究了时间序列预测方法和排名学习方法在热点追踪问题中的应用。综上所述,本文使用数据挖掘技术从海量金融数据中挖掘当前市场正在炒作的热点个股以及相关板块,追踪市场热点的发展过程,并向投资者提供有价值的市场信息。(本文来源于《哈尔滨工业大学》期刊2015-12-01)

赵继春,刘世洪,乔珠峰[2](2015)在《农业网站舆情热点信息发现系统研究与开发》一文中研究指出研究了农业信息处理和分析技术,开发了农业网站舆情热点发现系统,实现农业相关类网站的网络舆情分析,发现农业类相关网站的网络舆情热点,通过网络信息的自动获取、分类存取以及热点发现,实现对农业网站舆情信息的热点监测和热点发现功能,为农业科研人员和管理者提供个性化的决策参考。(本文来源于《安徽农业科学》期刊2015年24期)

邱海健[3](2014)在《网络热点信息发现系统的设计与实现》一文中研究指出从某单位的实际需求出发,利用Web技术和SQL Server 2008数据库,开发了一个网络热点信息发现系统。该系统采用B/S架构模型和C#的程序设计开发语言,以Single Pass算法和热度评价算法作为系统的核心算法,基本实现了页面信息采集和信息处理等功能。目前该系统已投入使用,检测热点信息效果良好。(本文来源于《自动化与仪表》期刊2014年08期)

徐慧[4](2014)在《Web热点信息发现系统的设计与实现》一文中研究指出近几年来,Web网站技术发展迅速,已经彻底改变了互联网的面貌。Web网站现在更加强调自由创作和用户参与活动,越来越多的网民在新一代Web平台上创造了海量生动有趣的信息内容。越来越丰富的互联网信息资源使得用户难以在信息浩瀚的数据海洋中寻找到自己真正感兴趣的信息。因此,各种各样的信息检索和搜索引擎技术得到了广泛关注和巨大发展。随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的“第四大媒体”。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源。因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,设计并实现了Web热点信息发现系统。本文研究内容的创新点主要包括:(1)新闻网页的分类抓取及文本预处理操作;(2)针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法;(3)热点信息的自动发现功能;(4)热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。(本文来源于《湖南大学》期刊2014-04-15)

张慷[5](2013)在《一种基于文本先分类再聚类的互联网热点信息发现方法》一文中研究指出针对互联网热点信息发现的需求,提出一种基于先分类再聚类的互联网信息热点发现及分析系统构建方法.通过对互联网样本信息文本的特征提取,构建文本向量空间模型,使用Maxent最大熵分类模型对文本进行分类,对分类结果使用OPTICS聚类算法获取文本热点簇,最终获取有效热点信息.实验证明,通过先分类再聚类的方法可以有效避免语义类别不同但字面意义混淆的文章对聚类算法的影响,有效提高聚类结果的精度和运算效率.(本文来源于《兰州工业学院学报》期刊2013年03期)

罗云[6](2013)在《互联网海量信息中热点信息主题的自动发现》一文中研究指出随着网络信息资源的日益膨胀,使得仅仅靠传统的经验判断已无法帮助用户了解海量网络信息中的热点信息主题和某个热点主题的相关热点事件。如何从数量庞大、类别繁多、背景复杂、“舆论多元”的网络信息资源中分析出网络信息的分布结构,自动发现我们所需的热点信息主题,是一项综合性的技术,更是我们所要解决的紧迫问题。本文首先研究了热点信息主题自动发现文本预处理流程中的相关核心技术,并对文本特征权值计算方法、文本特征提取方法进行相关改进,提出了基于Web结构特征的TF IDF文本特征权值计算方法、文本概念特征提取方法,并采用基于新闻事件特性的文本表示方法,以提高文本表示效果和降低特征空间的维数,从而降低计算复杂度和提高聚类质量。本文的研究内容倾向于新话题的检测(Topic Detection Task),即网络热点信息主题的自动发现过程。因此,针对传统的话题检测技术中聚类策略(如凝聚层次聚类、增量K-Means)存在的不足,立足于基于密度的文本聚类算法,对其进行深入分析,提出了基于子簇关系的多分辨率密度聚类算法来实现热点信息主题的自动发现。随后,对此算法进行性能评估和聚类结果分析,实验结果显示该算法的性能和聚类效果都在一定程度上得到改善,提高了热点信息主题自动发现的效率和效果。为了更好的让用户理解热点信息主题的内容,本文在前人研究的基础上,采用基于FP-growth算法的DCF类簇标签生成算法对热点信息主题进行描述。该算法生成的类簇标签可读性强,可实现用户对主题内容的快捷浏览。在实现网络热点信息主题的特征分析和评估时,我们采用了2012年6月-7月全网新闻数据集进行热点信息主题的自动发现、展示、对比分析和实验结果的检验评估。虽然热点信息主题的自动发现与分析技术在国内外已经有一些比较成熟的技术,但如何对ZB级的海量信息进行有效的文本聚类,并实现应用性更强的热点信息主题在线自动发现,需要进一步研究。(本文来源于《华南理工大学》期刊2013-06-01)

翟东海,王佳君,聂洪玉,崔静静[7](2013)在《基于互信息的热点词发现和突发性话题检测研究》一文中研究指出针对舆情监测中现存的热点词提取方法精度不高、速度不快的问题,文章采用互信息作为热点词突发性的度量手段,并使用类间离散度作为调节因子来构建热点词的突发性度量公式。在此基础上,构造了改进后的动态突发性向量空间模型,并用于网络中突发性热点话题的发现与追踪。实例验证结果表明,文章提出的改进方法能够获得很好的准确度P、召回率R和F度量。(本文来源于《西藏大学学报(自然科学版)》期刊2013年01期)

时志芳[8](2013)在《移动投诉信息中热点问题的自动发现与分析》一文中研究指出当今社会,随着通信和网络技术的飞速发展,移动通信服务作为一种便捷的交流和沟通方式,在人们的日常生活和工作中发挥着举足轻重的作用。近年来,运营商提供的服务种类和客户群体数量不断增加,导致了客户投诉数量也呈现出急剧上升的趋势。于是各大企业在经营中开始更多地关注客户满意度,并且把客户满意度的不断提升作为重要的战略目标。目前,国内外研究学者对热点问题的发现已有一些成果,但它们处理的对象主要是从互联网上抓取的海量文本信息,而对于通信服务中的客户投诉这个专业领域尚无成熟的可借鉴的技术。因此,如何通过对现有的投诉信息分析来发现内部隐藏的热点问题,及时地采取措施,对于提高服务质量、提升品牌价值显得极其重要和迫切。正是在此背景下,本文提出了对移动投诉信息进行数据挖掘的课题,目的是建立一种投诉信息热点问题自动发现与分析的系统模型,以解决目前存在的投诉业务量急剧增长与分析处理效率低下之间的矛盾。本文的主要内容概括如下:首先,介绍了热点问题发现的研究背景和发展现状,分析了当前的热点发现系统存在的问题,阐述了本系统的设计原理及工作流程。其次,通过对投诉信息文本及热点问题特点的分析,明确了系统需求,设计了系统基础架构,提出了一种优化的K-means算法,并在结合数据仓库中联机分析处理(OLAP)和关联规则的基础上,实现了对不同主题类别的热点问题的挖掘和分析。最后,将该系统模型应用于移动投诉管理项目中,并对系统运行情况进行了展示。(本文来源于《北京邮电大学》期刊2013-01-10)

程辉[9](2012)在《基于论文摘要及引用信息的领域研究热点发现》一文中研究指出在信息呈现爆炸式快速增长的互联网信息时代,要想从这些海量的信息中,去除冗余信息,挑选出自己真正需要的,并不是一件非常容易的事情。同样,对于从事科学活动的研究者来说,情况也是类似的。研究者经常需要了解自己所研究领域的研究热点的发展变化趋势;并且,有时甚至需要研究者能够快速地了解并进入一个新的研究领域。阅读相关领域的海量的论文,并从中获取该领域的研究热点显然是一个相当痛苦的过程。如果通过领域内的论文集,能自动发现领域的研究热点,肯定对需要了解相关信息的研究者有很大的帮助作用。基于此目的,本文研究了基于论文摘要及引用信息的领域研究热点发现的相关问题。本文的主要工作如下:第一、利用论文间的引用关系及作者、发表时间等论文本身的基本信息,本文抽取了被其他ACL论文引用次数不少于20次的,876篇ACL论文的摘要文本及引用信息文本,构建了论文摘要语料库及论文引用信息语料库。第二、本文提出了一种基于论文摘要及引用信息的领域研究热点发现策略,对语料库中的文本执行了热点发现过程中的一系列关键操作,首先过滤掉其中的对发现热点无贡献的噪声停用词,用一种改进的TF方法选取那些能充分代表该文本内容的特征词;将这些特征词向量化并赋予权值,以数学的语言对该文本进行重新描述;之后对文本执行一种融合了AP算法与K均值算法的聚类操作,每个类簇都是对该论文的部分研究内容的一个概括。第叁、从聚类的结果的每一个类簇中,提取最能代表该类簇的句子,将这些句子整合生成对该论文的一个更全面的总结,从该总结中发现该论文的研究话题焦点;将发现的论文集中的论文的研究话题焦点汇总,并利用论文的发表时间信息,发现该领域的研究热点;结果显示这种策略发现的领域研究热点基本体现了该特定领域的本质特点,证明这种策略是有效的。(本文来源于《哈尔滨工业大学》期刊2012-06-01)

唐远华[10](2011)在《Web新闻热点信息的自动发现及展示》一文中研究指出随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的第四大媒体。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源,因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,本文的主要工作有:1、新闻网页的分类抓取及预处理操作。本文利用各大网站的编辑者将网页按目录结构存放这一特点,设计了一个分类抓取的网络爬虫,并在抓取的过程中进行网页的正文抽取。然后对正文信息进行分词、特征抽取等预处理操作,为后面的热点信息的发现提供数据。2、针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法。3、热点信息的自动发现功能。首先分析了热点词语和热点话题的特点,采用中科院的分词工具ICTCLAS进行命名实体的抽取,结合PAT-Tree和互信息评估方法对非实体串进行抽取,最后进行热度评估,抽取出热点词语;使用Single-Pass二次聚类算法进行话题的检测与跟踪,首先对当天报道进行局部聚类,形成候选话题集,然后再与旧话题集进行归并聚类,形成最终的话题集,然后对这些话题进行热度排序,最终形成热点话题。4、热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。(本文来源于《华南理工大学》期刊2011-11-01)

热点信息发现论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

研究了农业信息处理和分析技术,开发了农业网站舆情热点发现系统,实现农业相关类网站的网络舆情分析,发现农业类相关网站的网络舆情热点,通过网络信息的自动获取、分类存取以及热点发现,实现对农业网站舆情信息的热点监测和热点发现功能,为农业科研人员和管理者提供个性化的决策参考。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

热点信息发现论文参考文献

[1].蔡文举.基于互联网金融异构信息挖掘的热点发现与追踪[D].哈尔滨工业大学.2015

[2].赵继春,刘世洪,乔珠峰.农业网站舆情热点信息发现系统研究与开发[J].安徽农业科学.2015

[3].邱海健.网络热点信息发现系统的设计与实现[J].自动化与仪表.2014

[4].徐慧.Web热点信息发现系统的设计与实现[D].湖南大学.2014

[5].张慷.一种基于文本先分类再聚类的互联网热点信息发现方法[J].兰州工业学院学报.2013

[6].罗云.互联网海量信息中热点信息主题的自动发现[D].华南理工大学.2013

[7].翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报(自然科学版).2013

[8].时志芳.移动投诉信息中热点问题的自动发现与分析[D].北京邮电大学.2013

[9].程辉.基于论文摘要及引用信息的领域研究热点发现[D].哈尔滨工业大学.2012

[10].唐远华.Web新闻热点信息的自动发现及展示[D].华南理工大学.2011

标签:;  ;  ;  ;  

热点信息发现论文-蔡文举
下载Doc文档

猜你喜欢