全文搜索引擎论文-魏俊博

全文搜索引擎论文-魏俊博

导读:本文包含了全文搜索引擎论文开题报告文献综述及选题提纲参考文献,主要关键词:全文搜索引擎,轨迹数据,分布式存储,聚合图层

全文搜索引擎论文文献综述

魏俊博[1](2019)在《基于全文搜索引擎的大规模轨迹数据高效查询统计研究》一文中研究指出轨迹数据是连续轨迹点的集合,轨迹点通常是具有时间和空间属性的空间点对象。在互联网、GPS定位等技术迅速发展的背景下,轨迹数据的种类、规模及其产生速度都在迅速增加。海量的轨迹数据必然蕴含了诸多有用的信息,通过不同的技术与方法对这些信息进行挖掘分析,对空间数据的研究与应用有着重要意义。数据的查询与统计是数据挖掘分析的必要条件,也是互联网产品日常使用过程中的基本需求;高效的数据查询与统计速度不仅能保障数据分析的时效性,而且有助于提升互联网产品的用户体验。本文基于Elasticsearch全文搜索引擎框架,以出租车轨迹数据为例,对空间轨迹数据的高效查询与统计分析做了深入研究。首先,剖析了传统关系型数据库与全文搜索引擎在大规模数据存储与检索上的优劣;其次,搭建了Elasticsearch集群服务并对其查询性能做了测试分析;再次,基于Geohash地理编码实现了WebGIS中大量点数据高效聚合展示的功能;最后,设计并开发了大规模轨迹数据高效查询统计系统,验证了将全文搜索引擎应用于轨迹数据高效检索的可行性。本研究主要取得如下成果:1)探索了出租车轨迹数据在Elasticsearch集群中的存储方案,搭建了用于存储出租车轨迹数据的Elasticsearch集群。经性能测试工具的模拟查询测试,该集群在高并发访问条件下具有高效的查询速度与可靠的稳定性。2)后台实现了起讫点数据高效动态聚合展示的相关算法,解决了传统前端WebGIS框架难以实现大规模点数据高效聚合的问题。该方法首先采用Geohash对二维空间进行网格划分,对出租车起讫点数据进行基于网格的聚类,然后将聚类结果再次进行基于密度的聚类得到最终聚合结果。经实例验证,该方法具有较好的动态聚合效率与效果。3)基于Elasticsearch集群服务与相关前端开发框架设计开发了用于大规模轨迹数据高效查询统计的可视化系统,系统支持空间查询、属性查询、聚合分析、热点区域分析等功能。从而实现了全文搜索引擎与WebGIS应用的结合。(本文来源于《长安大学》期刊2019-04-20)

孟峰,荆诚[2](2019)在《全文搜索引擎在煤矿运维系统中的应用》一文中研究指出针对目前已有的煤矿运维系统功能单一、自动化程度低等问题,将全文搜索引擎应用到煤矿运维系统中,通过搜索引擎从故障解决方案数据库中搜索出匹配的解决方案。介绍了煤矿运维系统流程及故障解决方案来源、数据结构和录入流程;通过对比选型,选择Elasticsearch作为煤矿运维系统的全文搜索引擎,并给出了其具体应用方法。实例分析及测试结果表明,该搜索引擎提供的搜索结果与告警内容所反映的故障相关度较高,能够为解决故障提供有效帮助。(本文来源于《工矿自动化》期刊2019年03期)

张文超,胡玉兰[3](2018)在《基于PyQt的全文搜索引擎平台开发》一文中研究指出网络信息数量的日益增加,对人们从中获取有效信息的能力提出了更高要求。为了更好地响应用户需求,提高信息处理效率并降低人力成本,基于PyQt进行全文搜索引擎平台开发。采用模块化思想设计网络信息采集功能,然后将获取的信息经数据处理后建立索引库,采用PageRank算法对查询响应结果进行排序,实现检索器功能,并通过用户的点击决策,利用神经网络对排序结果进行二次修正。最后,在界面输入查询字符串后,便可快速得到已排序的链接响应,从而能更好地反映用户对检索结果的感兴趣程度,并提供个性化服务。(本文来源于《软件导刊》期刊2018年09期)

李志伟[4](2018)在《基于Google API的全文搜索引擎系统》一文中研究指出搜索引擎能够向用户提供网络查询服务,具备实现自动搜索信息建立索引库的能力。搜索引擎技术结合了互联网技术及现代信息检索技术,使得搜索能力更加强劲。使用Google API搜索引擎不仅降低了用户的成本,而且为用户带来一个简单、人性化的搜索系统设计。本文首先对基于Google API的全文搜索引擎系统概要设计,并介绍其实现的步骤,随后给出实现的平台及采用的数据库支撑优点。(本文来源于《读与写(教育教学刊)》期刊2018年04期)

赵乐乐[5](2017)在《基于Docker技术的全文搜索引擎的研究与应用》一文中研究指出随着计算机世界第叁次革命浪潮的兴起。在这次浪潮中,云计算与大数据大量的应用,使得数据的处理已经跃升至TB乃至PB级,并同时针对这些数据进行更快捷、更高效的处理。因此,在云计算概念上衍生而来的各种大数据处理方法与技术,业已成为此次浪潮中主流[20]。而Hadoop平台作为此次浪潮中应用最广泛的大数据处理平台,构建在基于虚拟化技术的Hadoop架构全文搜索引擎的上基础上,有着运行稳定、经济、便于管理、存储和计算的优势。本文在全文搜索引擎的搭建方面,首先通过分析和总结当前几种分布式搜索引擎的优缺点后,提出基于Hadoop平台的分布式搜索引擎,然后分析传统服务器部署的局限性并比较传统的虚拟化技术与Docker容器技术在处理性能方面的优劣,从而使用Docker容器作为Hadoop平台底层架构来搭建Hadoop平台,以便优化Hadoop平台的性能。接着,对分布式搜索引擎的爬行、索引、查询叁个子系统进行研究,并应用Map/Reduce的并行算法思想,使Map函数封装数据计算任务、Reduce函数封装数据合并任务。此外,系统在全文检索方面使用了基于倒排文档的技术并结合TF-IDF(Term frequency–inverse document frequency)和PageRank算法进行相关度计算,优化检索方法。同时,经过底层Docker容器可以更方便的进行搜索引擎的部署和移植。基于以上研究,本文先通过对比实验,验证了与传统虚拟技术相比,Docker在读写性能方面的优势。接着,设计与优化了Hadoop在Docker容器集群的部署方案。基于以上两点,设计与构建了一个基于Docker技术的Hadoop架构的全文搜索引擎系统,并对系统的性能、可靠性、可扩展性进行测试。通过对获取的实验数据进行分析,验证了基于Docker技术的Hadoop架构的全文搜索引擎的合理性与正确性。(本文来源于《南京邮电大学》期刊2017-10-26)

黄正[6](2016)在《基于Lucene的站内全文搜索引擎的设计与实现》一文中研究指出随着因特网网络信息的极速发展,因特网为广大网络用户提供极大的言论自由,信息的随处可得给人们带来很大的便利,人们可以通过网络获得世界各地各式各样的信息。然而因特网网站上的信息是一个开放的、分布式的信息流,快速无序增长的信息对于因特网用户来说意味着信息流缺乏统一有效的管理。为了找到需要的信息,用户在因特网上花费大量的时间和精力却不得其所,信息的有效性整体随着信息量的爆增而大打折扣。因此,为了让每个用户在广阔的因特网上找寻到自己需要的信息,利用传统的全文检索原理实现了搜索引擎系统。搜索引擎能够让用户增加收集和定位信息的能力。通过发现尽可能多的网络信息,再以一定的策略收集并加以处理和管理,最终提供高效、快捷的全文搜索服务。随着因特网技术越来越成熟,开源技术的不断发展,网站建站成本也日益降低,又因其能够很好的展示各种的信息,几乎每个国家政府机构、事业、企业单位都建立了自己的门户网站。随着时间的推移,网站积累的信息越来越多,用户不能忍受花大量的时间和精力通过导航栏找寻网页信息,通用搜索引擎,比如google、百度等搜索引擎也不能满足用户搜索精准定位的需求,为了解决这个问题,这就需要在网站中建立自己的全文搜索引擎。本文首先论述论文研究背景和意义;接着简单介绍搜索引擎产生背景、发展历史、信息检索和未来的发展方向,重点详细研究决定搜索引擎性能的叁个关键技术:中文分词、索引技术和检索技术;接着详细介绍全文搜索引擎需求分析、系统总体概要设计和主要模块概要设计;然后结合Lucene开发框架实现一个全文搜索引擎,实现了网络爬虫、数据解析、索引器、检索器和用户界面五个模块;最后对设计的全文搜索引擎系统部署到服务器上,然后进行功能和性能测试,并对测试结果进行总结和改进,提出了对于相关性算法的改进,显着的提高了搜索引擎的准确率,最终能够让用户通过站内全文搜索引擎立即精准找到需要的网页信息。论文最后对基于Lucene的全文搜索引擎系统的实现方法进行了总结,并对未来研究工作展望。(本文来源于《北京邮电大学》期刊2016-02-05)

黄菊,姜大庆[7](2015)在《基于Lucene.net的农作物生产技术服务平台全文搜索引擎的设计与实现》一文中研究指出该文针对农作物生产技术特定领域对资源检索功能的需求,对基于Lucene.Net的全文检索关键技术进行了研究,运用盘古分词等中文分词开源工具包,集成到Lucene.Net平台上,在此基础之上对其分词、索引建立、检索结果排序进行了改进和优化。提出了基于Lucene.net的农作物生产技术服务平台全文搜索的流程,并给出了搜索引擎的实现过程。(本文来源于《电脑知识与技术》期刊2015年29期)

何荣杰[8](2015)在《基于Lucene的全文搜索引擎的研究与实现》一文中研究指出随着网络的普及以及数字信息的爆炸式增长,人们通过互联网,足不出户便可以获取海量的信息。同时,随着经济的发展,企业日益全球化,使得企业之间的竞争越来越激烈。在信息技术飞速发展的时代,如何能够快速、准确、全面地找到企业系统内部的信息数据,并加以利用,对企业的发展有着重要作用。Google、Baidu、Yahoo等大型商用搜索引擎目前已经能够实现企业内部数据检索功能,但是由于企业搜索的特殊性,使得商业化以及大众化的搜索引擎不适合企业内部敏感数据的搜索。因此,如何利用现有搜索引擎技术,搭建适合企业内部使用的搜索引擎,成为当前重要的研究课题。针对企业需要高质量地检索内部数据的需求,本课题从企业搜索引擎的必要性以及可行性进行分析,最终确定以Lucene架构为核心,充分利用其开源、轻巧、高效的特点,综合运用其它诸如文本提取、数据库等技术做二次开发,构建满足企业内部数据检索需要的搜索引擎。基于Lucene的企业搜索引擎己经成为搜索引擎和企业信息数据挖掘研究中的热点和重点,本文的研究内容主要如下:第一,分析企业搜索引擎的研究现状和趋势,学习搜索引擎的基本原理,并深入研究Lucene的架构、分词方法和索引技术。第二,研究了文档相关度策略,并通过改进Lucene索引结构减少寻址次数。针对Lucene内部的索引文档占用大量存储空间这一问题,深入研究索引压缩算法,并提出改进的PFor Delta算法。第叁,对于常见的格式文档类型,本文对非结构化的Word文件、PDF文件、Excel文件等进行处理,将其转化为能够被识别的纯文本格式,使得系统能够搜索多种格式的数据。第四,对搜索引擎中各个功能模块进行详细的分析和设计,并通过Java语言实现基于Lucene的企业搜索引擎。通过对搜索引擎的测试和分析,结果表明,搭建的搜索引擎能够满足企业日常对非结构化数据搜索的需求,具有一定的可行性和实用性。(本文来源于《江苏科技大学》期刊2015-12-21)

李炳练[9](2015)在《基于Lucene的中文分词全文搜索引擎设计与实现》一文中研究指出基于Lucene的全文检索开源项目基础上,采用Paoding Analyzer中文分词器,设计了一个基于中文环境的高效分词与全文搜索引擎系统,实现多种类型文件内容的文本全文检索功能。(本文来源于《电脑知识与技术》期刊2015年13期)

高建贵[10](2015)在《基于Lucene的大数据量全文搜索引擎的研究与实现》一文中研究指出大数据时代,搜索引擎已经成为人们获取信息和进行信息化管理的重要工具,Lucene作为当前最为流行的开源搜索工具之一,已经应用到很多领域。但是随着数据量的增长Lucene会遇到很多问题,大数据量索引产生的大索引文件会在索引创建、索引优化合并以及搜索等操作时暴露出很多问题,而且大索引也影响着搜索的实时性。这些随着数据量增大而带来的一系列问题一直以来都困扰着开发人员,对于Lucene也只是一个搜索引擎工具包,在实际应用中特别是大数据量情况下的应用中需要我们做的还有很多很多。本文就是围绕这些问题而展开,并提出了一套有效解决以上问题的方案。通过不断的学习和实践,我们总结了影响大数据量索引和搜索性能主要的原因是大索引文件以及索引碎片的共同存在,造成增量索引、索引合并以及搜索加载成本太高和对大量数据进行索引和合并时遇到的磁盘IO瓶颈和内存的过度消耗。针对以上问题,我们主要从叁个方面入手以解决大数据量下索引和搜索的问题:第一,针对单索引情况采用缓存技术,内存索引目录以及复用Index Writer和Index Search对象等方法减少磁盘IO并提高搜索加载速度;第二,我们提出了一种多文件存储的主索引局部优化合并的策略来解决因大索引文件和索引碎片共存而带来的索引增量和合并成本过高问题;第叁,将索引增量与索引更新分开处理,分索引文件存储进行内部优化,以减少主索引合并优化频率,并为实时性搜索提供支持。考虑到实际应用中的实时性要求和传统实时性搜索解决方案在大数据量情况下存在的问题,我们提出了一种新的实时性搜索解决方案。在文章最后我们采用以上提出的索引和搜索优化方案以及实时性搜索解决方案实现了一个全文搜索引擎并嵌入到实际的项目中。(本文来源于《重庆大学》期刊2015-04-01)

全文搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对目前已有的煤矿运维系统功能单一、自动化程度低等问题,将全文搜索引擎应用到煤矿运维系统中,通过搜索引擎从故障解决方案数据库中搜索出匹配的解决方案。介绍了煤矿运维系统流程及故障解决方案来源、数据结构和录入流程;通过对比选型,选择Elasticsearch作为煤矿运维系统的全文搜索引擎,并给出了其具体应用方法。实例分析及测试结果表明,该搜索引擎提供的搜索结果与告警内容所反映的故障相关度较高,能够为解决故障提供有效帮助。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

全文搜索引擎论文参考文献

[1].魏俊博.基于全文搜索引擎的大规模轨迹数据高效查询统计研究[D].长安大学.2019

[2].孟峰,荆诚.全文搜索引擎在煤矿运维系统中的应用[J].工矿自动化.2019

[3].张文超,胡玉兰.基于PyQt的全文搜索引擎平台开发[J].软件导刊.2018

[4].李志伟.基于GoogleAPI的全文搜索引擎系统[J].读与写(教育教学刊).2018

[5].赵乐乐.基于Docker技术的全文搜索引擎的研究与应用[D].南京邮电大学.2017

[6].黄正.基于Lucene的站内全文搜索引擎的设计与实现[D].北京邮电大学.2016

[7].黄菊,姜大庆.基于Lucene.net的农作物生产技术服务平台全文搜索引擎的设计与实现[J].电脑知识与技术.2015

[8].何荣杰.基于Lucene的全文搜索引擎的研究与实现[D].江苏科技大学.2015

[9].李炳练.基于Lucene的中文分词全文搜索引擎设计与实现[J].电脑知识与技术.2015

[10].高建贵.基于Lucene的大数据量全文搜索引擎的研究与实现[D].重庆大学.2015

标签:;  ;  ;  ;  

全文搜索引擎论文-魏俊博
下载Doc文档

猜你喜欢