基础教育资源搜索引擎论文-刘异,赵辉

基础教育资源搜索引擎论文-刘异,赵辉

导读:本文包含了基础教育资源搜索引擎论文开题报告文献综述及选题提纲参考文献,主要关键词:自动分类,自动文摘,自动关键词提取,Web文档

基础教育资源搜索引擎论文文献综述

刘异,赵辉[1](2017)在《基础教育文本资源搜索引擎网页机器人设计与实现》一文中研究指出在基础教育领域,为方便学生、教师、家长、教育机构等搜索相关教育文本资源,提出了专用于基础教育文本资源搜集的快速高效的智能化网页搜索机器人理论。文本自动分类、文献自动文摘和自动关键词提取是网页机器人的重要组成部分。由分析Web网页格式的文档引出基础教育文本资源信息挖掘模块,设计提取关联文本信息的算法,研究在搜索引擎中如何通过对互联网海量多媒体教育信息的自动抓取、主题检测、专题聚焦,实现对教育网络的监控和专题的追踪等功能,以报告及图表等多种分析结果的形式提供分析依据,设计基础教育文本监控分析系统,为提供全面搜索教育网络服务。(本文来源于《中国教育信息化》期刊2017年19期)

万亚君[2](2014)在《面向基础教育资源的个性化垂直搜索引擎》一文中研究指出当前,互联网迅猛发展,数据资源呈指数增长,用户从互联网中查找自己所需要的信息,这时就变得非常困难,从而亟需一种技术来解决这种现象。搜索引擎技术的出现和发展让网民能够更加方便、容易的在互联网中搜索自己所需信息资源。而目前大多数通用搜索引擎是基于关键词匹配,并且没有充分利用用户个性化信息,从而用户得到的搜索结果并不完全是用户所需要,还需要用户花费额外的精力来过滤无用的信息。借鉴个性化推荐系统的思路,将个性化技术应用到垂直搜索引擎领域,从而能够让用户在专业领域内更有效率、更加准确的查找所需资源,能有更好的搜索体验。本论文首先从研究搜索引擎相关理论着手,然后着重对个性化搜索引擎关键技术中的主题网络爬、网页信息抽取技术、用户兴趣模型进行了研究,并且利用用户兴趣模型对Lucene的排序算法进行改进,最后设计一个个性化垂直搜索引擎系统模型,并将其应用到基础教育领域。本论文的重点有:(1)研究分析开源网络爬虫Heritrix,并在其基础上扩展应用基于链接分析和领域词库的爬行策略,从而设计主题网络爬虫模型。(2)研究分析开源检索工具Lucene的体系结构、索引结构、数据流以及功能,着重研究Lucene的排序算法,并对Lucene排序算法进行基于用户兴趣模型的个性化信息改进,设计检索模型。(3)通过研究信息抽取相关技术,例如正则表达式、开源工具包HTMLParser,结合网页数据和实际需求,设计信息抽取模型。(4)研究用户兴趣建模理论,设计通过挖掘用户对教育资源的使用行为建立用户兴趣模型的算法。(本文来源于《北京工业大学》期刊2014-06-01)

翟晓玲[3](2009)在《面向学科的基础教育资源垂直搜索引擎的研究与实现》一文中研究指出随着Internet的迅猛发展,互联网上的电子信息也在飞速增长,为人们带来了极大的便利。但是当人们在享受这些便利的同时,也渐渐发现了一个亟待解决的问题,那就是如何能够在这数量巨大、形式多样的信息中快速准确地找到自己需要的、有关某一具体领域中的资源呢?通用搜索引擎(也就是传统的搜索引擎)在针对某一具体领域资源进行检索的时候,往往搜出的结果覆盖面非常广泛,存在着很多重复的信息和垃圾信息,不能够很好地为用户提供精准化的检索服务。而垂直搜索引擎却不同,它正是针对某一个行业、某一特定人群或某一特定需求的专业搜索引擎,是搜索引擎的细分和延伸,可以为用户提供更精准更高质量的信息。本文以基础教育领域中的学科资源为背景,通过运用扩展Lucene和Heritrix,初步构建出了一个检索结果较为精准的垂直搜索引擎。本文主要包括以下几方面的内容:(1)通过定制和扩展Heritrix这个由Java开发的、开源的Web网络爬虫来从互联网上爬取有关基础教育领域中的各个学科资源;(2)利用各种API工具对爬取的信息进行抽取和处理;(3)深入研究Lucene以及与其相关的技术,对其进行部分扩展,将Lucene成功地运用到了系统当中,从而为系统提供更好的全文索引/检索服务;(4)增加了收藏查询、查询反馈的功能,提高了系统的交互性。(本文来源于《东北师范大学》期刊2009-05-01)

田俊华,杨晓江[4](2007)在《分布式并行信息检索系统的设计与实现——基础教育资源搜索引擎个案研究》一文中研究指出在大规模信息检索领域,随着高速网络技术的迅速发展,分布式并行信息检索技术由于其高效性与经济性而受到越来越多的重视。结合基础教育资源搜索引擎的设计开发,讨论分布式并行信息检索系统中涉及的数据分布、查询任务分解及节点冗余等关键技术。(本文来源于《现代图书情报技术》期刊2007年08期)

徐金雷,杨晓江[5](2007)在《基础教育资源搜索引擎的排序算法研究》一文中研究指出本文在基础教育资源专业搜索引擎项目上作了排序方面的研究,发现在通常的排序因素如关键词的词频和位置、用户行为、网页之间的链接、网站更新度等因素的基础上,引入基础教育相关度这一关键性因素,能明显提高排序结果的质量。(本文来源于《电化教育研究》期刊2007年02期)

黄立冬[6](2006)在《基础教育资源搜索引擎中的中文分词技术研究》一文中研究指出自动分词技术是自然语言处理的基础工程。任何基于词一级的中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词的识别。 本文结合基础教育资源搜索引擎项目工程,提出了中文分词在该项目中的解决方案。 对歧义词的处理,本文统计高频特征词的构词特点,提出并采用了“高频特征词”消歧义的办法,同时系统实现时辅助以“统计汉字二元语法关系”的方法来解决交集歧义的问题。 对姓名的处理,本文主要是结合统计与规则两种方法各自的优点,统计语料库,并对这些姓名用字进行分析,提出了自己的分类策略。采用分词碎片识别中文姓名法,对常见的姓名识别率达到90%左右。 对其它未登录词的处理,本文尝试采用高频重复词自动识别,能把每篇文章中出现的高频未登录词统计出来(匹配次数、文章篇数),然后根据权重计算,计算机能把它自动加入到词库,从而可以自动的扩充主词库的容量。 本文最后对分词系统的构架、流程、接口设计进行了阐述。(本文来源于《南京师范大学》期刊2006-06-30)

范彦彬[7](2006)在《基础教育资源搜索引擎中自动文摘技术研究》一文中研究指出21世纪人类的社会是一个信息化社会。在基础教育领域中,为了更好地为学生、老师、家长、教育机构等提供教育相关资源,我们研发了专用于基础教育资源搜集的快速高效的智能化基础教育资源搜索引擎。 在基础教育资源搜索引擎中,自动文摘是展示文档内容主题的摘要信息的重要部分。本文从分析多种Web文档的结构入手,提出了解析并提取文档信息的方法,特别是针对网页格式的文档,设计了提取其主题文本信息的算法。 在提取Web文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动摘要。自动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上可以提高运算和检索的效率。 本文通过分析基础教育资源的特性和现有的自动文摘方法,提出了把计算得到的基础教育领域的特征词权重,融入到计算文摘句权重的算法中,并同时考查句子位置、句子长度等文本表层统计信息的自动文摘算法。 本文还介绍了该算法的设计思路与实现步骤,并且针对自动文摘系统在基础教育资源搜索引擎中运行的实际情况,进行了科学的评价与总结,并展望了下一步的改进工作。(本文来源于《南京师范大学》期刊2006-06-30)

基础教育资源搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

当前,互联网迅猛发展,数据资源呈指数增长,用户从互联网中查找自己所需要的信息,这时就变得非常困难,从而亟需一种技术来解决这种现象。搜索引擎技术的出现和发展让网民能够更加方便、容易的在互联网中搜索自己所需信息资源。而目前大多数通用搜索引擎是基于关键词匹配,并且没有充分利用用户个性化信息,从而用户得到的搜索结果并不完全是用户所需要,还需要用户花费额外的精力来过滤无用的信息。借鉴个性化推荐系统的思路,将个性化技术应用到垂直搜索引擎领域,从而能够让用户在专业领域内更有效率、更加准确的查找所需资源,能有更好的搜索体验。本论文首先从研究搜索引擎相关理论着手,然后着重对个性化搜索引擎关键技术中的主题网络爬、网页信息抽取技术、用户兴趣模型进行了研究,并且利用用户兴趣模型对Lucene的排序算法进行改进,最后设计一个个性化垂直搜索引擎系统模型,并将其应用到基础教育领域。本论文的重点有:(1)研究分析开源网络爬虫Heritrix,并在其基础上扩展应用基于链接分析和领域词库的爬行策略,从而设计主题网络爬虫模型。(2)研究分析开源检索工具Lucene的体系结构、索引结构、数据流以及功能,着重研究Lucene的排序算法,并对Lucene排序算法进行基于用户兴趣模型的个性化信息改进,设计检索模型。(3)通过研究信息抽取相关技术,例如正则表达式、开源工具包HTMLParser,结合网页数据和实际需求,设计信息抽取模型。(4)研究用户兴趣建模理论,设计通过挖掘用户对教育资源的使用行为建立用户兴趣模型的算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

基础教育资源搜索引擎论文参考文献

[1].刘异,赵辉.基础教育文本资源搜索引擎网页机器人设计与实现[J].中国教育信息化.2017

[2].万亚君.面向基础教育资源的个性化垂直搜索引擎[D].北京工业大学.2014

[3].翟晓玲.面向学科的基础教育资源垂直搜索引擎的研究与实现[D].东北师范大学.2009

[4].田俊华,杨晓江.分布式并行信息检索系统的设计与实现——基础教育资源搜索引擎个案研究[J].现代图书情报技术.2007

[5].徐金雷,杨晓江.基础教育资源搜索引擎的排序算法研究[J].电化教育研究.2007

[6].黄立冬.基础教育资源搜索引擎中的中文分词技术研究[D].南京师范大学.2006

[7].范彦彬.基础教育资源搜索引擎中自动文摘技术研究[D].南京师范大学.2006

标签:;  ;  ;  ;  

基础教育资源搜索引擎论文-刘异,赵辉
下载Doc文档

猜你喜欢