现在的位置: 首页 > 论文检测样例 > 正文

基于Nutch的农业垂直搜索引擎研究

2014年11月18日 论文检测样例 ⁄ 共 2108字 ⁄ 字号 暂无评论 ⁄ 阅读 3,007 views 次

维普论文检测11月18日检测样例:

摘  要:随着我国农业信息化进程的推进,越来越多的农业用户希望能够快速且有效地找到自己所需要的农业信息。但通用搜索引擎返回结果数量庞大、专业性差、准确率低等,无法满足农业用户高效的查找农业信息的需求,现有的农业搜索引擎也处于发展前期阶段,存在低使用率、低时效性等很多不足之处,有待进一步改善。为了解决上述问题,本研究基于开源搜索引擎Nutch对农业垂直搜索引擎进行了有关研究。研究内容如下:

(1)基于Nutch的农业垂直搜索引擎研究。为了提高农业用户检索农业信息的效率,本研究在了解并深入分析开源搜索引擎Nutch的工作原理基础上,对开源搜索引擎Nutch进行二次开发,完成基于Nutch的农业垂直搜索引擎研究。首先,采用人工整理判定和元搜索相结合的策略获取初始URL种子列表;其次,采用基于词库的正向最大匹配分词算法的JE分词改进Nutch中文分词,使其支持中文分词;接着,采用网络爬虫技术进行信息采集,分析网页并用改进的基于关键字的向量空间模型主题判别方法结合本体进行信息过滤,过滤掉与农业不相关的网页,并将与农业相关的网页采用倒排索引方法建立索引;最后,采用PAGERANK排序算法改进Nutch原有的基于Lucene的网页排序算法。此外,扩展Nutch辅助功能,用户查询时向用户提供基于本体的相关词推荐和基于访问量的关键词推荐,辅助用户查询其需要的信息。

(2)基于Nutch的农业垂直搜索引擎系统管理平台设计与实现。为了方便对基于Nutch的农业垂直搜索引擎的管理和使用以及农业领域本体库的管理,设计与实现了C/S+B/S模式的系统管理平台,该平台提供基于Nutch的农业垂直搜索引擎的网络蜘蛛的配置管理、农业领域本体库的管理、农业网址导航、用户检索接口等功能。最后,实验验证本文的搜索引擎系统管理平台具有较好的可行性、有效性。

 

关键词:Nutch;垂直搜索引擎;信息过滤;PageRank;查询扩展

第一章 绪论

1.1 研究背景与意义

回顾自上世纪以来互联网领域各项研究工作,尽管在各个领域都有明显的研究进展,但总体来讲,搜索引擎领域获得的研究进展比较显著(王美霞 2009)。搜索引擎经历了从第一代到第二代的发展,目前,搜索引擎正向第三代迈进,随着搜索引擎日益的发展,其功能将逐渐强大。第一代搜索引擎主要有DEC研发中心推出Altavista、William Chang设计的Infoseak、斯坦福大学的Excite、卡耐基•梅隆大学一位博士生设计的Lycos等,它们处于搜索引擎发展的起初阶段,主要功能是向用户提供信息搜索服务。第二代搜索引擎主要有Eric Brewer教授(伯克利大学)设计的Inktomi、Ask Jeeves公司推出的Askjeeves、Idealab公司推出的 Goto、Sergey Brin和Larry Page(斯坦福大学)设计的Google搜索引擎、百度公司推出的百度搜索引擎等,它们与第一代搜索引擎相比不仅在功能和性能上有很大的提高,能很好的满足用户的需求,而且在技术上也不断使用一些新的技术,将搜索引擎各项研究工作推向高潮。第三代搜索引擎主要有垂直搜索引擎、智能搜索引擎等(黄卫平 2011;Junaidah Mohamed Kassim and Mahathir Rahmany 2009;Tomasz Imielinski and Alessio Signorini 2009),传统的搜索引擎主要是综合搜索引擎,没有专业化的对领域进行分类,用户搜索时返回结果数量庞大,查询效率较低,同时也没有很好的支持语义分析。目前,“专、精、深”的垂直搜索引擎、智能化的语义搜索引擎成为研究的焦点。

根据2012年CNZZ(全球最大的中文互联网数据统计分析服务提供商)对我国搜索引擎使用率的分析数据报告显示:2012年的年初,百度搜索引擎的使用率占市场的75.88%,但是在年底的时候它的使用率只占65.33%,整体上看使用率下降了约10%;谷歌搜索引擎自从它的服务器迁移到香港之后,它的市场份额巨减,2012年的使用率占市场仅有5%左右,几乎是2011年的0.5倍。根据CNNIC(中国互联网络信息中心)2011年12月20日发布的《中国搜索引擎市场研究报告》显示,我国搜索引擎用户数量为3.96亿,伴随我国网民日趋走向成熟,网民在对综合搜索引擎使用的同时,更多需求开始逐渐倾向细分化的垂直搜索引擎,其中习惯性直接在专业搜索网站查询信息的网民占81%。通过以上数据可以充分说明传统搜索引擎由于其通用性涵盖信息量大、分类不明确已经满足不了网民的需求,在网民生活中的地位逐渐下降,而垂直搜索引擎已经逐渐成为网民生活的重要组成部分,也是未来搜索引擎发展的趋势。

综上所述,本研究针对目前使用通用搜索引擎搜索返回结果数量庞大、分类不明确、深度不够、查询不准确、信息滞后等问题,构建一个基于Nutch的农业垂直搜索引擎,能够更专业、更快捷、更直接的为农业用户服务,使得查询到的农业信息符合农业用户的需求,解决农业用户查询农业信息的瓶颈问题。因此,基于Nutch的农业垂直搜索引擎有很大的实用性价值。

维普论文检测系统文章欢迎转载,转载请以链接形式标明本文地址。

本文地址: http://www.cqvip.org.cn/wp/1254.html

给我留言

留言无头像?


×