现在的位置: 首页 > 论文检测样例 > 正文

基于Nutch的农业垂直搜索引擎研发

2014年11月19日 论文检测样例 ⁄ 共 1574字 ⁄ 字号 暂无评论 ⁄ 阅读 3,481 views 次

维普论文检测11月19日检测样例:

第三章 基于Nutch的农业垂直搜索引擎研发

本章在上一章理论和技术的基础上,对开源搜索引擎Nutch进行二次开发,改进Nutch中文分词、实现主题相关性判别、改进Nutch网页评分算法、改进Nutch用户接口等相关功能,实现基于Nutch的农业垂直搜索引擎。最后,进行测试与分析。

3.1 系统体系结构

基于Nutch的农业垂直搜索引擎主要服务于互联网普通农业用户和农业专业用户,为了能够使这些服务对象高效率的查找到自己所需的农业信息,本研究在对开源搜索引擎Nutch框架研究的基础上,借鉴SWOOGLE(LAW M R and MINTZES B 2011)、OntoSeek(Nicola Guarino et al. 2006)以及Google排序算法(姚文琳和刘文 2009),引入本体、PageRank等思想,实现信息采集与过滤、结果排序、信息检索等相关功能。基于Nutch的农业垂直搜索引擎的体系结构如图3-1所示:

从逻辑上分析,基于Nutch的农业垂直搜索引擎的研发主要划分为五个阶段:获取初始URL种子、信息采集、信息过滤、建立索引、信息检索。整个工作流程可分为如下几个阶段:

(1)采用人工整理判定和元搜索相结合的策略获取初始URL种子;

(2)根据初始URL列表使用网络蜘蛛爬取技术从互联网上爬取网页;

(3)分析爬取到的网页,提取网页中存在的链接加入URL库以及结合农业领域本体库利用基于向量空间模型的主题相关性判别方法过滤干扰或无效信息,

(4)重复(2)到(3)步骤,直到达到设定的抓取层数;

(5)对过滤保存下来的网页采用倒排索引技术建立索引;

(6)用户通过用户接口进行检索;

(7)返回检索结果。

3.2 初始URL种子生成

基于Nutch的农业垂直搜索引擎查准率、查全率的高低一定程度上依赖于初始种子的选取,初始种子数量如果非常大,不仅影响信息更新的频率,也在一定程度上影响搜索引擎的查准率,如果初始种子数量很小,虽然能够提高更新频率,但这样会使查全率很低。因此,初始URL种子的生成对于基于Nutch的农业垂直搜索引擎是非常重要的部分。本研究的系统开发是基于Nutch开源搜索引擎平台,在网络蜘蛛开始采集信息前,必须先获取初始URL种子,以初始URL种子作为网络蜘蛛采集信息的起点。初始URL种子的生成主要包括两部分:URL种子发现和URL种子过滤。

3.2.1 URL种子发现

基于Nutch的农业垂直搜索引擎的初始URL种子生成过程首先需要发现URL种子,URL种子发现有很多策略,可以采用人工整理判定策略,也可以采用元搜索策略。人工整理判定策略即人工手动发现URL种子;元搜索策略即根据关键词通过程序从大型通用搜索引擎中下载相关的结果(李世明 2005),得到大量的URL链接地址,通过对地址的分析,得到这些地址的上级目录或者网站,再通过一定的过滤方法进行URL筛选。采用人工整理判定策略虽然选取的URL种子质量比较高,但是耗时耗力、选择受限,因此效率不高;采用元搜索策略虽然URL种子选择的比较广、全面,但是URL种子的质量不高、干扰种子比较多。

本研究采用人工整理判定和元搜索相结合的策略,首先采用人工整理判定策略选取国内著名农业网站地址加入到URL种子列表,然后采用元搜索策略进行URL发现,即根据农业词汇通过程序从通用搜索引擎中下载相关结果,得到大量的URL链接地址,通过对地址的分析,得到这些地址的上级目录或者网站,再通过下一节所讲的URL种子过滤方法结合人工干预进行URL筛选,把与农业主题相关且是农业领域的权威网站的URL地址加入到URL种子列表。这样两种URL种子发现策略的结合不仅能够使得URL种子发现效率高、种子全面、质量好,而且能够避免Nutch的网络爬虫进行一些不必要的爬取,同时也能够提高检索信息的准确度。

维普论文检测系统文章欢迎转载,转载请以链接形式标明本文地址。

本文地址: http://www.cqvip.org.cn/wp/1258.html

给我留言

留言无头像?


×