学位论文 > 优秀研究生学位论文题录展示
面向农业领域的垂直搜索技术的研究
作 者: 仇亚东
导 师: 徐焕良
学 校: 南京农业大学
专 业: 计算机应用技术
关键词: 垂直搜索 正则表达式 网页特征库 特征词 领域分析 元搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络信息的爆炸性增长,人们在网上查询所需信息的难度变得越来越大,搜索引擎的出现在某种程度上缓解了这一矛盾。通用搜索引擎分布在不同领域、不同地方为用户提供服务,在早期设立较多,在当前的应用仍然是最广。虽然它相对容易实现相关检索,但其覆盖面狭窄,检索效率低,随着Web的迅速发展,已显得越来越力不从心了。为了改变这种状况,它们中的一些搜索引擎改变了原来收集综合信息的方式,转为集中收集某一领域的信息,为领域检索用户提供了较为精确的检索结果。如果在某个特定的领域内要得到相对全面、准确的搜索结果,就必须改变传统的搜索方式,面向某个特定领域的垂直搜索技术的研究即是在这一背景下产生的。然而对基于关键词的检索,同一个关键词在不同的领域具有着不同的意义,这也是造成通用引擎数据查准率低的原因,因为通用搜索引擎无法识别领域用户的真实意图。农业领域作为专题领域同样存在很多具有领域意义的一些关键词,如“富士”、“玉米”等,对于领域内检索用户,“富士”对应的是苹果而非富士数码或者富士山之类的数据,“玉米”对应的是农产品而非李宇春玉米基地数据。面向农业领域的垂直搜索技术的研究旨在搜索引擎能够理解领域用户的真实意图,反馈领域用户所需的数据信息。首先,在研究成员通用搜索引擎的选择策略及搜索引擎结果处理方法的基础上构建了元搜索引擎,其次分析了如何利用正则表达式抓取农业领域内网页信息内容,再结合领域分析的方法获取领域特征词完成农业领域网页特征库的构建,最终利用此特征库对元搜索引擎检索结果进行结果处理操作,并反馈最终结果。三部分结合完成农业领域内的垂直技术的研究。研究工作如下:首先,在了解了通用搜索引擎的分类及其关键技术基础之上,重点研究了元搜索引擎的结构原理和实现元搜索引擎过程中用到的关键技术:成员搜索引擎的选择策略和搜索引擎结果处理方法。在成员搜索引擎的选择策略问题上,对比了现有的成员搜索引擎选择方法,并对它们进行了分析、比较和评价,最终归纳设计了适合本文的成员搜索引擎的选择策略。此外,从检索效果来讲,成员搜索引擎反馈的查询结果信息总是希望能够更贴近于最终结果,然而根据成员搜索引擎各自查询机制查询的结果杂乱无章,结果处理操作是元搜索引擎构建的另一个重点,在对不同成员搜索引擎返回结果处理中,介绍了元搜索引擎在结果处理中一些常用的方法,对这些方法进行了比较分析,并提出了合适的搜索引擎结果处理的方法。其次,领域网页特征库的构建是为了对元搜索引擎初次检索结果集进行筛选排序处理的,以此来达到去除非领域相关网页和按照规则重排序的目的,实现查全到查准。因此网页特征库的构建是本文研究的重点。构建领域网页特征库的基础有二:一是在分析领域网站的基础之上,如何利用正则表达式对其信息内容进行抓取及抓取的效率;二是成功抓取网页信息内容后,如何再次利用正则表达式结合领域分析的方法对获取的信息内容加以分析最终完成领域网页特征库的构建。最后,探讨了如何利用领域网页特征库对元搜索引擎初步检索结果进行处理,并将最终结果反馈给领域用户。
|
全文目录
摘要 9-11 Abstract 11-13 第一章 绪论 13-21 1.1 研究背景 13-14 1.2 国内外研究现状 14-17 1.3 研究内容及技术路线 17-19 1.4 本文组织结构 19-21 第二章 搜索引擎分类及关键技术 21-41 2.1 搜索引擎的分类 21-31 2.1.1 通用搜索引擎 21-25 2.1.2 元搜索搜索引擎 25-29 2.1.3 垂直搜索引擎 29-31 2.2 搜索引擎关键技术 31-40 2.2.1 通用搜索引擎关键技术分析 32-33 2.2.2 元搜索引擎关键技术分析 33-37 2.2.3 垂直搜索引擎关键技术分析 37-40 2.3 本章小结 40-41 第三章 面向农业领域的垂直搜索技术 41-79 3.1 垂直搜索关键技术研究 41-61 3.1.1 成员搜索引擎选择策略 42-49 3.1.2 搜索引擎结果处理 49-53 3.1.3 网页特征库构建技术 53-61 3.2 面向农业领域的垂直搜索技术 61-78 3.2.1 农业领域信息检索特征分析 61-64 3.2.2 农业领域网页抓取方法研究 64-69 3.2.3 基于正则表达式的农业领域网页特征库构建 69-75 3.2.4 基于网页特征库的结果处理方法 75-78 3.3 本章小结 78-79 第四章 面向农业领域的垂直搜索引擎的设计 79-99 4.1 用户接口模块 80-83 4.1.1 查询入口 80-81 4.1.2 分词系统 81-82 4.1.3 结果显示 82-83 4.2 元搜索引擎模块 83-90 4.2.1 查询分发机制 83-84 4.2.2 成员搜索引擎结果处理 84-90 4.3 结果处理模块 90-97 4.3.1 建立索引 92-93 4.3.2 结果反馈 93-97 4.4 本章小结 97-99 第五章 总结与展望 99-103 5.1 总结 99-100 5.2 展望 100-103 参考文献 103-109 致谢 109
|
相似论文
- 四川方言特征词研究,H17
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 基于CPU+GPU异构平台的字符串匹配算法研究与实现,TP301.6
- 面向存储的正则表达式匹配算法研究,TP393.08
- 基于特征匹配的深度报文检测性能优化研究,TP393.08
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 基于元搜索的Web网络军事情报信息搜索技术研究,TP391.3
- 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- BGP协议中正则表达式匹配系统的研究与软硬件实现,TP368.1
- 软件复用技术在卫星运行控制领域中的应用,V448.2
- 基于正则表达式的深度包压缩算法研究,TP393.08
- 基于GPU的高速正则表达式匹配技术研究,TP393.08
- WWW孤立文件发现机制的设计与应用,TP393.092
- 基于查询扩展的垂直搜索研究,TP391.3
- 基于PTK嵌入系统的集成测试工具研究与实现,TP311.52
- 一个基于向量空间模型的个性化推荐系统,TP391.3
- 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|