学位论文 > 优秀研究生学位论文题录展示
移动终端本地资源搜索引擎的研究与设计
作 者: 曾庆祥
导 师: 王纯
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 移动终端 本地资源 搜索 Lucene 分词 未登录词
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 182次
引 用: 2次
阅 读: 论文下载
内容摘要
随着传统互联网和移动通信网络的快速发展,网络侧及对应的终端侧数据的种类和数量也得到了快速的发展,如何快速的获取用户所需要的数据成为了亟待解决的问题。针对以上问题,相应的搜索技术及业务系统不断涌向。具体包括面向传统互联网的搜索系统,例如Google、Baidu、Yahoo等;面向传统PC(Personal Computer)中存储的数据的检索系统,例如Google Desktop、MSN Toolbar Suite、YahooDesktop Search等;面向移动通信系统的网络侧数据检索系统,例如Google推出的短信搜索、中国移动梦网搜索业务以及中国移动的语音搜索等。在互联网、电信网以及PC发展的同时,以手机为代表的移动终端技术及产品也得到了快速的推广,移动终端的处理能力和存储容量越来越高,移动终端支持的业务种类和数据类型也在不断的增多,移动终端正在逐渐的成为用户的最重要的数据仓库。随着移动互联网的发展,移动终端的数据种类和数量将得到进一步的增加。因此如果针对移动终端自身的特点,根据用户的数据获取需求,快速的检索到存储在移动终端上的用户所需的用户数据,成为了一个需要迫切解决的问题。根据以上背景,本文设计了移动终端本地资源搜索引擎MDSE(MobileDevice Search Engine)系统。本文首先对移动终端的软硬件特点进行了总结和归纳,同时对用户的业务需求进行了详细的分析,明确了本系统的目标。同时,本文就当前的检索技术进行了系统的分析,包括当前搜索系统的主要流程,流程各个环节的主要技术,关键问题及主要解决方案等;本文对当前流行的开源软件包Lucene也进行了系统的分析。根据业务需求及移动终端自身的特点,以前对当前主要搜索技术的分析,本文设计了适合移动终端特点及业务需求的引擎系统,即MDSE系统。本文对该系统的总体架构、检索主要流程、流程各个环节的主要技术及算法等进行了详细的阐述。本文设计了一种移动终端上可行的“高频词优先的逐字二分分词词典机制”;设计并实现了一种移动终端上收集用户历史操作文档,清洗用户搜索日志,并完善终端初始的关键词词库的方法;同时设计并实现了一种适用于移动终端的未登录词识别方法。针对“高频词优先的逐字二分分词词典机制”以及未登录词识别算法,本文给出了仿真结果。对索引及检索和排序部分,本系统充分的借鉴了Lucene算法的实现。最后,我们根据开发的原型系统,对系统的功能和性能进行了测试,并对测试数据进行了分析。
|
全文目录
摘要 4-6 Abstract 6-10 第一章 背景介绍 10-18 1.1 网络搜索引擎 10-12 1.1.1 网络搜索引擎的分类 10-11 1.1.2 网络搜索引擎的发展方向 11-12 1.2 桌面搜索引擎 12-15 1.2.1 桌面搜索引擎的出现 12 1.2.2 典型产品 12-15 1.3 移动互联网及移动终端搜索引擎 15-18 1.3.1 移动互联网的发展 15-16 1.3.2 移动互联网搜索技术的发展 16-17 1.3.3 移动终端桌面搜索需求的产生 17-18 第二章 终端自身特点及系统功能需求分析 18-25 2.1 移动终端特点概述 18-23 2.1.1 硬件 18-20 2.1.1.1 处理能力 18 2.1.1.2 内存及外存 18-19 2.1.1.3 屏幕 19 2.1.1.4 键盘输入 19 2.1.1.5 外围设备 19 2.1.1.6 电池 19-20 2.1.2 操作系统 20-23 2.1.2.1 概述 20 2.1.2.2 系统分类及各自特点 20-23 2.1.3 业务应用 23 2.1.3.1 通信类 23 2.1.3.2. 办公类 23 2.1.3.3 娱乐类 23 2.2 移动终端搜索需求 23-25 第三章 主要搜索技术分析 25-42 3.1 搜索流程分析 25-26 3.2 流程各模块主要功能及相关算法分析 26-37 3.2.1 结构统一化 26 3.2.2 分词 26-30 3.2.2.1 主流分词算法 26-28 3.2.2.2 分词效果评价标准 28 3.2.2.3 当前遇到的主要问题及主要解决方案 28-30 3.2.3 索引建立 30-33 3.2.3.1 后缀数组 30-31 3.2.3.2 签名文件 31-32 3.2.3.3 倒排索引 32-33 3.2.4 查找 33 3.2.5 结果排序及展现 33-37 3.2.5.1 词频加权 33-34 3.2.5.2 词位置加权 34 3.2.5.3 Page Rank技术 34-36 3.2.5.4 Hilltop算法 36 3.2.5.5 页面版式 36 3.2.5.6 收费排名 36-37 3.3 Lucene算法分析 37-42 3.3.1 Lucene概述 37-38 3.3.2 Lucene架构 38-40 3.3.3 Lucene流程原理 40-42 第四章 方案论证及设计 42-65 4.1 引擎的架构 42-44 4.2 业务流程介绍 44-45 4.3 各模块及其关键算法设计 45-65 4.3.1 分词词典及词典更新模块设计 45-57 4.3.1.1 分词词典 45-50 4.3.1.2.词库关键词来源 50-51 4.3.1.3 未登录词辅助识别 51-56 4.3.1.4.词库远程更新机制 56-57 4.3.2 分词模块设计 57-60 4.3.3 索引建立及优化模块设计 60-62 4.3.4 检索词处理模块设计 62-63 4.3.5 结果排序及展现模块设计 63-65 第五章 实验结果分析 65-67 5.1 系统功能测试 65-66 5.2 系统性能测试 66-67 第六章 结束语 67-68 参考文献 68-70 致谢 70-71 攻读学位期间发表的学术论文 71
|
相似论文
- 风光互补并网发电系统及最大功率点追踪,TM61
- 认知风格和空间能力对网络搜索行为的影响,B842.1
- “人肉搜索”的社会学研究,C912.6
- 人肉搜索传播形态与作用研究,G206
- 透析“人肉搜索”中的隐私权保护,D923
- 人肉搜索中的隐私权保护,D923
- 网络隐私权的民法保护,D913
- 基于量子搜索的Ad Hoc网络路由协议研究,TN929.5
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于炼油厂CSTR生产的循环调度与优化问题研究,F273
- 钢铁企业物料存取空间调度优化系统,F426.31
- 搜索链接服务商著作权侵权问题研究,D923.41
- 四川工商手持巡查系统软件设计与实现,TP311.52
- 冶金企业生产与物流作业管理决策支持系统,F426.32
- 基于H.264/AVC的自适应运动估计算法研究,TN919.81
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 多核环境下内存数据库查询优化的研究,TP311.13
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 复杂目标视觉注意模型研究,TP391.41
- 变邻域搜索算法研究及在组合优化中的应用,TP301.6
- 文化智能优化算法及其在约束优化问题中的应用研究,O224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|