学位论文 > 优秀研究生学位论文题录展示

移动终端本地资源搜索引擎的研究与设计

作 者: 曾庆祥
导 师: 王纯
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 移动终端 本地资源 搜索 Lucene 分词 未登录词
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 182次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着传统互联网和移动通信网络的快速发展,网络侧及对应的终端侧数据的种类和数量也得到了快速的发展,如何快速的获取用户所需要的数据成为了亟待解决的问题。针对以上问题,相应的搜索技术及业务系统不断涌向。具体包括面向传统互联网的搜索系统,例如Google、Baidu、Yahoo等;面向传统PC(Personal Computer)中存储的数据的检索系统,例如Google Desktop、MSN Toolbar Suite、YahooDesktop Search等;面向移动通信系统的网络侧数据检索系统,例如Google推出的短信搜索、中国移动梦网搜索业务以及中国移动的语音搜索等。在互联网、电信网以及PC发展的同时,以手机为代表的移动终端技术及产品也得到了快速的推广,移动终端的处理能力和存储容量越来越高,移动终端支持的业务种类和数据类型也在不断的增多,移动终端正在逐渐的成为用户的最重要的数据仓库。随着移动互联网的发展,移动终端的数据种类和数量将得到进一步的增加。因此如果针对移动终端自身的特点,根据用户的数据获取需求,快速的检索到存储在移动终端上的用户所需的用户数据,成为了一个需要迫切解决的问题。根据以上背景,本文设计了移动终端本地资源搜索引擎MDSE(MobileDevice Search Engine)系统。本文首先对移动终端的软硬件特点进行了总结和归纳,同时对用户的业务需求进行了详细的分析,明确了本系统的目标。同时,本文就当前的检索技术进行了系统的分析,包括当前搜索系统的主要流程,流程各个环节的主要技术,关键问题及主要解决方案等;本文对当前流行的开源软件包Lucene也进行了系统的分析。根据业务需求及移动终端自身的特点,以前对当前主要搜索技术的分析,本文设计了适合移动终端特点及业务需求的引擎系统,即MDSE系统。本文对该系统的总体架构、检索主要流程、流程各个环节的主要技术及算法等进行了详细的阐述。本文设计了一种移动终端上可行的“高频词优先的逐字二分分词词典机制”;设计并实现了一种移动终端上收集用户历史操作文档,清洗用户搜索日志,并完善终端初始的关键词词库的方法;同时设计并实现了一种适用于移动终端的未登录词识别方法。针对“高频词优先的逐字二分分词词典机制”以及未登录词识别算法,本文给出了仿真结果。对索引及检索和排序部分,本系统充分的借鉴了Lucene算法的实现。最后,我们根据开发的原型系统,对系统的功能和性能进行了测试,并对测试数据进行了分析。

全文目录


摘要  4-6
Abstract  6-10
第一章 背景介绍  10-18
  1.1 网络搜索引擎  10-12
    1.1.1 网络搜索引擎的分类  10-11
    1.1.2 网络搜索引擎的发展方向  11-12
  1.2 桌面搜索引擎  12-15
    1.2.1 桌面搜索引擎的出现  12
    1.2.2 典型产品  12-15
  1.3 移动互联网及移动终端搜索引擎  15-18
    1.3.1 移动互联网的发展  15-16
    1.3.2 移动互联网搜索技术的发展  16-17
    1.3.3 移动终端桌面搜索需求的产生  17-18
第二章 终端自身特点及系统功能需求分析  18-25
  2.1 移动终端特点概述  18-23
    2.1.1 硬件  18-20
      2.1.1.1 处理能力  18
      2.1.1.2 内存及外存  18-19
      2.1.1.3 屏幕  19
      2.1.1.4 键盘输入  19
      2.1.1.5 外围设备  19
      2.1.1.6 电池  19-20
    2.1.2 操作系统  20-23
      2.1.2.1 概述  20
      2.1.2.2 系统分类及各自特点  20-23
    2.1.3 业务应用  23
      2.1.3.1 通信类  23
      2.1.3.2. 办公类  23
      2.1.3.3 娱乐类  23
  2.2 移动终端搜索需求  23-25
第三章 主要搜索技术分析  25-42
  3.1 搜索流程分析  25-26
  3.2 流程各模块主要功能及相关算法分析  26-37
    3.2.1 结构统一化  26
    3.2.2 分词  26-30
      3.2.2.1 主流分词算法  26-28
      3.2.2.2 分词效果评价标准  28
      3.2.2.3 当前遇到的主要问题及主要解决方案  28-30
    3.2.3 索引建立  30-33
      3.2.3.1 后缀数组  30-31
      3.2.3.2 签名文件  31-32
      3.2.3.3 倒排索引  32-33
    3.2.4 查找  33
    3.2.5 结果排序及展现  33-37
      3.2.5.1 词频加权  33-34
      3.2.5.2 词位置加权  34
      3.2.5.3 Page Rank技术  34-36
      3.2.5.4 Hilltop算法  36
      3.2.5.5 页面版式  36
      3.2.5.6 收费排名  36-37
  3.3 Lucene算法分析  37-42
    3.3.1 Lucene概述  37-38
    3.3.2 Lucene架构  38-40
    3.3.3 Lucene流程原理  40-42
第四章 方案论证及设计  42-65
  4.1 引擎的架构  42-44
  4.2 业务流程介绍  44-45
  4.3 各模块及其关键算法设计  45-65
    4.3.1 分词词典及词典更新模块设计  45-57
      4.3.1.1 分词词典  45-50
      4.3.1.2.词库关键词来源  50-51
      4.3.1.3 未登录词辅助识别  51-56
      4.3.1.4.词库远程更新机制  56-57
    4.3.2 分词模块设计  57-60
    4.3.3 索引建立及优化模块设计  60-62
    4.3.4 检索词处理模块设计  62-63
    4.3.5 结果排序及展现模块设计  63-65
第五章 实验结果分析  65-67
  5.1 系统功能测试  65-66
  5.2 系统性能测试  66-67
第六章 结束语  67-68
参考文献  68-70
致谢  70-71
攻读学位期间发表的学术论文  71

相似论文

  1. 风光互补并网发电系统及最大功率点追踪,TM61
  2. 认知风格和空间能力对网络搜索行为的影响,B842.1
  3. “人肉搜索”的社会学研究,C912.6
  4. 人肉搜索传播形态与作用研究,G206
  5. 透析“人肉搜索”中的隐私权保护,D923
  6. 人肉搜索中的隐私权保护,D923
  7. 网络隐私权的民法保护,D913
  8. 基于量子搜索的Ad Hoc网络路由协议研究,TN929.5
  9. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  10. 基于炼油厂CSTR生产的循环调度与优化问题研究,F273
  11. 钢铁企业物料存取空间调度优化系统,F426.31
  12. 搜索链接服务商著作权侵权问题研究,D923.41
  13. 四川工商手持巡查系统软件设计与实现,TP311.52
  14. 冶金企业生产与物流作业管理决策支持系统,F426.32
  15. 基于H.264/AVC的自适应运动估计算法研究,TN919.81
  16. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  17. 多核环境下内存数据库查询优化的研究,TP311.13
  18. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  19. 复杂目标视觉注意模型研究,TP391.41
  20. 变邻域搜索算法研究及在组合优化中的应用,TP301.6
  21. 文化智能优化算法及其在约束优化问题中的应用研究,O224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com