学位论文 > 优秀研究生学位论文题录展示

中文搜索引擎的个性化服务研究

作 者: 陈彪
导 师: 陈文宇
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: 搜索引擎 中文分词 用户兴趣模型 个性化模型 Web信息挖掘
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 141次
引 用: 0次
阅 读: 论文下载
 

内容摘要


1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-17
  1.1 课题的研究背景及意义  10-11
  1.2 搜索引擎的发展历史及研究现状  11-15
    1.2.1 搜索引擎发展历史  11-13
    1.2.2 搜索引擎研究现状  13-15
  1.3 本文的研究内容  15-16
  1.4 本文的组织结构  16-17
第二章 搜索引擎关键技术研究  17-37
  2.1 搜索引擎概述  17-20
    2.1.1 搜索引擎工作流程  17-18
    2.1.2 搜索引擎体系结构  18-19
    2.1.3 搜索引擎的发展趋势  19-20
  2.2 机器爬虫  20-24
    2.2.1 HTTP 协议  20-21
    2.2.2 爬取策略  21-22
    2.2.3 网页爬取  22-24
  2.3 原始信息预处理  24-32
    2.3.1 信息预处理的系统结构  25-26
    2.3.2 索引网页库  26-28
    2.3.3 中文分词  28
    2.3.4 网页分析与建立倒排文件  28-32
  2.4 检索服务  32-36
    2.4.1 检索服务的系统结构  32-33
    2.4.2 检索的定义  33
    2.4.3 查询服务  33-36
  2.5 本章总结  36-37
第三章 中文分词系统  37-48
  3.1 中文分词系统概述  37
  3.2 分词算法介绍  37-39
  3.3 逆向最大匹配算法  39-40
  3.4 中文分词的难点  40-41
  3.5 中文分词的评价标准  41-42
  3.6 一种提高中文分词准确率的方法  42-48
    3.6.1 数据结构设计  42-44
    3.6.2 混合字典  44-46
    3.6.3 分词算法  46-47
    3.6.4 实验结果  47-48
第四章 WEB 挖掘在个性化服务中的应用  48-54
  4.1 WEB 挖掘技术  48-50
  4.2 WEB 文本挖掘  50-51
  4.3 WEB 个性化简述  51-52
  4.4 基于WEB 挖掘个性化服务系统的比较  52
  4.5 WEB 挖掘技术在个性化系统中存在的问题  52-53
  4.6 基于WEB 挖掘的个性化技术的发展  53-54
第五章 个性化搜索引擎模型设计  54-70
  5.1 个性化检索系统研究现状  54-55
  5.2 用户兴趣的获取  55-60
    5.2.1 页面特征提取  55-57
    5.2.2 用户兴趣获取的一般方法  57-58
    5.2.3 基于用户浏览行为挖掘  58-60
  5.3 用户个性化模型研究  60-65
    5.3.1 用户个性化模型表示  60-61
    5.3.2 用户兴趣的存储  61-63
    5.3.3 用户兴趣模型的建立与更新  63-65
  5.4 个性化搜索引擎模型  65-69
    5.4.1 用户个性化搜索引擎模型系统结构  65-66
    5.4.2 查询优化  66-67
    5.4.3 页面信息挖掘  67
    5.4.4 个性化信息过滤  67-69
  5.5 本章总结  69-70
第六章 结论与展望  70-72
  6.1 本文总结  70
  6.2 不足与展望  70-72
致谢  72-73
参考文献  73-76
攻硕期间取得的研究成果  76-77

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于语义网络的智能搜索引擎研究,TP391.3
  4. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  5. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  6. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  7. 主观题自动评分技术研究,TP391.1
  8. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  9. 分布式搜索引擎索引安全及缓存策略研究,TP333
  10. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  11. 多媒体个性化建模与检索,TP391.3
  12. 中文XML压缩技术研究,TP311.11
  13. 个性化医疗信息推荐系统的研究与实现,R319
  14. 企业邮件监管系统的设计与实现,TP393.098
  15. 教育培训行业互联网营销问题的研究,F49
  16. 搜索引擎侵权行为研究,D923
  17. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  18. 基于Agent元搜索引擎的个性化研究,TP391.3
  19. 论搜索引擎竞价排名的法律规制,D923.43
  20. 搜索引擎悖论解读,G254
  21. 基于WEB的社区智能医疗服务系统的研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com