学位论文 > 优秀研究生学位论文题录展示

中文搜索引擎的个性化服务研究

作　者: 陈彪
导　师: 陈文宇
学　校: 电子科技大学
专　业: 计算机软件与理论
关键词: 搜索引擎中文分词用户兴趣模型个性化模型 Web信息挖掘
分类号: TP391.3
类　型: 硕士论文
年　份: 2010年
下　载: 141次
引　用: 0次
阅　读: 论文下载

内容摘要

1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展机遇和技术挑战。搜索引擎是一个网络应用软件,从Web用户角度看,它能根据用户提交的查询词、短语或者一句话,返回一个可能与用户查询相关的网页列表,供用户进一步地判断和查询。当前,搜索引擎面临以下技术难点:多源异构数据类型、搜索内容的全面性、搜索的准确性、个性化检索等。个性化搜索是未来搜索技术发展的一个重要方向,是机器服务人类,人机和谐交互的一个重要发展。本文系统的研究了中文搜索引擎的工作原理、实现技术以及个性化模型。深入地分析了中文搜索引擎的核心技术:中文分词、机器爬虫、索引的建立与倒排序文件的生成、查询优化以及查询结果的排序等。通过对中文分词系统的改进,加入混合词典机制,提高了中文分词的准确性。分析Web信息挖掘技术与信息检索技术的关系,通过对用户使用中文搜索引擎的查询习惯、访问频率,浏览网页等信息资源进行挖掘,提取用户的使用特征以及兴趣爱好,建立用户的个性化兴趣模型。根据用户个性化兴趣模型,给出了一个个性化中文搜索引擎模型。旨在结合Web信息挖掘提高中文搜索引擎的查准率,为用户提供个性化的信息检索服务。本文所做的具体工作如下:(1)深入研究中文搜索引擎的核心技术实现细节:网页信息搜集、对搜集到的原始信息预处理、建立索引以及倒排文件、提供查询服务。(2)改进中文分词系统,提出一种实用的提高分词准确率的方法。(3)分析Web信息挖掘技术与信息检索技术的关系,研究用户个性化模型的建立与更新,提出基于对用户使用搜索引擎的行为和习惯等信息进行挖掘建立和更新用户个性模型的方法。(4)结合本文所做的研究,给出了一个个性化中文搜索引擎模型。

全文目录

摘要  4-5
ABSTRACT  5-10
第一章绪论  10-17
  1.1 课题的研究背景及意义  10-11
  1.2 搜索引擎的发展历史及研究现状  11-15
    1.2.1 搜索引擎发展历史  11-13
    1.2.2 搜索引擎研究现状  13-15
  1.3 本文的研究内容  15-16
  1.4 本文的组织结构  16-17
第二章搜索引擎关键技术研究  17-37
  2.1 搜索引擎概述  17-20
    2.1.1 搜索引擎工作流程  17-18
    2.1.2 搜索引擎体系结构  18-19
    2.1.3 搜索引擎的发展趋势  19-20
  2.2 机器爬虫  20-24
    2.2.1 HTTP 协议  20-21
    2.2.2 爬取策略  21-22
    2.2.3 网页爬取  22-24
  2.3 原始信息预处理  24-32
    2.3.1 信息预处理的系统结构  25-26
    2.3.2 索引网页库  26-28
    2.3.3 中文分词  28
    2.3.4 网页分析与建立倒排文件  28-32
  2.4 检索服务  32-36
    2.4.1 检索服务的系统结构  32-33
    2.4.2 检索的定义  33
    2.4.3 查询服务  33-36
  2.5 本章总结  36-37
第三章中文分词系统  37-48
  3.1 中文分词系统概述  37
  3.2 分词算法介绍  37-39
  3.3 逆向最大匹配算法  39-40
  3.4 中文分词的难点  40-41
  3.5 中文分词的评价标准  41-42
  3.6 一种提高中文分词准确率的方法  42-48
    3.6.1 数据结构设计  42-44
    3.6.2 混合字典  44-46
    3.6.3 分词算法  46-47
    3.6.4 实验结果  47-48
第四章 WEB 挖掘在个性化服务中的应用  48-54
  4.1 WEB 挖掘技术  48-50
  4.2 WEB 文本挖掘  50-51
  4.3 WEB 个性化简述  51-52
  4.4 基于WEB 挖掘个性化服务系统的比较  52
  4.5 WEB 挖掘技术在个性化系统中存在的问题  52-53
  4.6 基于WEB 挖掘的个性化技术的发展  53-54
第五章个性化搜索引擎模型设计  54-70
  5.1 个性化检索系统研究现状  54-55
  5.2 用户兴趣的获取  55-60
    5.2.1 页面特征提取  55-57
    5.2.2 用户兴趣获取的一般方法  57-58
    5.2.3 基于用户浏览行为挖掘  58-60
  5.3 用户个性化模型研究  60-65
    5.3.1 用户个性化模型表示  60-61
    5.3.2 用户兴趣的存储  61-63
    5.3.3 用户兴趣模型的建立与更新  63-65
  5.4 个性化搜索引擎模型  65-69
    5.4.1 用户个性化搜索引擎模型系统结构  65-66
    5.4.2 查询优化  66-67
    5.4.3 页面信息挖掘  67
    5.4.4 个性化信息过滤  67-69
  5.5 本章总结  69-70
第六章结论与展望  70-72
  6.1 本文总结  70
  6.2 不足与展望  70-72
致谢  72-73
参考文献  73-76
攻硕期间取得的研究成果  76-77

中文搜索引擎的个性化服务研究

内容摘要

全文目录

相似论文