学位论文 > 优秀研究生学位论文题录展示

潜在语义索引技术在知识产权专家库中的研究与应用

作 者: 蔡嘉诚
导 师: 孙涌
学 校: 苏州大学
专 业: 计算机技术
关键词: 智能检索 潜在语义分析 奇异值分解 权重计算
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 49次
引 用: 0次
阅 读: 论文下载
 

内容摘要


潜在语义索引技术(LSI)是第三代搜索引擎的热点技术,是一种个性化的检索方法。第一代搜索引擎采用基于布尔逻辑的关键字检索技术,第二代在前者的基础上通过各种方法提高了查准率,而第三代搜索引擎则以实用性与易用性为目标,它运用了DeepWeb、人工智能、语义分析等前沿领域技术。目前,主流的搜索技术仍然采用基于布尔逻辑的第一代技术,它必需用户提供准确的关键字以供检索;而数据信息量的增加以及自然语言的灵活性与歧义性,使得传统的搜索方法越来越无法胜任用户的需求。作为替代者,个性化的搜索技术越来越引起广泛的重视与研究。近年来,苏州市涉及知识产权的案件和纠纷迅速增加,建立苏州地区知识产权专家库可以使市知识产权局能深入了解并掌握本地区各行业专家最新的第一手资料。但是面对本地区复杂繁多的行业、不同层面的专家及其研究领域,以及关键内容的各种不同方式的自然语言描述,传统的搜索引擎难以达到快速准确搜索的要求。在这种背景下,本文设计将LSI检索应用于苏州市知识产权专家库系统。根据调查,目前尚未有应用LSI检索的专家数据库的报道。本文将LSI技术应用于苏州市知识产权专家库检索系统中进行探索性研究,并根据专家库的特点和实际应用情况对相关技术和算法进行了研究和改进。具体包括以下几点:1、研究已有信息检索模型并总结优劣;同时在研究分析已有LSI技术的前提下,根据专家库的应用范围与特点,对相关技术进行了改进工作。2、阐述了一种基于LSI的专家库检索方法,运用基于层次化特征的快速聚类方法实现了基于LSI的专家信息快速检索。3、经过前期调研和大量工作基础上,实现了知识产权专家库原型系统,并在我局原始专家信息数据库上对系统的查准率、命中率等相关性能进行评价。

全文目录


中文摘要  4-5
Abstract  5-9
第一章 绪论  9-18
  1.1 智能检索系统在信息时代的重要性  9-11
    1.1.1 信息日益丰富和准确获取越来越困难之间的矛盾  9
    1.1.2 检索工具搜索信息量过大和信息丢失之间的矛盾  9-11
  1.2 自然语言处理综述  11-12
    1.2.1 自然语言处理的形式模型的研制  11-12
    1.2.2 自然语言将成为人机之间交流的最直接广泛的方式  12
  1.3 潜在语义分析产生的背景  12-13
  1.4 潜在语义分析  13-14
  1.5 国内外研究概况  14-16
    1.5.1 国外研究概况  14-15
    1.5.2 国内研究概况  15-16
  1.6 研究的目的与意义  16
  1.7 本文工作  16-17
  1.8 论文组织结构  17-18
第二章 信息检索技术与潜在语义索引模型  18-29
  2.1 信息检索流程  18-19
  2.2 信息检索模型介绍  19-25
    2.2.1 传统信息检索模型  19-22
    2.2.2 个性化信息检索模型  22-24
    2.2.3 信息检索模型的特点与潜在语义索引模型的优势  24-25
  2.3 潜在语义索引模型  25-27
    2.3.1 文档预处理  25-26
    2.3.2 特征分类与检索  26-27
  2.4 潜在语义空间评价  27
  2.5 本章小结  27-29
第三章 潜在语义技术的研究  29-43
  3.1 潜在语义技术分析  29-32
    3.1.1 潜在语义分析的特点  30-31
    3.1.2 潜在语义分析的发展现状  31-32
  3.2 基于权重与相似度的潜在语义分析  32-42
    3.2.1 专家库特征文档矩阵的建立  33-35
    3.2.2 奇异值分解  35-37
    3.2.3 奇异值相似度计算  37
    3.2.4 潜在语义分析权重计算  37-40
    3.2.5 潜在语义空间的更新  40-41
    3.2.6 精确率和召回率  41-42
  3.3 潜在语义分析的应用  42
  3.4 本章小结  42-43
第四章 基于 LSI 的专家库检索技术  43-51
  4.1 专家信息预处理  43-45
    4.1.1 文档的分词和标注  43-44
    4.1.2 建立关键词矩阵概述  44-45
  4.2 专家信息特征提取  45-48
    4.2.1 生成词—文档矩阵  45-46
    4.2.2 潜在语义分析权重计算  46-47
    4.2.3 奇异值分解  47-48
  4.3 专家信息检索技术  48-50
    4.3.1 潜在语义分析文档的聚类  49
    4.3.2 基于层次化特征的潜在语义空间快速聚类  49-50
  4.4 本章小结  50-51
第五章 专家库信息检索系统的实现  51-58
  5.1 系统概述  51-52
  5.2 专家库检索系统总体设计  52-53
  5.3 专家库检索系统的运行环境  53
  5.4 系统搜索结果分析  53-58
第六章 总结与展望  58-59
参考文献  59-63
攻读学位期间公开发表的论文  63-64
致谢  64-65

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 主观题自动评分技术研究,TP391.1
  3. 面向情感的电影背景音乐分类方法研究,TP391.1
  4. 基于核回归与非局部方法的图像去噪研究,TP391.41
  5. Web新闻热点发现系统的设计与实现,TP393.09
  6. 面向Web的中文自动文摘生成的研究,TP391.1
  7. 基于ML_pLSA模型和特征包算法的目标识别方法,TP391.41
  8. 基于子空间分析的扩频通信窄带干扰抑制研究,TN914.42
  9. 基于奇异值分解的信号处理方法及其在机械故障诊断中的应用,TH165.3
  10. 面向学科的文献资源聚类系统研究及应用,TP391.1
  11. 基于子空间分析的人脸识别算法研究,TP391.41
  12. 中文命名实体识别与歧义消解研究,TP391.1
  13. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  14. 基于奇异值分解的数字水印算法研究,TP309.7
  15. 变换域数字水印算法的研究,TP309.7
  16. 地震资料随机干扰压制技术研究,P631.44
  17. 热带海洋对中高纬度大气环流异常的影响,P732
  18. 基于奇异值分解的特征基函数法及其在电磁散射中的应用,O441.4
  19. 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4
  20. 数字图像水印技术研究,TP309.7
  21. 中文文本分类方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com