学位论文 > 优秀研究生学位论文题录展示

同义词挖掘及其在概念信息检索系统中的应用研究

作 者: 曹晶
导 师: 孙铁利
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 概念检索 同义词识别 语义相似度 同义扩展 语义词典 词素
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 310次
引 用: 8次
阅 读: 论文下载
 

内容摘要


随着Internet的飞速发展,Internet的应用深入到各行各业,Internet上的信息变得繁杂,信息的查找与获取也就变得越来越困难,如何从这个浩瀚的信息资源库中获取用户需要的信息,是人们面临的一个重要问题。传统的信息检索服务已不能满足用户的检索需求,因此智能信息检索成为重要的研究课题。概念检索是实现智能信息检索的重要方式之一。本文研究了搜索引擎特别是中文搜索引擎的相关现状,以及下一代智能搜索引擎即基于概念的检索系统的功能特点,并利用《同义词词林》作为语义体系实现了基于《同义词词林》的同义词扩展检索。并对同义词识别的算法进行了深入的研究,利用基于语义体系的相似度算法实现智能搜索引擎中的同义概念的识别,和相关词语的联想搜索。关键词检索是大多数搜索引擎的主要检索手段,然而多数搜索引擎对此不加控制。从情报语言学研究的成果以及网络信息检索的现状来看,自然语言不加以控制,检索效率与效果是不能尽如人意的。应该说,要克服关键词检索系统的弊病,必须对关键词进行有效的控制,变字面检索为概念检索。本文在分析目前概念检索系统的基础上,提出了基于同义词(概念)挖掘的概念检索系统。同义词的自动发现和识别在基于概念的信息检索领域有着重要的研究意义和应用价值,本文对国内和国外同义词识别算法进行研究和分析的基础上,对基于语义体系的同义词识别算法,即基于《同义词词林》的同义词识别算法和基于《知网》的同义词识别算法进行了深入的研究,利用词汇间的语义相似度度量来进行同义词识别,挖掘出大量的复合词形的同义词。基于《同义词词林》的同义词识别算法的实验结果表明,该算法具有较高的识别率。同义词的自动发现和识别,可以用于扩充同义词词典,提高同义词扩展检索的检准率和检全率。本文还在基于《知网》的词汇语义相似度算法的基础上提出了词语相关度计算方法,从而实现了相关概念联想功能。

全文目录


摘要  3-4
Abstract  4-7
引言  7-8
第一章 绪论  8-15
  1.1 选题意义  8
  1.2 信息检索的定义及其产生  8-9
  1.3 搜索引擎的基本原理  9
  1.4 搜索引擎的发展  9-13
    1.4.1 传统搜索引擎技术的局限性  11-12
    1.4.2 传统搜索引擎的症结是什么  12
    1.4.3 解决症结之道--智能化搜索引擎  12-13
  1.5 同义词识别研究综述  13-14
  1.6 本文的结构  14-15
第二章 信息检索关键技术研究  15-22
  2.1 中文自动分词  15-21
    2.1.1 中文分词  15-16
    2.1.2 常见汉语分词方法  16-19
    2.1.3 分词系统的实现  19-21
  2.2 信息检索的性能评价  21
  2.3 本章小结  21-22
第三章 基于概念的信息检索系统  22-27
  3.1 智能检索技术的发展  22
  3.2 概念检索简介  22-24
    3.2.1 概念检索的特点  23-24
  3.3 基于概念的检索技术实现方法  24-26
    3.3.1 基于概念词典的检索技术  24-25
    3.3.2 隐含语义检索技术  25-26
  3.4 知识库  26
  3.5 本章小结  26-27
第四章 汉语同义词识别  27-41
  4.1 面向信息检索的同义词的定义  27-28
  4.2 发现同义词的途径和方法  28-29
  4.3 同义词识别算法研究  29-31
    4.3.1 基于字面相似度和词素相似度算法的不足之处  29
    4.3.2 基于语义体系的同义词识别  29-31
  4.4 基于《同义词词林》语义体系的同义词识别算法  31-36
    4.4.1 《同义词词林》简介  31-32
    4.4.2 基于《同义词词林》语义体系的相似度算法  32-34
    4.4.3 词汇之间的语义相似度计算  34-36
  4.5 基于《知网》的词汇语义相似度计算  36-40
    4.5.1 《知网》简介  36-37
    4.5.2 《知网》的结构  37-39
    4.5.3 基于《知网》的语义相似度计算方法  39-40
  4.6 本章小结  40-41
第五章 基于同义词挖掘的概念检索系统的设计与实现  41-53
  5.1 基于概念的智能信息检索系统的体系结构设计  41-42
  5.2 关键技术的处理  42-51
    5.2.1 Innernet 网的建立  42-44
    5.2.2 同义词挖掘系统的设计  44-45
    5.2.3 建立检索项索引  45-46
    5.2.4 搜索器的实现  46
    5.2.5 Lucene 全文索引工具包  46-51
  5.4 相关词语的联想搜索  51-52
  5.5 本章小结  52-53
结束语  53-54
参考文献  54-56
致谢  56-57
在学期间公开发表论文及著作情况  57

相似论文

  1. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  2. 蛋白质关系网络复合物发现与可视化研究,TP391.41
  3. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  4. 《新视野读写教程》中生词的词素拟象象似性研究,H314
  5. 基于概念集合的网页内容过滤方法的研究,TP393.092
  6. 基于改进向量空间模型的网络信息检索研究,TP391.3
  7. 基于语义分析的推荐算法在RSS网络信息服务中的研究,TP393.09
  8. 中国英语学习者处理复杂词素的掩蔽启动研究,H319
  9. 基于多维语义的互联网药品信息抽取的研究与应用,TP393.09
  10. 基于语义网的本体相似度算法研究,TP391.1
  11. 创新设计启发引擎的联想过程算法研究,TP391.1
  12. K-近邻中文文本分类方法的研究,TP391.1
  13. 基于文本相似度评分的中医案例分析系统研究与实现,TP391.1
  14. 基于语义相似度的地理信息检索技术研究,TP391.3
  15. 基于搜索日志和点击日志的同义词挖掘的研究和实现,TP391.3
  16. 基于关系数据库的专业领域语义词典构建研究,TP311.13
  17. 基于语义扩展和匹配的信息检索在P2P中的研究与实现,TP391.3
  18. 基于语义的Web服务发现应用研究,TP393.09
  19. 基于本体的机械产品领域智能信息检索系统研究,TP391.3
  20. NPM项目管理系统及知识管理研究,TP315

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com