学位论文 > 优秀研究生学位论文题录展示

面向学科的文献资源聚类系统研究及应用

作 者: 崔弘扬
导 师: 刘清堂
学 校: 华中师范大学
专 业: 教育技术学
关键词: 文本聚类 奇异值分解 领域本体 教育技术 知识融合
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 77次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着文本信息的爆炸式增长,文本聚类技术成为了文本信息处理研究领域的一个重要手段,并且在知识发现、信息检索、生物信息学等领域得到了广泛的应用。文本聚类是采用无监督的机器学习方式自动识别文本所属类别,方便了用户选择有用知识类别,并且有利于文本中相似知识以及相关知识,为下一步知识的融合提供了前提。论文以教育技术学为例构建了领域的本体库作为文本聚类系统的数据源,实现了面向学科的文献聚类系统,并对Lingo聚类算法进行了优化,得到了较好的聚类效果。本文的主要工作包括:(1)分析阐述了文本聚类的相关理论。主要叙述了文本聚类技术的研究现状,介绍了主要聚类算法和目前比较成熟的聚类系统。(2)介绍了学科领域本体库的构建方法。文中领域本体库包含概念表和关系表,搜集教育技术学核心教材和近期专业学术期刊论文中的专业术语形成领域概念集,并为概念标明关系(包括同义关系、上下位关系、部分与整体关系)。(3)论文设计了面向学科的文献资源聚类系统,系统主要按照文本预处理模块、文本聚类算法模块、聚类结果可视化模块三个部分分别进行设计与实现,最后通过实验与传统的聚类算法进行了比较。(4)介绍了文献资源聚类结果在信息检索和知识融合中的应用。本文的特色之处:(1)介绍了教育技术学领域本体库的构建方法。(2)对Lingo聚类算法进行了优化,在算法分析中根据本体库中概念关系对同义词进行合并,对词频-文档矩阵进行降维,在标签提取中用领域主题词进行惩罚,使标签更加规范。(3)对于同一类别中相似度较高的文档,自动发现相同或相似知识元,实现基于主题图的知识元融合,从而达到文档之间知识融合的目的。

全文目录


摘要  5-6
Abstract  6-10
第一章 绪论  10-16
  1.1 研究背景及意义  10-11
  1.2 研究现状及存在问题  11-13
    1.2.1 文本聚类研究现状  11-12
    1.2.2 文本聚类存在的问题  12-13
  1.3 本文主要研究内容  13-14
  1.4 论文框架  14-16
第二章 文本聚类的理论及技术基础  16-25
  2.1 相关概念  16-17
  2.2 文本聚类的理论与主要算法  17-21
    2.2.1 文本聚类简介  17-18
    2.2.2 文本聚类算法简介  18-20
    2.2.3 文本聚类代表系统  20-21
  2.3 关键技术  21-24
  2.4 本章小结  24-25
第三章 面向学科的文献资源聚类系统分析与设计  25-35
  3.1 相关研究  25-26
  3.2 系统体系结构设计  26-27
  3.3 学科领域本体库设计  27-28
  3.4 系统功能模块设计  28-34
    3.4.1 文本预处理模块  28-30
    3.4.2 文本聚类算法模块  30-33
    3.4.3 聚类结果显示模块  33-34
  3.5 本章小结  34-35
第四章 面向学科的文献资源聚类系统实现  35-45
  4.1 系统开发环境  35
  4.2 学科领域本体库实现  35
  4.3 系统功能模块实现  35-43
    4.3.1 文本预处理模块  35-39
    4.3.2 文本聚类算法模块  39-41
    4.3.3 聚类结果显示模块  41-43
  4.4 效果分析与实验评测  43-44
  4.5 本章小结  44-45
第五章 文本自动聚类系统的应用研究  45-54
  5.1 相关研究  46
  5.2 聚类系统应用  46-49
    5.2.1 信息检索中的应用  46-48
    5.2.2 知识融合中的应用  48-49
  5.3 平台集成  49-52
  5.4 效果分析  52-53
  5.5 本章小结  53-54
总结与展望  54-56
参考文献  56-60
攻读硕士学位期间参与的科研项目  60
攻读硕士学位期间的科研成果  60-61
致谢  61

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 就业视角下地方高校教育技术学实践类课程教学模式设计与实施,G40-057
  4. 远程开放教育教师教育技术能力现状调查与对策研究,G434
  5. 四川中小学教师教育技术能力培训现状分析及对策研究,G434
  6. 演化聚类算法及其应用研究,TP311.13
  7. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  8. 基于本体的食品投诉文档文本聚类研究,TP391.1
  9. 基于领域本体的海洋环境数据仓库设计,TP311.13
  10. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  11. 面向短消息文本的聚类技术研究与应用,TP391.1
  12. 教育新闻热点话题发现系统的设计与实现,TP391.1
  13. 主观题自动评分技术研究,TP391.1
  14. 基于核回归与非局部方法的图像去噪研究,TP391.41
  15. Web新闻热点发现系统的设计与实现,TP393.09
  16. 基于子空间分析的扩频通信窄带干扰抑制研究,TN914.42
  17. 面向海量数据的云存储系统实现与应用研究,TP333
  18. 后现代主义对教育技术学学科的审视,G40-057
  19. 基于奇异值分解的信号处理方法及其在机械故障诊断中的应用,TH165.3
  20. 高师院校“现代教育技术”精品课程建设现状和对策研究,G40-057

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com