学位论文 > 优秀研究生学位论文题录展示

基于查询扩展的信息抽取技术研究及应用

作 者: 王力
导 师: 钱培德;朱巧明;李培峰
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 查询扩展 关键词扩展 LDA模型 聚类 主题信息抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 43次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的快速发展,关于某一主题的信息会通过不同渠道充斥着整个互联网。面对大量内容相近的主题文档集,有效地获取到真正需要的信息变得越来越困难。如何向用户提供全面简洁的主题信息、从而提高人们获取信息的效率日益受到研究者的关注。本文围绕中药副作用这一Web主题信息的抽取和汇总工作所需的查询扩展和信息抽取关键技术展开了研究。首先,针对主题信息所具有的多样性以及抽取工作对信息全面性的高度要求,本文提出了一种面向主题的关键词查询扩展方法,以解决主题信息查询中信息量不足的问题。该方法通过对给定主题的初始关键词搜索反馈网页进行分析,采用TF*PSF语义加权方法计算主题候选词的权重来进一步筛选主题关键词,以达到主题信息采集的目的。在此基础上,设计了面向Web主题的关键词迭代查询扩展算法,采用主题关键词的组合查询方法,来改善全面获取主题信息的查询策略。其次,根据网络主题信息所特有的噪音大、较稀疏、冗余性强、文本结构特征少等特点。本文提出一种基于可信度计算的主题句抽取方法,以抽取粒度较细的主题信息,并增加信息的置信度,从而实现信息的甄别操作。该方法通过多个侧面对目标主题的衬托,采用LDA(Latent Dirichlet Allocation)模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。此外,在采用AP(Affinity Propagation)聚类基础上,提出一种基于信息比评价的主题信息层次化显示方法,进行最终的主题信息抽取及层次化显示。最后,本文对三种药品副作用信息进行信息检索和抽取实验,在面向Web的主题相关的信息抽取的具体应用中,取得了较好的效果。

全文目录


中文摘要  4-5
Abstract  5-10
第一章 绪论  10-18
  1.1 研究背景与意义  10-14
    1.1.1 关于信息抽取  11-13
    1.1.2 信息抽取与信息检索  13-14
  1.2 本文的研究目标  14-15
  1.3 课题的主要研究内容  15-16
  1.4 本文结构  16-18
第二章 相关工作及系统框架  18-34
  2.1 查询扩展技术  18-21
    2.1.1 全局分析(Globe Analysis)  18-19
    2.1.2 局部分析(Local Analysis)  19-20
    2.1.3 基于词表的查询扩展  20
    2.1.4 基于语义概念的查询扩展  20-21
  2.2 信息抽取概述  21-25
    2.2.1 信息抽取的主要方法  21-23
    2.2.2 信息抽取应用研究现状  23-25
  2.3 其他相关研究  25-28
    2.3.1 面向查询的多文档文摘  25-26
    2.3.2 话题识别与跟踪  26-27
    2.3.3 聚类分析  27-28
      2.3.3.1 聚类分析的定义  27
      2.3.3.2 聚类方法的分类  27-28
  2.4 系统框架  28-29
  2.5 关键技术  29-31
    2.5.1 主题信息查询扩展  29-30
    2.5.2 主题信息抽取  30
    2.5.3 冗余消除及层次化显示  30-31
  2.6 评价方法  31-33
  2.7 本章小结  33-34
第三章 面向Web 主题的关键词查询扩展方法  34-43
  3.1 问题提出  34-35
  3.2 主题关键词查询扩展模型  35-38
    3.2.1 模型描述  35-36
    3.2.2 主题关键词扩展  36-37
    3.2.3 关键词组合查询  37-38
      3.2.3.1 迭代查询扩展算法  38
  3.3 实验及结果分析  38-42
    3.3.1 实验设计  38-39
    3.3.2 实验结果及分析  39-42
  3.4 本章小结  42-43
第四章 基于可信度计算的主题句抽取及层次化显示  43-62
  4.1 引言  43-44
  4.2 LDA 模型  44-46
  4.3 LDA 模型主题句抽取  46-50
    4.3.1 问题提出  46-47
    4.3.2 主题句抽取框架  47-48
    4.3.3 Gibbs 抽样  48-49
    4.3.4 主题句可信度计算  49-50
  4.4 主题信息层次化显示  50-54
    4.4.1 主题句相似度计算  51
    4.4.2 AP 聚类  51-53
    4.4.3 信息比评价  53-54
  4.5 实验及结果分析  54-61
    4.5.1 实验设计  54-55
    4.5.2 实验分析  55-61
      4.5.2.1 评测方法  55-56
      4.5.2.2 实验结果及分析  56-61
  4.6 本章小结  61-62
第五章 总结和展望  62-64
  5.1 本文总结  62-63
  5.2 未来工作  63-64
参考文献  64-69
攻读硕士学位期间公开发表的论文  69-70
致谢  70-71

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 生物医学领域检索系统查询扩展技术研究,TP391.3
  5. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  6. 高血压前期证候特征研究,R259
  7. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  8. K-均值聚类算法的研究与改进,TP311.13
  9. 大学生综合素质测评研究,G645.5
  10. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  11. 21个荷花品种遗传多样性的ISSR分析,S682.32
  12. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  13. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  14. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  15. 南通市农业面源污染负荷研究与综合评价,X592
  16. 土壤环境功能区划研究,X321
  17. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  18. 大豆杂种优势及其遗传基础研究,S565.1
  19. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  20. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  21. 基于变异粒子群的聚类算法研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com