学位论文 > 优秀研究生学位论文题录展示
基于主题模型的科技监测研究与实现-以科技报告为例
作 者: 刘卫江
导 师: 王曰芬
学 校: 南京理工大学
专 业: 情报学
关键词: 科技监测 主题模型 主题识别 主题演化 相似度计算
分类号: G301
类 型: 硕士论文
年 份: 2014年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
在知识经济、大数据时代,随着科学技术的蓬勃发展和科研成果的大量涌现,如何从海量的科技文献环境中提供有效的科技监测服务,从而为科研管理部门、学术科研人员提供有效的科技知识支持,已经受到了广大学者的高度关注与重视。一方面,科技文献“量”呈指数级增长,成为一座巨大的知识宝库;另一方面,面对海量、快速增长的科学文献数据,从文献数据库中快速有效地提取知识信息的需求变得非常迫切。如何在海量信息环境下进行有效抓住科技发展的脉络,并及时地把握研究热点是科技文献领域面向科技监测研究的核心和关键问题。目前,在面向科技监测的研究中,采用的研究对象主要是科技期刊和专利文献,所应用的方法主要是文献计量和社会网络分析。为了使科技监测研究的数据来源更加多样化,研究方法更加完善、研究结论更有说服力,需要应用各种科技文献载体,并不断突破现有的研究方法。因此,本文在对现有研究进行系统地调查与综合分析基础上,提出有效的、基于科技文献三大载体形态的基于LDA主题模型的科技监测方法。通过挖掘科技文献中蕴含的科技知识,以期实现揭示科学研究主题的演进过程与脉络目的,把握科技发展动态,提升其科技创新价值。首先,本文以科技文献中“主题”的建模为切入点,以科技报告载体形态为例进行主题分析,构建“文档—特征词—主题”三层拓扑结构的内容主题模型;其次,重点研究如何实现对海量科技文献的动态“主题”自动发现及其在时间序列上的“演化”脉络的科技监测内容,具体包括主题挖掘、主题强度衡量、主题数量的确定和主题演化方式等四个问题;再次,设计并构建了基于开源平台JGibbLDA的科技监测原型系统。最后在相关主题模型研究的基础上,将相似度运算作为面向科技监测的主题模型方法应用的突破口,提出了科技报告相似度计算模型和基于用户兴趣的推荐模型,完善了面向科技监测的衍生应用研究。
|
全文目录
摘要 5-6 Abstract 6-12 1 绪论 12-21 1.1 研究背景及研究意义 12-15 1.1.1 研究背景 12-13 1.1.2 研究意义 13-15 1.2 科技监测内涵 15-16 1.2.1 科技监测的概念 15-16 1.2.2 科技监测的特点 16 1.3 研究问题、内容及方法 16-19 1.3.1 研究目标与问题 16-17 1.3.2 研究的主要内容 17-18 1.3.3 研究的方法 18-19 1.4 本文的组织结构 19-21 2 相关研究的理论基础与技术方法 21-43 2.1 科技监测的相关研究 21-31 2.1.1 科技监测的常用技术方法 21-26 2.1.2 科技监测应用系统 26-27 2.1.3 科技监测相关研究方向及面临的挑战 27-31 2.2 主题模型内涵 31-33 2.2.1 主题模型原理 31-32 2.2.2 科技监测与主题模型 32-33 2.3 主题模型研究的发展历程 33-39 2.3.1 基于文献计量学分析的国内外研究现状 33-36 2.3.2 主题模型研究的演化历程 36-39 2.4 LDA主题模型 39-42 2.4.1 模型表示 39-40 2.4.2 LDA相关研究模型 40-42 2.5 本章小结 42-43 3 基于LDA主题模型的科技监测体系与方法研究 43-59 3.1 主题的定义 43-45 3.2 基于主题模型的科技监测体系结构 45-46 3.2.1 相关问题分析 45 3.2.2 科技监测体系结构 45-46 3.3 基于LDA主题模型的主题监测识别 46-49 3.3.1 LDA文档主题建模 46-47 3.3.2 模型推理求解 47-49 3.3.3 全局主题强度度量 49 3.4 主题强度演化与主题相似度 49-52 3.4.1 主题强度演化模式 50-51 3.4.2 基于Kullback—-Leibler Divergence的主题相似度 51-52 3.5 基于LDA主题模型的主题追踪演化 52-57 3.5.1 主题数量确定 54-55 3.5.2 主题演化方式 55-57 3.6 本章小结 57-59 4 基于主题模型的科技监测原型系统设计与实现 59-78 4.1 科技监测原型系统的总体设计 59-60 4.1.1 科技监测原型系统设计总体架构 59-60 4.1.2 科技监测原型系统模块设计 60 4.2 实验数据准备 60-63 4.2.1 实验数据载体 60-61 4.2.2 数据加工 61-63 4.3 实现工具平台 63-66 4.3.1 数据输入 64-65 4.3.2 程序执行 65-66 4.3.3 数据输出 66 4.4 主题监测与识别演示 66-72 4.4.1 全局主题抽取 66-69 4.4.2 局部主题抽取 69-71 4.4.3 文档支持度 71-72 4.5 主题演化演示 72-76 4.5.1 主题强度演化 72-73 4.5.2 主题内容演化 73-75 4.5.3 主题特征词分布及共现网络 75-76 4.6 本章小结 76-78 5 面向科技监测的主题模型衍生应用研究 78-82 5.1 科技报告相似度监测研究 78-79 5.1.1 文档相似度监测 78-79 5.1.2 科技报告相似度监测实证 79 5.2 科技报告推荐研究 79-81 5.2.1 基于兴趣的推荐模型 79-80 5.2.2 科技报告推荐实证 80-81 5.3 本章小结 81-82 6 总结 82-85 6.1 本文主要创新点 82-83 6.2 本文不足之处 83 6.3 后续研究工作 83-85 致谢 85-86 参考文献 86-90 附录 90
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
- 基于球面调和的三维模型检索系统研究与实现,TP391.41
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 税务数据仓库系统的设计与应用,TP311.13
- 基于扩展监督主题模型的高分辨率合成孔径雷达图像的分类与标注,TN957.52
- 监督主题模型的研究与应用,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 中文重复网页的检测算法研究,TP393.092
- 语音识别置信度特征提取算法研究,TN912.34
- 中国典型管理期刊文献主题发现与演化分析,G353.1
- 面向个性化推荐系统的自适应算法的研究与实现,TP393.09
- 基于领域本体的答疑网格系统研究,TP393.09
- 基于语义的标签推荐系统关键问题研究,TP311.52
- 基于参与者行为建模的知识流仿真,TP182
- 学科交叉分析方法与应用研究,G311
- 基于综合本体相似度计算的WEB服务发现,TP393.09
- 图书领域Deep Web查询接口集成研究,TP393.09
中图分类: > 文化、科学、教育、体育 > 科学、科学研究 > 科学研究理论 > 科学学
© 2012 www.xueweilunwen.com
|