学位论文 > 优秀研究生学位论文题录展示
文献学科特征挖掘及分类研究
作 者: 孔宁
导 师: 刘亚秋
学 校: 东北林业大学
专 业: 计算机应用技术
关键词: 文献挖掘 文献分类 决策树 人工神经网络 支持向量机
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着科技的发展,各类学科科技文献涉及的领域更加广泛,专业研究方向更加细化。海量的文献以及相关数据使得科研人员很难快速的检索到目标文献。文献的智能化检索和分类将有效提高文献的利用率以及科研人员的工作效率。论文以文献学科特征挖掘和文献分类两方面展开。在文献的学科特征研究中,通过对语料库的大量统计发现,对于两个学科之间的特征分为共属特征和专属特征。两类特征的结合确定了文献的学科交叉情况和文献的学科特点。对于文献学科特征统计方法的研究,论文使用Jython开发语言制作了具备正则式统计和一般词汇统计两种功能的PubMed文献文件的特征统计工具,并使用该工具进行学科术语的正则表达式的确定。在文献的分类研究中,论文以"cheek"、chin"、"eyebrows"、"eyelids"四类文献为文献学科特征挖掘和分类对象,基于“不全为字母”和“除首字母还存在大写字母的单词”两种学科术语提取方案进行特征统计。使用粗糙集理论进行特征约简,得到的特征维数分别为607和202维。依据约简后的特征,构建每一个文献摘要的特征向量,将特征向量数据集平均分为两份,一份用于训练分类器、一份用于测试分类器的分类性能。论文基于决策树、人工神经网络、支持向量机四种机器学习模型分别构建4目标分类器和2目标组合分类器。经过实验表明:人工神经网络4目标分类器的分类性能最佳;特征提取方案1的分类器的分类性能优于特征提取方案2的分类器。
|
全文目录
摘要 4-5 Abstract 5-6 目录 6-8 1 绪论 8-18 1.1 论文研究背景 8-12 1.1.1 自然语言理解 8-10 1.1.2 数据挖掘 10-11 1.1.3 文本挖掘 11-12 1.2 文献特征分析 12-16 1.2.1 专属特征和共属特征分析 12-14 1.2.2 PubMed数据库简介 14-16 1.3 论文研究内容及架构 16-18 2 特征词条统计研究 18-29 2.1 特征词条统计方法 18-24 2.2 基于Jython的GUI词条统计工具的开发 24-28 2.2.1 Jython开发语言简介 24 2.2.2 词条统计工具的结构设计 24-28 2.3 本章小结 28-29 3 文献特征学习算法 29-36 3.1 决策树 29 3.2 神经网络 29-31 3.3 支持向量机 31-35 3.3.1 线性判别式 31-34 3.3.2 核函数 34-35 3.4 本章小结 35-36 4 特征提取策略 36-41 4.1 粗糙集 36-37 4.2 基于粗糙集的特征约简 37-39 4.3 特征向量构建方案 39-40 4.4 本章小结 40-41 5 基于机器学习方法的文献分类 41-54 5.1 分类器性能评价标准 41 5.2 决策树模型的测试 41-46 5.2.1 训练参数及程序配置 41-42 5.2.2 模型测试结果 42-45 5.2.3 结果分析 45-46 5.3 46-49 5.3.2 46-48 5.3.3 结果分析 48-49 5.4 支持向量机模型的训练 49-53 5.4.1 训练参数配置 49 5.4.2 模型测试混合矩阵 49-52 5.4.3 结果分析 52-53 5.5 模型分类效能分析 53 5.6 本章小结 53-54 结论 54-56 参考文献 56-58 附录 58-65 攻读学位期间发表的学术论文 65-66 致谢 66-67
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 基于车载3D加速传感器的路况监测研究,TP274
- 兖州矿区植物波谱变异与重金属胁迫特征研究,X173
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 企业安全效益评价及发展对策研究,F272;F224.5
- 酮类化合物的3D-QSPR研究,O641
- 不匹配信道下耳语音说话人识别研究,TN912.34
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|