学位论文 > 优秀研究生学位论文题录展示
基于文本挖掘的学者简历自动生成
作 者: 钱跃
导 师: 刘宇
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 简历生成 信息抽取 支持向量机 双序列比对 同名区分
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 91次
引 用: 1次
阅 读: 论文下载
内容摘要
用户的简历信息是社交网络构建的基础,自动构建用户简历将为社交网站的建设和推广带来极大的便利。本文以学术社交网站LinkScholar为应用背景,以PDF格式论文和学术期刊网站为信息来源,通过信息抽取,获取国内学者信息,应用同名区分技术,生成学者简历。针对中文PDF格式论文的信息抽取问题,本文通过对大量中文科技论文的分析归纳出中文论文元数据的排它性、重复性、顺序性和部分确定性,并据此定义了简单元数据和复杂元数据的概念,提出了字典匹配和支持向量机模型抽取中文科技论文元数据。实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型。针对学术期刊网站的信息抽取问题,本文提出了同源HTML文档和HTML骨架序列的概念,基于这两个概念,将双序列比对算法引入Web信息抽取中。应用双序列比对算法计算待比对序列与模板序列的最大相同片段,根据模板序列的标注,提取各个信息项的信息。该方法充分利用了HTML文档结构和数据的关系,不需要建设大量的样本库,实现简单,通用性强。针对作者同名区分的问题,本文详细研究了同名区分的相关文献,总结已有方法的优缺点,提出了基于遗传聚类算法的同名区分。将引文聚类问题转化为多峰值的组合优化问题,应用遗传算法迭代求解,每一个最优解代表一个同名作者的引文集合,达到同名区分的目的。在信息抽取和同名区分的基础之上,本文设计了简历生成系统架构,制定了信息融合规则,生成有效全面准确的学者简历,并应用在LinkScholar系统中。
|
全文目录
摘要 4-5 Abstract 5-10 1 绪论 10-14 1.1 研究背景 10-11 1.2 相关研究进展 11-12 1.3 本文工作 12-13 1.4 本文结构 13-14 2 相关技术介绍 14-19 2.1 PDF 14-16 2.1.1 PDF简介 14 2.1.2 PDF特点 14-15 2.1.3 PDF文档结构 15-16 2.1.4 PDFBox 16 2.2 元数据 16-17 2.2.1 元数据定义 16-17 2.2.2 元数据的功能 17 2.3 HTML文档 17-19 3 基于字典匹配和支持向量机的中文科技论文元数据抽取 19-26 3.1 相关工作 19 3.2 论文元数据抽取问题分析 19-22 3.2.1 多分类支持向量机 21 3.2.2 建立知识字典 21 3.2.3 论文元数据特征函数 21-22 3.2.4 特征选择 22 3.3 元数据抽取流程 22-23 3.4 实验测评 23-24 3.5 小结 24-26 4 基于双序列比对的动态Web信息元数据抽取 26-35 4.1 相关研究工作 26-27 4.2 双序列比对算法 27-28 4.3 动态Web网页 28-29 4.4 基于双序列比对算法的Web数据抽取 29-32 4.4.1 生成HTML标记树 29-31 4.4.2 HTML结构树重构 31-32 4.5 基于双序列比对的HTML数据抽取 32-33 4.6 实验 33-34 4.7 小结 34-35 5 基于遗传聚类的同名区分 35-45 5.1 同名区分的相关研究 35-39 5.1.1 有监督的同名区分方法 35-36 5.1.2 半监督的同名区分方法 36-37 5.1.3 无监督的同名区分方法 37-38 5.1.4 基于社会关系网络的同名区分方法 38-39 5.2 基于词的引文相似度的计算 39-41 5.2.1 关键词抽取 39 5.2.2 相似度计算 39-40 5.2.2 相似词计算 40 5.2.3 引文相似度算法 40-41 5.3 遗传聚类算法 41-42 5.3.1 遗传算法那编码方式 41 5.3.2 适应度函数 41-42 5.3.4 迭代计算 42 5.4 实验 42-43 5.5 小结 43-45 6 简历自动生成系统 45-53 6.1 系统总体设计 45-47 6.2 信息融合模块的设计 47-50 6.2.1 数据库设计 47-48 6.2.2 信息融合规则 48-50 6.3 简历自动生成与LinkScholar系统 50-51 6.4 小结 51-53 结论 53-55 参考文献 55-58 攻读硕士学位期间发表学术论文情况 58-59 致谢 59-60
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 领域实体属性及事件抽取技术研究,TP391.1
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 时间表达式识别与归一化研究,TP391.1
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 不匹配信道下耳语音说话人识别研究,TN912.34
- 基于特征选择的入侵检测研究,TP393.08
- 基于机器学习的入侵检测系统研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|