学位论文 > 优秀研究生学位论文题录展示

科技文献自动辅助阅读系统

作 者: 钟惠中
导 师: 赵峰
学 校: 华中科技大学
专 业: 计算机技术
关键词: 文本信息抽取 人名识别 隐马尔可夫模型 语义框架 PDF解析
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息时代的来临,科技文献的数量也极速增长。科技文献作为研究人员重要的信息来源,一方面越来越难以管理和组织,另一方面大量文献的信息被淹没。从这些文献中针对性抽取有用的信息也越来越重要。由于阅读论文的时候,科研人员关注的引用文献和作者信息,通常需要很多额外的步骤才能查看到,浪费了宝贵的科研时间。降低阅读时间的碎片化可以提高阅读科技文献效率,科技文献自动辅助阅读系统由此而生。通过抽取科技文献中的参考文献和作者姓名,科技文献自动辅助阅读系统可以自动检索作者信息和文献信息,并且该系统能在鼠标所指处,及时显示引用文献信息和作者信息。对于科技文献中的信息抽取,现有系统大多使用了启发式算法,属于基于规则的信息抽取方法,对于文献中有关联的语义概念关注较少。科技文献自动辅助阅读系统的文献信息抽取方案基于语义框架结合规则,根据科技文献中的各种语义概念构建各个概念之间的联系从而构建整个框架。由于科技文献为半结构化的数据,系统结合规则和PDF文件中的非文本信息来提高抽取的准确率。在作者名识别方面,根据科技文献特点与技术框架的限制,选择基于隐马尔可夫模型和轻量人名语料库的作者名识别方案。系统表明对于作者名识别任务,轻量人名字典足以满足预期目标。在作者信息查询方面,系统探索了客户端下两种查询协议,即HTTP协议和SOAP协议,并比较了两种方式各自优缺点。对随机抽查的科技文献进行功能测试和性能测试,测试结果表明该系统能达到较高的作者名识别率和引用识别率,以及很高的参考文献抽取的准确率。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-13
  1.1 课题的研究意义  8-9
  1.2 国内外研究现状  9-10
  1.3 课题背景和研究内容  10-11
  1.4 论文的组织结构  11-13
2 科技文献自动辅助阅读系统的设计  13-22
  2.1 设计思想与系统架构  13-15
  2.2 功能模块设计  15-18
  2.3 系统工作流程  18-19
  2.4 关键问题及难点分析  19-20
  2.5 本章小结  20-22
3 结合语义框架与规则的文本抽取技术  22-31
  3.1 语义框架与规则应用  22-23
  3.2 PDF 文档解析与格式识别  23-25
  3.3 语义框架下的参考文献抽取与引用识别  25-29
  3.4 基于规则与 XML 的网页信息抽取  29-30
  3.5 本章小结  30-31
4 基于隐马尔可夫模型的作者名识别与查询匹配技术  31-37
  4.1 隐马尔可夫模型与命名实体识别  31-32
  4.2 作者名的识别  32-34
  4.3 作者信息查询与匹配  34-36
  4.4 本章小结  36-37
5 系统测试与结果分析  37-47
  5.1 测试指标与测试集  37-38
  5.2 测试方法和测试环境  38-41
  5.3 功能测试  41-42
  5.4 性能测试  42-45
  5.5 讨论  45
  5.6 本章小结  45-47
6 总结及未来工作  47-49
致谢  49-51
参考文献  51-55

相似论文

  1. 网络语音传输丢包的恢复技术,TN912.3
  2. 领域实体属性及事件抽取技术研究,TP391.1
  3. 基于视觉的人体行为检测识别研究,TP391.41
  4. “我跑得很快”一类句式的句法语义及补状换位机制研究,H146
  5. 基于半监督学习的时间序列分类研究与实现,TP181
  6. 中美新闻发布会有关重大军事行动的语言表述分析:框架理论视角,H030
  7. 基于隐马尔科夫模型的天津方言语音合成,TN912.33
  8. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  9. 基于HMM/SVM混合模型的核电设备故障诊断技术研究及数据库系统开发,TM623.4
  10. 基于加权HU不变矩的监控视频人体行为识别方法的研究与实现,TP391.41
  11. 异构无线Mesh网络切换机制研究,TN929.5
  12. 基于小波域隐马尔科夫模型的图像杂波抑制技术研究,TP391.41
  13. PDF417二维条码识别技术的研究及其在Linux平台下的实现,TP391.44
  14. 基于复杂背景下手语识别技术的的研究,TP391.41
  15. 虚拟人运动合成技术及其工程应用研究,TP391.41
  16. 中文人名跨文档指代消解研究,TP391.1
  17. 基于HTK的汉语连续数字语音识别研究,TN912.34
  18. 非特定人语音识别关键技术研究,TN912.34
  19. 一种基于子带最大似然线性回归的鲁棒语音识别方法,TN912.34
  20. RBF神经网络和HMM用于音乐识别的算法研究,TN912.34
  21. 面向智能视频监控的事件检测建模及优化,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com