学位论文 > 优秀研究生学位论文题录展示

面向OA期刊检索结果页面的信息抽取方法研究

作 者: 张静
导 师: 张付志
学 校: 燕山大学
专 业: 计算机应用技术
关键词: OA期刊 数据区域 网页分块 数据记录 语义识别
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前,互联网上诸多开放存取(Open Access,OA)期刊快速递增的“孤岛”现状已制约了OA期刊应有效能的发挥。解决该问题的一条途径就是将不同开放存取期刊的检索服务加以整合,建立一个虚拟的数字资源空间,从而实现资源的快速共享,而OA期刊检索结果页面的信息抽取是其中的关键步骤之一。本文主要研究OA期刊检索结果页面的信息抽取方法,研究的具体内容如下。首先,针对目前现有的数据区域定位方法不够准确和对期刊网站检索结果页面定位不能适用的问题,通过分析期刊网站检索结果页面中数据区域与非数据区域的区别,提出了基于统计的数据区域定位算法,并给出了算法描述和实现,该算法以网页分块为基础,然后应用统计的方法进行数据区域定位。其次,为了抽取数据区域中论文信息,需要进行数据记录划分,提出了一种基于聚类的数据记录划分算法,该算法通过计算子树在显示样式、数据类型、标记路径结构、邻接特征四个方面的相似度,对子树进行聚类。数据记录划分后,针对数据记录中数据单元的语义识别问题,提出了一种基于特征相似度的数据单元语义识别算法,该算法通过计算数据单元与所定义语义字符串的特征相似度进行语义识别。最后,通过实验对所提出算法的准确率和召回率等方面进行实验验证及分析,然后将本文算法应用到实际项目中。

全文目录


相似论文

  1. 城市化进程中的能源消耗响应机制研究,F299.2;F206
  2. 一种高可靠性空管雷达数据记录回放系统的设计与实现,TP311.52
  3. 一种基于SHARC的数据记录设备的设计与实现,TN911.72
  4. 网络文本信息采集分析关键技术研究与实现,TP391.1
  5. 我国旅游业发展与经济增长的关系及其区域差异研究,F124;F224
  6. 航管系统数据记录与重演的设计和实现,V247
  7. 塔吊安全监测记录系统研制,TH213.3
  8. 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
  9. 基于文档结构的半监督Blog信息抽取技术,TP393.092
  10. Web数据集成中全局模式构建方法研究,TP393.09
  11. 基于网页分块的Web社区识别,TP393.092
  12. 基于页面分块的网页内容提取的研究与实现,TP393.092
  13. Deep Web信息抽取系统的研究与实现,TP311.52
  14. DPF数据记录仪系统设计与数据分析,U467.4
  15. 基于Nutch的面向特定主题的爬虫研究,TP391.3
  16. 基于网页分块思想的搜索引擎索引系统,TP391.3
  17. 基于语义的虚拟装配建模及装配操作推理方法研究与应用,TG95
  18. 基于PCI总线的高速串行数据记录/转发系统的研究,TP333.4
  19. 网页主题信息抽取方法研究,TP393.092
  20. 基于USB的飞控数据记录器的研究,TP216.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com