学位论文 > 优秀研究生学位论文题录展示

中文BBS信息提取与分类

作 者: 韩杰
导 师: 廖闻剑
学 校: 武汉邮电科学研究院
专 业: 通信与信息系统
关键词: 信息提取 信息分类 BBS 楼层分割 锚信息 锚归纳算法 语义标签发现
分类号: TP393.094
类 型: 硕士论文
年 份: 2009年
下 载: 28次
引 用: 0次
阅 读: 论文下载
 

内容摘要


面对无序、海量、动态变化的网络信息资源,网络信息提取与分类能帮助用户快速查找所需的信息,且获得的结构化信息可以直接被其他的应用程序使用,有利于网络信息的应用。针对不同的BBS信息源,本文重点研究BBS信息提取与分类方法,并以结构化的形式对BBS信息进行描述。通过解析BBS网页来构造DOM树,希望利用页面元素在DOM树上的位置规律来发现BBS楼层单元的规律,并以此提出了三种锚信息的概念,分为结构化锚信息、个性化锚信息和JS锚信息。根据锚信息的显著特征,论文给出了锚归纳算法,利用锚信息在DOM树上的位置、数量和关系反复迭代以提取锚信息的位置并反推楼层单元的规律,该算法可以有效地提取BBS网页中的锚信息。在建立锚信息与楼层单元之间的稳定映射关系后,通过锚信息在DOM树上的路径,定位出楼层单元在DOM树中的位置,实现了楼层单元子树的准确分割。实验分析表明该算法能够准确处理87.39%的BBS网页。从楼层单元中提取BBS信息时,由于相同BBS网站的楼层单元对应的DOM子树结构基本一致,需要提取的信息在DOM子树中的位置稳定,比较两个楼层单元的DOM树,提取出相同位置的不同内容,生成各楼层单元的信息项集合。对信息项集合进行信息分类时,利用信息项在DOM子树中的位置对信息项进行归类,并根据信息项自身的隐含语义来发现其所属类别的语义标签,从而还原BBS后台数据库70%的表模式信息,得到结构化表数据。这种方法能够极大地减少手工进行操作的劳动强度。通过BBS信息提取和分类,得到结构化的表数据,有利于BBS网站的设计和监督管理。

全文目录


摘要  3-4
Abstract  4-9
第1章 引言  9-18
  1.1 研究背景  9-10
  1.2 国内外研究现状  10-15
    1.2.1 网页去噪的研究  11-12
    1.2.2 网络信息提取  12-13
    1.2.3 网络信息分类  13-14
    1.2.4 BBS论坛研究现状  14-15
  1.3 存在的问题  15-16
  1.4 本文研究内容  16-18
    1.4.1 论文的研究内容和意义  16-17
    1.4.2 论文组织结构  17-18
第2章 网络信息提取技术  18-26
  2.1 网络信息提取的概念  18-19
  2.2 信息提取方法的综述  19-25
    2.2.1 基于自然语言理解方式的信息提取  19-21
    2.2.2 基于ontology方式的信息提取  21-22
    2.2.3 基于包装器的信息提取  22-24
    2.2.4 基于HTML结构的信息提取  24-25
  2.3 本章小结  25-26
第3章 BBS楼层分割  26-37
  3.1 BBS网页的特点  26-28
    3.1.1 BBS网页特征  26-27
    3.1.2 BBS网页的DOM模型特征  27-28
  3.2 BBS楼层分割的任务  28-29
  3.3 锚归纳算法  29-32
    3.3.1 锚信息定义  29-31
    3.3.2 锚归纳算法流程  31-32
  3.4 基于锚信息的楼层分割  32-35
    3.4.1 设计思想  33
    3.4.2 楼层分割的流程  33-35
  3.5 楼层分割的效果分析  35-36
  3.6 本章小结  36-37
第4章 BBS信息提取与分类  37-51
  4.1 BBS信息提取  37-41
    4.1.1 BBS信息提取的任务  37-38
    4.1.2 基于楼层分割的BBS信息提取  38-40
    4.1.3 BBS信息提取的效果分析  40-41
  4.2 BBS元信息分类  41-45
    4.2.1 BBS元信息分类的任务  41-42
    4.2.2 BBS元信息分类的方法  42-44
    4.2.3 BBS元信息分类的效果分析  44-45
  4.3 实验方法和条件  45-47
  4.4 实验数据分析和讨论  47-49
    4.4.1 基于锚信息的BBS楼层分割方法  47-48
    4.4.2 基于楼层分割的BBS信息提取方法  48-49
    4.4.3 BBS元信息分类  49
  4.5 本章小结  49-51
第5章 总结与展望  51-55
  5.1 论文的工作  51-53
  5.2 论文的创新点  53
  5.3 未来的研究方向  53-55
参考文献  55-58
致谢  58-59
附录 攻读硕士学位期间发表的论文  59

相似论文

  1. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  2. 环青海湖区沙漠化土地景观格局变化分析,X171
  3. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  4. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  5. 校园BBS对大学生思想政治教育的影响及对策研究,G641
  6. BBS中组织拓扑结构研究和意见领袖识别,TP393.094
  7. 工程新闻报道的信息提取及应用研究,G212
  8. 船体分段的机器人焊接路径规划与离线编程,TP242
  9. 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
  10. 面向Web的中文自动文摘生成的研究,TP391.1
  11. 程序理解中支持多语言理解与信息提取技术的研究,TP311.52
  12. 多尺度分割技术在高分辨率影像信息提取中的应用研究,TP751
  13. 网络条件下青年群体公共和私人领域的构建与维护,C913.5
  14. BBS舆情智能分析系统研究与实现,TP393.094
  15. 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
  16. 面向对象的林地信息提取研究,P237
  17. 纸币图像信息提取与检测系统研究,TH693.5
  18. 南方针叶林遥感信息提取研究,TP79
  19. 三江源区草地覆盖遥感信息提取方法及动态研究,S812
  20. 森林资源信息源与信息采集机制研究,S757
  21. 基于多特征分类比较法的城市遥感信息动态监测,TP873

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com