学位论文 > 优秀研究生学位论文题录展示
中文BBS信息提取与分类
作 者: 韩杰
导 师: 廖闻剑
学 校: 武汉邮电科学研究院
专 业: 通信与信息系统
关键词: 信息提取 信息分类 BBS 楼层分割 锚信息 锚归纳算法 语义标签发现
分类号: TP393.094
类 型: 硕士论文
年 份: 2009年
下 载: 28次
引 用: 0次
阅 读: 论文下载
内容摘要
面对无序、海量、动态变化的网络信息资源,网络信息提取与分类能帮助用户快速查找所需的信息,且获得的结构化信息可以直接被其他的应用程序使用,有利于网络信息的应用。针对不同的BBS信息源,本文重点研究BBS信息提取与分类方法,并以结构化的形式对BBS信息进行描述。通过解析BBS网页来构造DOM树,希望利用页面元素在DOM树上的位置规律来发现BBS楼层单元的规律,并以此提出了三种锚信息的概念,分为结构化锚信息、个性化锚信息和JS锚信息。根据锚信息的显著特征,论文给出了锚归纳算法,利用锚信息在DOM树上的位置、数量和关系反复迭代以提取锚信息的位置并反推楼层单元的规律,该算法可以有效地提取BBS网页中的锚信息。在建立锚信息与楼层单元之间的稳定映射关系后,通过锚信息在DOM树上的路径,定位出楼层单元在DOM树中的位置,实现了楼层单元子树的准确分割。实验分析表明该算法能够准确处理87.39%的BBS网页。从楼层单元中提取BBS信息时,由于相同BBS网站的楼层单元对应的DOM子树结构基本一致,需要提取的信息在DOM子树中的位置稳定,比较两个楼层单元的DOM树,提取出相同位置的不同内容,生成各楼层单元的信息项集合。对信息项集合进行信息分类时,利用信息项在DOM子树中的位置对信息项进行归类,并根据信息项自身的隐含语义来发现其所属类别的语义标签,从而还原BBS后台数据库70%的表模式信息,得到结构化表数据。这种方法能够极大地减少手工进行操作的劳动强度。通过BBS信息提取和分类,得到结构化的表数据,有利于BBS网站的设计和监督管理。
|
全文目录
摘要 3-4 Abstract 4-9 第1章 引言 9-18 1.1 研究背景 9-10 1.2 国内外研究现状 10-15 1.2.1 网页去噪的研究 11-12 1.2.2 网络信息提取 12-13 1.2.3 网络信息分类 13-14 1.2.4 BBS论坛研究现状 14-15 1.3 存在的问题 15-16 1.4 本文研究内容 16-18 1.4.1 论文的研究内容和意义 16-17 1.4.2 论文组织结构 17-18 第2章 网络信息提取技术 18-26 2.1 网络信息提取的概念 18-19 2.2 信息提取方法的综述 19-25 2.2.1 基于自然语言理解方式的信息提取 19-21 2.2.2 基于ontology方式的信息提取 21-22 2.2.3 基于包装器的信息提取 22-24 2.2.4 基于HTML结构的信息提取 24-25 2.3 本章小结 25-26 第3章 BBS楼层分割 26-37 3.1 BBS网页的特点 26-28 3.1.1 BBS网页特征 26-27 3.1.2 BBS网页的DOM模型特征 27-28 3.2 BBS楼层分割的任务 28-29 3.3 锚归纳算法 29-32 3.3.1 锚信息定义 29-31 3.3.2 锚归纳算法流程 31-32 3.4 基于锚信息的楼层分割 32-35 3.4.1 设计思想 33 3.4.2 楼层分割的流程 33-35 3.5 楼层分割的效果分析 35-36 3.6 本章小结 36-37 第4章 BBS信息提取与分类 37-51 4.1 BBS信息提取 37-41 4.1.1 BBS信息提取的任务 37-38 4.1.2 基于楼层分割的BBS信息提取 38-40 4.1.3 BBS信息提取的效果分析 40-41 4.2 BBS元信息分类 41-45 4.2.1 BBS元信息分类的任务 41-42 4.2.2 BBS元信息分类的方法 42-44 4.2.3 BBS元信息分类的效果分析 44-45 4.3 实验方法和条件 45-47 4.4 实验数据分析和讨论 47-49 4.4.1 基于锚信息的BBS楼层分割方法 47-48 4.4.2 基于楼层分割的BBS信息提取方法 48-49 4.4.3 BBS元信息分类 49 4.5 本章小结 49-51 第5章 总结与展望 51-55 5.1 论文的工作 51-53 5.2 论文的创新点 53 5.3 未来的研究方向 53-55 参考文献 55-58 致谢 58-59 附录 攻读硕士学位期间发表的论文 59
|
相似论文
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 环青海湖区沙漠化土地景观格局变化分析,X171
- 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
- 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
- 校园BBS对大学生思想政治教育的影响及对策研究,G641
- BBS中组织拓扑结构研究和意见领袖识别,TP393.094
- 工程新闻报道的信息提取及应用研究,G212
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
- 面向Web的中文自动文摘生成的研究,TP391.1
- 程序理解中支持多语言理解与信息提取技术的研究,TP311.52
- 多尺度分割技术在高分辨率影像信息提取中的应用研究,TP751
- 网络条件下青年群体公共和私人领域的构建与维护,C913.5
- BBS舆情智能分析系统研究与实现,TP393.094
- 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
- 面向对象的林地信息提取研究,P237
- 纸币图像信息提取与检测系统研究,TH693.5
- 南方针叶林遥感信息提取研究,TP79
- 三江源区草地覆盖遥感信息提取方法及动态研究,S812
- 森林资源信息源与信息采集机制研究,S757
- 基于多特征分类比较法的城市遥感信息动态监测,TP873
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com
|