学位论文 > 优秀研究生学位论文题录展示
一个基于语义信息提取的互联网情报挖掘系统的设计与实现
作 者: 黄朝晖
导 师: 姜晓红;陈华钧
学 校: 浙江大学
专 业: 计算机应用技术
关键词: Web数据挖掘 网页正文提取 自然语言处理 频繁子图挖掘 语义关系图 Linked Data
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 147次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的高速发展,Web已经成为世界上规模最大的公共数据源。人们可以从Web获取信息,可以通过Web与其他人交流,可以在Web上共享自己的信息。然而由于Web数据规模如此庞大,如何从中快速准确的检索到用户所需要的信息是一个急迫需要解决的问题。针对这一问题,在信息检索领域中的Web数据挖掘便应运而生,并且伴随着Web的发展而备受关注。Web数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量的Web文档进行分析来获得隐含的知识和模式,从而帮助人们更好的进行信息检索和决策制定。本文分析了Web数据挖掘的研究内容和研究状况,设计并实现了一个基于语义信息提取的互联网情报挖掘系统,具体的内容包括:1.实现并分析了Web页面提取、网页正文提取、自然语言处理以及关键字信息抽取等子系统模块;2.提出并实现了语义关系图的构建模型,该模型用图的形式表示非结构化的文本数据中的语义关系;3.实现了一种频繁子图挖掘算法,该算法不同于单纯的深度遍历和广度遍历算法,存效率上优越于前两者;本文将该算法应用于挖掘潜在的频繁语义子图,得到具有一定客观性的语义关系图;4.提出并实现了一种基于Linked Data的RDF链搜索算法,用Linked Data解析频繁子图,从而获得具有标注关系的语义关系图。
|
全文目录
摘要 2-3 Abstract 3-9 第1章 绪论 9-16 1.1 背景 9-11 1.2 相关研究现状 11-12 1.3 主要问题 12-13 1.4 论文工作 13-14 1.5 论文结构 14-16 第2章 系统体系结构 16-23 2.1 系统整体架构设计 16-17 2.2 Web信息提取模块 17 2.3 网页正文提取模块 17 2.4 自然语言处理模块 17-18 2.5 关键字提取模块 18 2.6 语义图挖掘模块 18-19 2.7 Linked Data解析模块 19 2.8 界面展示模块 19-21 2.9 本章小结 21-23 第3章 信息提取及分析 23-41 3.1 Web信息数据收集 23-28 3.1.1 网络爬虫 23-28 3.2 网页正文提取 28-33 3.2.1 网页规范化 28-29 3.2.2 正文提取 29-33 3.3 自然语言处理 33-40 3.3.1 中文分词技术综述 33-34 3.3.2 分词系统架构 34-39 3.3.3 其它语言分词技术 39-40 3.4 关键字提取 40 3.5 本章小结 40-41 第4章 语义关系图构建与挖掘 41-62 4.1 语义相关概述 41-43 4.1.1 语义概述 41-42 4.1.2 语义网概述 42 4.1.3 语义图概述 42-43 4.2 相关研究现状 43 4.3 本文的语义关系图挖掘模式 43-44 4.4 语义图构建模式 44-47 4.5 频繁子图挖掘 47-55 4.5.1 频繁子图挖掘算法分析与比较 48-49 4.5.2 GraphGen算法 49-55 4.6 Linked Data解析模块 55-61 4.6.1 Linked Data简介 55-57 4.6.2 Linked Data解析语义图 57-61 4.7 本章小结 61-62 第5章 系统应用介绍 62-70 5.1 情报收集分析系统 62-68 5.1.1 情报信息收集 63 5.1.2 情报信息预处理 63-64 5.1.3 情报信息自然语言处理 64-65 5.1.4 情报挖掘分析 65-68 5.2 其它应用案例 68-69 5.3 本章小结 69-70 第6章 总结与展望 70-72 6.1 工作总结 70-71 6.2 展望 71-72 参考文献 72-75 攻读硕士学位期间主要的研究成果 75-76 致谢 76
|
相似论文
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
- 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 筛选规则智能化生成的研究与设计,TP393.08
- 基于叙词表的领域本体构建方法研究,TP391.1
- 基于内容的文本分割关键技术,TP391.1
- 基于CRF的中文命名实体识别研究,TP391.43
- 汉语介词短语的自动识别,TP391.43
- 基于维基的深度多标签多类别文本分类系统,TP391.1
- 无线移动环境下图片信息推荐系统的研究与实现,TN929.5
- 基于语义的中医药数据采集工程及应用平台,TP274.2
- 网页正文提取及去重技术研究,TP393.092
- 搜索引擎智能化技术中若干关键问题的研究与实现,TP391.3
- 视频字幕识别结果校对方法的研究与实现,TP391.41
- 基于统计的多文档关键短语和文摘抽取研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|