学位论文 > 优秀研究生学位论文题录展示
基于Web的信息智能感知技术及应用
作 者: 赵城利
导 师: 易东云
学 校: 国防科学技术大学
专 业: 系统分析与集成
关键词: web挖掘 自然语言处理 网页去噪 文本分类
分类号: TP18
类 型: 硕士论文
年 份: 2004年
下 载: 214次
引 用: 0次
阅 读: 论文下载
内容摘要
Web信息空间中蕴涵着具有巨大潜在价值的知识,从这些海量数据源中发现有用的知识或模式是当今的研究热点。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web异常庞大的数据量,数据的无结构与半结构性以及Web极强的动态性使得如何对Web进行有效的资源和知识发现成为一个复杂的问题。 基于Web的智能感知技术旨在探索一条能够从Web海量的信息中高效地获取感兴趣部分,并将其转化成人类能直接利用的知识的自动化、智能化的道路,具有重要的理论与实践意义。 本文通过对Web挖掘和自然语言处理技术的研究,在两个研究方向间建立起有机的联系,将自然语言理解引入Web挖掘领域,从语义的角度对Web挖掘进行研究.。本文还建立一个基于Web的信息智能感知模型,探索出了一条从及时感应Web上数据流的变化、自动获取Web上感兴趣信息、再到将这些信息智能转化为可为人类直接决策参考之用的知识的新的完整的研究路线。本文: 1) 设计并实现了一种基于风格树模型的网页噪声去除方法,实验证明该方法可以显著地改善Web挖掘的质量; 2) 构造了一种改进的基于N-最短路径统计分词方法,旨在兼顾高召回率和高效率。该方法主要引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型; 3) 提出了一种基于句法分析的仿人文本分类方法,该分类方法充分分析了金融领域文本的特点,对该领域内文本分类取得了较好的效果。实验证明该方法可以显著地改善文本分类系统的性能。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-14 1.1 问题的提出 10-11 1.2 国内外研究动态 11-12 1.3 主要研究内容 12-14 1.3.1 主要内容 12 1.3.2 论文结构 12-14 第二章 基本概念 14-29 2.1 Web挖掘的概念及研究现状 14-23 2.1.1 Web挖掘概念及研究内容 14 2.1.2 Web挖掘的特点 14-15 2.1.3 Web挖掘的分类及研究现状 15-23 2.2 自然语言理解的概念及研究现状 23-29 2.2.1 自然语言理解的概念及研究内容 23-27 2.2.2 自然语言理解的研究现状 27-29 第三章 Web信息挖掘 29-50 3.1 风格树网页去噪模型 29-40 3.1.1 Web站点爬行 30-34 3.1.2 风格树模型 34-37 3.1.3 噪声检测 37-38 3.1.3 实验结果 38-40 3.2 Web文本自然语言处理 40-50 3.2.1 自然语言处理中的统计模型 40-43 3.2.2 改进的N-最短路统计分词 43-46 3.2.3 基于 HMM的词性标注 46-47 3.2.4 概率型句法分析 47-50 第四章 Web金融信息感知模型 50-61 4.1 引言 50 4.2 基于语义框架的金融事件提取 50-53 4.2.1 金融事件的含义 50-51 4.2.2 基于语义框架的金融事件模板 51-53 4.3 仿人自动文本分类方法 53-61 4.3.1 基于句法分析的文本分类 55-56 4.3.2 K最近邻文本分类 56-58 4.3.3 仿人分类算法描述 58-59 4.3.4 分类质量评价 59-61 第五章 结束语 61-63 5.1 主要工作和创新点 61-62 5.1.1 主要工作 61 5.1.2 创新点 61-62 5.2 进一步的工作 62-63 致谢 63-64 参考文献 64-67 附录 硕士阶段的主要工作 67
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 学术主页信息抽取系统的研究,TP393.092
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于语义分析的文本挖掘研究,TP391.1
- 基于话题的多文档文摘技术研究,TP391.1
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 主题搜索引擎中的爬取技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|