学位论文 > 优秀研究生学位论文题录展示
Web信息语义特征获取技术
作 者: 魏宏儒
导 师: 高克宁
学 校: 东北大学
专 业: 计算机软件与理论学科
关键词: Web信息语义特征 向量空间模型 重复模式 时效性 更新
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到其所感兴趣的信息。在海量Web数据空间中,Web信息通常以网站的形式进行组织,各网站设置自己的分类目录以实现信息页面按类别组织和发布。然而不同网站进行类别划分时,标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法实现多源Web信息的有效集成。因此迫切需要提供一种有效的Web信息语义特征表示方式,以解决网站分类语义异构问题。为解决网站分类信息的语义异构问题,本文阐述了基于向量空间模型和基于重复模式的语义特征表示方法及两种表示方法的语义更新策略。在分类体系中,将分类概念作为描述Web信息类别的原子节点,通过标准化的分类概念语义特征体现Web信息类别的潜在语义信息,从而实现Web信息的统一理解和规范性描述。以网站分类语义统一理解及规范性描述为核心,为实现Web信息语义特征标准化,本文的研究内容包括:Web页面信息获取技术,Web信息语义特征表示方法研究及Web信息语义特征时效性及更新策略研究。首先,完成Web页面信息下载和HTML标签解析,从Web页面及其结构中提取出描述及表示语义特征的有用信息,改进现有TF-IDF权重计算算法,提高特征项权重的准确度;其次,分别采用两种表示方法进行Web信息语义特征规范化描述。基于向量空间模型的语义特征表示方法通过对样本网页分词、数据清理、特征权重计算、特征选取、生成特征向量等操作将每个分类概念表示成特征向量。基于重复模式的Web信息语义特征表示方法采用相关矩阵法发现Web网页中所有的重复模式,通过γ近似匹配算法对不同类别中相似的重复模式进行归一化处理,得到分类体系中每个分类概念的重复模式及重复次数对语义特征进行表示;最后,根据Web信息变化性和时效不确定性,制定语义特征更新策略,在相应时间内更新所属分类概念的语义特征,使语义特征的表示更加准确。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 前言 10-14 1.1 研究背景 10 1.2 研究内容 10-12 1.3 本文工作及结构框架 12-14 第二章 研究基础 14-28 2.1 Web信息语义特征表示方法 14-22 2.1.1 向量空间模型表示方法 15-21 2.1.2 音频数据检索中的重复片断搜索算法 21-22 2.2 Web信息分类技术 22-25 2.3 基于分类概念模型的Web系统描述 25-26 2.4 小结 26-28 第三章 基于向量空间模型的语义特征描述及获取方法 28-50 3.1 Web页面位置信息获取技术 28-38 3.1.1 HTML文档解析技术 29-34 3.1.2 Web信息预处理过程 34-35 3.1.3 抽取位置信息算法 35-38 3.2 基于向量空间模型的语义特征表示方法 38-45 3.2.1 Web信息分词技术 38-39 3.2.2 特征权重计算算法及改进 39-42 3.2.3 特征抽取机制 42-43 3.2.4 Racchio公式计算核心向量过程 43-44 3.2.5 特征向量相似度计算算法 44-45 3.3 对比实验 45-49 3.3.1 特征选取对比实验 45-47 3.3.2 带有位置信息Web页面与自由文本式Web页面分类对比实验 47-49 3.4 小结 49-50 第四章 基于重复模式的语义特征描述及获取方法 50-66 4.1 基于重复模式的语义特征表示方法 51-61 4.1.1 概念定义 52-53 4.1.2 建立相关矩阵抽取重复模式过程 53-56 4.1.3 重复模式抽取规则 56-58 4.1.4 归一化重复模式的γ近似匹配算法 58-60 4.1.5 计算重复模式权重并进行测试集分类过程 60-61 4.2 重复模式表示法实验分析 61-65 4.2.1 实验样例 61-62 4.2.2 实验结果 62-65 4.3 小结 65-66 第五章 Web信息语义特征的更新 66-72 5.1 Web信息时效性研究 66-67 5.2 Web信息语义特征更新机制 67-71 5.3 小结 71-72 第六章 结束语 72-74 参考文献 74-78 致谢 78
|
相似论文
- 兴城古城保护研究,TU984.114
- 论王安忆《长恨歌》的中国现代海派文学特征,I207.42
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 一些亏损更新方程解渐近等价的条件,O211.67
- 宽相依结构随机和尾概率的渐近性,O211.5
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 海口市骑楼历史街区水巷口示范区保护更新策略研究,TU984.114
- 产业类历史建筑再利用中空间匹配问题研究,TU984.114
- 基于RSA和Eflash的安全SOC设计,TN47
- WiMAX系统中基于网关本地路由的安全方案设计,TN929.5
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- Wimax安全组播密钥管理方案研究,TN918.82
- 风景名胜区村落保护与更新策略研究,TU984.114
- 鄂东南传统商业集镇空间形态及其更新趋势研究,TU981
- 基于建筑病理学理论的传统民居舒适性问题研究,TU-0
- 传统与变迁,TU-0
- 一个山村的民居自发更新与设计参与研究,TU241.4
- 安顺贯城河景观风貌改造与更新研究,TU986
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|