学位论文 > 优秀研究生学位论文题录展示
基于语义标记树的XML文档聚类研究
作 者: 滕海明
导 师: 潘有能
学 校: 浙江大学
专 业: 情报学
关键词: WordNet 语义相似度 XML 聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。本文在对XML相关技术以及XML文档聚类算法进行介绍的基础上,梳理了近几年XML文档相似度计算方法的研究进展,针对这些相似度度量方法依靠的多是文档中字符串的简单比对,未涉及文档语义信息的情况,本文提出了一种基于语义标记树的XML文档相似度度量方法,此方法以传统路径法基础,从文档结构特征和标记的语义信息考察文档的相似度。首先利用基于WordNet的语义消歧模块对XML文档间相同的标记进行语义消歧,然后利用语义相似度计算方法对XML文档中不相同的标记进行语义相关度计算,将文档中相同的标记以及标记间的语义相关度共同作为文档的特征来衡量文档的相似度,最后在实验数据集上利用层次聚类算法中的最近邻聚类算法进行分类,证实其确实是一种比较有效的XML文档聚类方法。
|
全文目录
摘要 4-5 Abstract 5-10 1 绪论 10-13 1.1 研究背景与意义 10-11 1.2 本文组织结构及其创新 11-13 1.2.1 本文组织结构 11-12 1.2.2 本文创新 12-13 2 XML文档聚类相关技术 13-32 2.1 XML概述 13-18 2.1.1 XML介绍 13-15 2.1.2 XML特点 15-16 2.1.3 XML应用领域 16-17 2.1.4 XML解析 17-18 2.2 聚类概述与聚类质量评价 18-22 2.2.1 聚类概述 18-20 2.2.2 聚类质量的评价 20-22 2.3 XML文档聚类算法 22-32 2.3.1 基于划分的聚类算法 23-25 2.3.2 层次聚类算法 25-29 2.3.3 基于遗传算法的聚类算法 29-32 3 基于语义标记树的XML文档相似度度量 32-60 3.1 常用XML文档相似度度量方法 33-39 3.1.1 基于结构的XML文档相似度度量 33-37 3.1.2 基于结构和内容的XML文档相似度度量 37-39 3.2 语义消歧 39-50 3.2.1 WordNet简介 40-42 3.2.2 基于WordNet的语义消歧 42-45 3.2.3 XML文档中标记的语义消歧 45-50 3.3 语义相似度计算 50-57 3.3.1 基于WordNet的语义相似度计算 51-54 3.3.2 XML文档中标记的语义相似度计算 54-57 3.4 XML文档相似度的计算 57-59 3.5 小结 59-60 4 XML文档聚类 60-67 4.1 XML文档解析 60-62 4.1.1 XML文档类的方法 61-62 4.1.2 元素类的方法 62 4.2 XML文档相似度计算 62-63 4.3 文档聚类 63-67 4.3.1 相似度矩阵 63-64 4.3.2 最近邻聚类算法 64-67 5 实验与评价 67-71 5.1 系统设计与开发 67-68 5.2 聚类实验与评价 68-70 5.3 小结 70-71 6 总结 71-73 参考文献 73-79 附录一:传统路径计算XML文档相似度源程序 79-85 附录二:基于语义标记树计算XML文档相似度源程序 85-97 附录三:最近邻聚类算法源程序 97-101 致谢 101
|
相似论文
- 基因调控网络模型描述语言研究,Q78
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- LXI自动测试系统集成技术研究,TP274
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于网络的服装款式设计系统的研究与实现,TS941.2
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 基于MDA的界面自动生成方法的研究,TP311.5
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|