学位论文 > 优秀研究生学位论文题录展示
面向移动页面自适应平台的Web结构特征聚类算法
作 者: 秦树伟
导 师: 魏志强
学 校: 中国海洋大学
专 业: 计算机应用技术
关键词: 移动页面自适应 网页聚类算法 XSLT HTML DOM Tree
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 33次
引 用: 2次
阅 读: 论文下载
内容摘要
随着3G移动网络迅速发展以及智能手机的普及,全球已经正式迈入了移动互联网的时代。移动互联网代表的不仅仅是一种生活方式,更是一种产业模式。企业主迫切需要构建自己的WAP网站,使用户随时随地都能访问企业信息。针对传统手工开发模式的费用高、周期长、自适应能力差的缺点,移动页面自适应技术已经成为新的研究热点。本文在针对现有移动页面自适应解决方案人工可控性差的缺点,提出了一种基于XSLT模板的移动终端页面自适应平台解决方案。平台不仅具有Google,百度等第三方平台操作简便、速度快、通用性强的特点,而且通过模板的方式使整个转化过程实现了内容、样式的人工可控。使用本平台,网站主可以将任何类型的网站快速的转化到移动终端。网站网页分析聚类,是整个基于模板抽取转化技术的关键部分。针对现有聚类算法主要基于文本内容无法适用于基于网页结构的聚类,本文提出了一种基于页面DOM属性的聚类算法,其克服了传统树模型编辑距离算法不适用于HTML DOM Tree的特点,通过考虑页面标签的布局属性,为每一网页生成一数字指纹,并基于指纹进行归类。算法不仅提高了分类准确性,同时大大降低了分类所耗费的时间复杂度。针对开发过程中网站分析、网页聚类完全基于人工肉眼的现状,本文基于上述算法设计并实现了一套网站智能评估系统,用户只需要提供根域名,系统便会对网站进行自动分析,不仅给出网页聚类结果,同时会对影响网站转化成WAP页面的因子进行搜索,并以柱状图的形式进行展现,对网站转化的复杂度给出科学的评估。为开发者编写模板完成转化过程提供可靠的依据。在自适应平台以及网站智能评估系统实现过程中,与现有的成功的开源框架相结合,重用了HttpClient, Jtidy, Dom4J, XSLT和Xpath等技术,为整个平台提供了可靠的技术支持。
|
全文目录
摘要 5-6 Abstract 6-9 1. 绪论 9-19 1.1. 研究背景及意义 9-10 1.2. 国内外的发展现状与前景 10-16 1.2.1. 移动页面自适应技术的发展 10-12 1.2.2. 移动中间件国内外发展现状 12 1.2.3. 网页信息抽取技术发展现状 12-14 1.2.4. 网站聚类分析国内外发展现状 14-16 1.3. 本文研究内容及创新点 16-17 1.4. 论文组织结构 17-19 2. 技术背景 19-23 2.1. 引言 19 2.2. HttpClient 19-20 2.3. Jtidy 20 2.4. Dom4J 20-21 2.5. XSLT 21 2.6. Jquery 21-22 2.7. MD5 22-23 3. 移动门户网站智能生成平台体系架构 23-33 3.1. 平台简介 23-27 3.1.1. 两类应用模式 24-25 3.1.2. 三级系统结构 25 3.1.3. 四大子平台 25-27 3.2. 平台目标 27-29 3.2.1. 设计智能化的数据转换映射仓库 27 3.2.2. 高效开发部署 27 3.2.3. 全面支持各种类型网站 27-28 3.2.4. 个性化定制方案 28 3.2.5. 缓存池解决方案 28 3.2.6. 安全监控方案 28-29 3.2.7. 用户会话解决方案 29 3.3. 平台组件架构 29-33 3.3.1. 数据提取组件 29-30 3.3.2. 数据分析组件 30 3.3.3. 数据转换组件 30-31 3.3.4. 安全监控组件 31-33 4. 基于网页结构的网站聚类分析算法的研究与设计 33-49 4.1. 引言 33 4.2. 算法中页面树结构表示方法 33-34 4.3. 树编辑距离模型缺陷 34-36 4.4. 基于标签属性网页聚类算法思想 36-37 4.5. 算法描述 37-40 4.6. 算法实现 40-46 4.7. 仿真实验验证 46-49 5. 网站DOM 智能聚类子系统实现 49-59 5.1. 系统意义及创新点 49-50 5.2. 系统介绍 50-51 5.2.1. 软件体系架构图 50-51 5.2.2. 技术路线 51 5.3. 聚类结果分析说明 51-53 5.4. 实验验证 53-59 6. 总结与展望 59-61 参考文献 61-65 致谢 65-67 个人简历 67 发表的学术论文 67
|
相似论文
- 基于XSLT数据模型转换的研究与实现,TP311.52
- 基于DOM树信息抽取的移动网站开发研究,TP393.092
- 基于SVG的WebGIS空间数据可视化研究,TP391.41
- 学术期刊电子稿件参考文献自动校验的XML解决方案,TP311.10
- COMX平台二次开发系统的设计与实现,TP311.52
- 基于网页结构的Web数据抽取方法研究,TP311.13
- 国际化玩具电子商务平台的研究与实现,TP311.52
- 异构环境下汽车销售系统数据集成平台的设计与应用,TP311.52
- XML安全技术在网络申报系统中的研究与应用,TP311.52
- 企业报表分析处理系统的设计与实现,TP311.52
- OAI-PMH中元数据同步模型的研究,TP311.52
- 采用XSLT、XML技术实现WEB开发的MDA设计,TP311.52
- 基于并行设计模式的软件演化方法研究,TP311.52
- Web信息抽取技术研究,TP393.09
- 基于JSF的项目跟踪管理系统的研究与设计,TP311.52
- 基于量子框架AMT系统的代码自动生成技术研究,TP311.52
- 符合IEC 61850标准的配网自动化系统通信网关的研究,TM76
- 基于XML和XSLT的信息发布平台,TP311.52
- 基于XML的信息系统集成的可视化匹配研究,TP311.52
- 基于XML和XSLT的Web信息抽取研究与设计,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|