学位论文 > 优秀研究生学位论文题录展示

面向移动页面自适应平台的Web结构特征聚类算法

作　者: 秦树伟
导　师: 魏志强
学　校: 中国海洋大学
专　业: 计算机应用技术
关键词: 移动页面自适应网页聚类算法 XSLT HTML DOM Tree
分类号: TP393.092
类　型: 硕士论文
年　份: 2011年
下　载: 33次
引　用: 2次
阅　读: 论文下载

内容摘要

随着3G移动网络迅速发展以及智能手机的普及,全球已经正式迈入了移动互联网的时代。移动互联网代表的不仅仅是一种生活方式,更是一种产业模式。企业主迫切需要构建自己的WAP网站,使用户随时随地都能访问企业信息。针对传统手工开发模式的费用高、周期长、自适应能力差的缺点,移动页面自适应技术已经成为新的研究热点。本文在针对现有移动页面自适应解决方案人工可控性差的缺点,提出了一种基于XSLT模板的移动终端页面自适应平台解决方案。平台不仅具有Google,百度等第三方平台操作简便、速度快、通用性强的特点,而且通过模板的方式使整个转化过程实现了内容、样式的人工可控。使用本平台,网站主可以将任何类型的网站快速的转化到移动终端。网站网页分析聚类,是整个基于模板抽取转化技术的关键部分。针对现有聚类算法主要基于文本内容无法适用于基于网页结构的聚类,本文提出了一种基于页面DOM属性的聚类算法,其克服了传统树模型编辑距离算法不适用于HTML DOM Tree的特点,通过考虑页面标签的布局属性,为每一网页生成一数字指纹,并基于指纹进行归类。算法不仅提高了分类准确性,同时大大降低了分类所耗费的时间复杂度。针对开发过程中网站分析、网页聚类完全基于人工肉眼的现状,本文基于上述算法设计并实现了一套网站智能评估系统,用户只需要提供根域名,系统便会对网站进行自动分析,不仅给出网页聚类结果,同时会对影响网站转化成WAP页面的因子进行搜索,并以柱状图的形式进行展现,对网站转化的复杂度给出科学的评估。为开发者编写模板完成转化过程提供可靠的依据。在自适应平台以及网站智能评估系统实现过程中,与现有的成功的开源框架相结合,重用了HttpClient, Jtidy, Dom4J, XSLT和Xpath等技术,为整个平台提供了可靠的技术支持。

全文目录

摘要  5-6
Abstract  6-9
1. 绪论  9-19
  1.1. 研究背景及意义  9-10
  1.2. 国内外的发展现状与前景  10-16
    1.2.1. 移动页面自适应技术的发展  10-12
    1.2.2. 移动中间件国内外发展现状  12
    1.2.3. 网页信息抽取技术发展现状  12-14
    1.2.4. 网站聚类分析国内外发展现状  14-16
  1.3. 本文研究内容及创新点  16-17
  1.4. 论文组织结构  17-19
2. 技术背景  19-23
  2.1. 引言  19
  2.2. HttpClient  19-20
  2.3. Jtidy  20
  2.4. Dom4J  20-21
  2.5. XSLT  21
  2.6. Jquery  21-22
  2.7. MD5  22-23
3. 移动门户网站智能生成平台体系架构  23-33
  3.1. 平台简介  23-27
    3.1.1. 两类应用模式  24-25
    3.1.2. 三级系统结构  25
    3.1.3. 四大子平台  25-27
  3.2. 平台目标  27-29
    3.2.1. 设计智能化的数据转换映射仓库  27
    3.2.2. 高效开发部署  27
    3.2.3. 全面支持各种类型网站  27-28
    3.2.4. 个性化定制方案  28
    3.2.5. 缓存池解决方案  28
    3.2.6. 安全监控方案  28-29
    3.2.7. 用户会话解决方案  29
  3.3. 平台组件架构  29-33
    3.3.1. 数据提取组件  29-30
    3.3.2. 数据分析组件  30
    3.3.3. 数据转换组件  30-31
    3.3.4. 安全监控组件  31-33
4. 基于网页结构的网站聚类分析算法的研究与设计  33-49
  4.1. 引言  33
  4.2. 算法中页面树结构表示方法  33-34
  4.3. 树编辑距离模型缺陷  34-36
  4.4. 基于标签属性网页聚类算法思想  36-37
  4.5. 算法描述  37-40
  4.6. 算法实现  40-46
  4.7. 仿真实验验证  46-49
5. 网站DOM 智能聚类子系统实现  49-59
  5.1. 系统意义及创新点  49-50
  5.2. 系统介绍  50-51
    5.2.1. 软件体系架构图  50-51
    5.2.2. 技术路线  51
  5.3. 聚类结果分析说明  51-53
  5.4. 实验验证  53-59
6. 总结与展望  59-61
参考文献  61-65
致谢  65-67
个人简历  67
发表的学术论文  67

面向移动页面自适应平台的Web结构特征聚类算法

内容摘要

全文目录

相似论文