学位论文 > 优秀研究生学位论文题录展示

基于Web挖掘的信息提取与推荐相关研究

作 者: 邵延振
导 师: 张师超;袁鼎荣
学 校: 广西师范大学
专 业: 计算机软件与理论
关键词: web挖掘 信息提取 信息推荐 协同过滤 Block主题提取 用户聚类 电子商务 个性化推荐
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 167次
引 用: 1次
阅 读: 论文下载
 

内容摘要


互联网的迅猛发展,为人们提供了各种信息资源,然而,如此庞大的信息量为人们寻找自己真正感兴趣的信息带来了困难。因此,要为用户提供更好的服务,关键是发现用户的潜在访问兴趣。解决这一问题的方法就是将传统的数据挖掘技术应用于Web上.用户如何得到想要的信息并能指导用户的决策行为,成为一个很重要、迫切的问题。对因特网上的网页数据模型进行研究,全面、准确、高效的提取和推荐用户所需的信息,对此就显得十分必要。信息提取和推荐技术(特别是个性化的技术)就是在这样的背景下产生的,它是在internet出现,特别是在电子商务蓬勃发展起来之后产生的web页面挖掘的一个新的分支。本文首先介绍了论文的研究背景,意义以及针对此研究领域的国内外的研究现状和论文的结构等等。其次是站点web信息提取和站点个性化信息推荐系统研究。信息提取技术主要介绍Web信息提取的功能分类,标准,相关技术以及分块信息提取的相关技术与算法研究,推荐技术主要介绍信息推荐系统的简介,分类,输入输出及表现形式,信息推荐的关键技术(包括思想,分类,步骤及算法等)。本文重点分析了站点分块信息提取以及网站信息推荐算法特别是电子商务网站的协同过滤推荐算法进行了研究。针对信息提取与推荐中的一些问题提出了自己的解决方法,在一定程度上有效解决了提取与推荐中的效率与准确性问题,通过实验证明了算法具有一定的合理性和有效性。以整个的Web页面作为最小的信息提取单元的方式已逐渐不能适应Web页面信息提取的快速发展,我们把页面按照一定的算法划分为若干个区域(Block),把这些区域作为基本的信息处理和提取单元,并将这些区域赋予一定权值,进行准确高效的信息提取。在对网站的用户使用日志进行隐性信息提取的基础上,本文提出了利用用户聚类的方法,将具有相似兴趣的用户划分到同一个聚类中,这个工作可以离线进行,用此方法可大大节省算法在线处理数据的时间,提高对网站(特别是电子商务网站)协同过滤信息推荐的效率,有效解决了数据稀疏性,系统可扩展性和冷启动等问题。但本文仍有许多不足之处有待改进:1、信息提取与推荐的实时性与信息质量之间的平衡:页面挖掘的精度和实时性是一对矛盾。在提高速度同时,如何有效提高信息的质量,需要做进一步的研究。2、信息的隐私保护与信息安全问题。如何在对用户的决策行为提供信息服务的同时有效保护用户的隐私值得做进一步的研究。

全文目录


摘要  3-5
Abstract  5-9
第一章 引言  9-15
  1.1 背景  9-10
  1.2 Web信息提取的发展及研究现状  10-11
  1.3 信息推荐系统发展及研究现状  11-13
  1.4 本文的主要研究工作和创新点  13
  1.5 论文结构  13-15
第二章 站点web信息提取相关研究  15-25
  2.1 Web信息提取的功能及分类  15-17
    2.1.1 Web内容提取  15-16
    2.1.2 Web结构提取  16
    2.1.3 Web使用记录提取  16-17
  2.2 Web信息提取的评价标准  17
  2.3 基于分块的站点主题信息提取  17-24
    2.3.1 基于分块提取的优点  17-18
    2.3.2 页面Block的基础  18-19
    2.3.3 页面分块的基本技术  19-20
    2.3.4 Block主题生成算法  20-21
    2.3.5 Block赋权  21-23
    2.3.6 加权BLOCK的主题信息提取算法  23-24
  2.4 提取测试结果  24-25
第三章 站点个性化信息推荐系统研究  25-35
  3.1 推荐系统简介  25-27
  3.2 推荐系统的分类  27-28
  3.3 推荐系统的组成  28
  3.4 信息推荐的关键技术  28-35
    3.4.1 基于内容的推荐方法  28-29
    3.4.2 协同过滤推荐方法  29-32
    3.4.3 混合推荐方法  32-33
    3.4.4 基于数据挖掘的推荐方法  33-35
第四章 基于协同过滤推荐的信息推荐算法研究  35-44
  4.1 算法的总体设计  35-37
    4.1.1 算法要解决的问题  35
    4.1.2 算法的实现过程  35-37
  4.2 用户日志信息提取的应用  37-38
  4.3 兴趣度度量  38-39
  4.4 聚类的应用  39-41
  4.5 算法实现  41-43
  4.6 算法分析  43-44
第五章 实验及分析  44-50
  5.1 实验环境、编程语言、实验数据  44-45
  5.2 实验评价指标  45-46
  5.3 实验方案及设计分析  46-50
第六章 总结与展望  50-51
  6.1 总结  50
  6.2 展望  50-51
参考文献  51-54
读研期间发表的科研论文  54
读研期间参与科研项目情况  54-55
致谢  55-57

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  4. 服装网络营销顾客忠诚度的实证研究,F274
  5. 中等职业学校语文课业设计的思考与实践,G633.3
  6. 环青海湖区沙漠化土地景观格局变化分析,X171
  7. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  8. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  9. 论《联合国国际货物销售合同公约》在适用范围上的新发展,D997.1
  10. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  11. B2C市场中价格和价格离散的实证研究,F724.6
  12. 基于自然遗忘的个性化推荐算法研究,TP311.52
  13. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  14. 面向用户偏好的MADM方法在个性化推荐中的应用,G353.1
  15. 山东邮政电子商务发展战略研究,F616
  16. 几个电子现金支付方案的分析与改进,TP393.08
  17. 关于设立上海电子商务银行的可行性研究,F832.2
  18. 电子贸易全球化背景下的税收征管研究,F812.42
  19. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  20. 电子商务系统开发运用法律问题探讨,D923.6
  21. 在线相册冲印系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com