学位论文 > 优秀研究生学位论文题录展示
基于Web的用户兴趣及需求技术的研究
作 者: 王树青
导 师: 佘莉
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: 用户兴趣建模 个体兴趣 群体兴趣 长(短)期兴趣 用户聚类
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 87次
引 用: 1次
阅 读: 论文下载
内容摘要
多年来,呈指数级增长的各种信息,使得Internet用户快速获取准确必需的信息显得越发急迫。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,用户兴趣挖掘技术正悄然兴起,倍受关注。它的出现恰好在一定程度上能解决Internet的信息多样化与用户需求的专一化之间的矛盾。用户兴趣挖掘技术的主要研究内容是如何根据所提供的用户浏览信息或行为或Web日志等数据,较为准确地挖掘出用户的个体兴趣,构建用户个体兴趣模型,分析用户个体兴趣,更进一步的根据个体兴趣对用户进行聚类挖掘出用户群体兴趣,并从个体兴趣和群体兴趣两方面刻画用户的兴趣需求,完善兴趣模型。本课题主要通过介绍一个基于Web、WAP的用户兴趣挖掘项目对以下提出的技术和算法进行具体分析和详细介绍并以真实的数据进行了实验验证其有效性。(1)用户兴趣建模技术根据用户浏览记录中的URL爬取并解析出所浏览网页的正文,基于内容的文本分析是本课题挖掘用户兴趣的基础。因此,在文本获取和预处理阶段,本课题提出基于规则和DOM树的网页正文提取技术以及基于卡方与关键词权重的文本分类方法。在用户兴趣建模阶段,提出多元化的建模思路,不仅从长期兴趣,短期兴趣方面建模,还综合了从个体兴趣和群体兴趣分别统计用户自己的历史行为和若干用户相似的历史行为的建模思路,更全面地刻画了用户的兴趣偏好。(2)用户个体兴趣挖掘技术主要通过挖掘用户的历史访问页面,了解用户在信息需求方面的兴趣倾向。本研究提出了适合本课题应用场景的两个算法:①挖掘用户的长期兴趣的算法;②挖掘用户的短期兴趣的算法;用户兴趣反映用户在主题需求、内容形式上的偏好,在维护和修改用户兴趣的过程中,采用兴趣类访问密度加时间属性的方法挖掘长(短)期兴趣。对用户模型的更新方面,引入遗忘因子,采用生物遗忘规律的方法对不活跃的用户或兴趣进行遗忘,对活跃的用户或兴趣进行记忆上的增强,最终达到对用户兴趣模型进行更新的目的。(3)用户群体兴趣挖掘用户是海量的,因此会有某些用户的历史行为存在相似性,这种群体性兴趣可以视作单一用户的潜在兴趣而具有协同推荐的作用。用户群体兴趣挖掘的难点在于对海量用户进行有效聚类。
|
全文目录
摘要 4-6 ABSTRACT 6-12 第一章 绪论 12-18 1.1 课题的提出 12-13 1.2 国内外现状 13-14 1.3 研究内容和设计目标 14-16 1.4 本论文的主要贡献 16 1.5 本文的组织结构 16-18 第二章 用户兴趣及需求挖掘的技术概述 18-31 2.1 数据挖掘技术 18-20 2.1.1 数据挖掘技术产生的背景 18 2.1.2 数据挖掘的过程 18-19 2.1.3 数据挖掘产生的模式 19-20 2.1.4 数据挖掘的应用 20 2.2 Web 挖掘技术 20-25 2.2.1 信息抽取技术 20-22 2.2.2 分词技术 22-23 2.2.3 特征提取 23-24 2.2.4 页面分类 24-25 2.3 用户兴趣及需求建模技术相关理论 25-30 2.3.1 用户兴趣及需求模型 25-26 2.3.2 用户模型的表示 26-28 2.3.3 用户兴趣及需求建模方式 28-30 2.3.4 用户模型的优化更新 30 2.4 本章小结 30-31 第三章 数据准备&预处理相关技术的研究 31-42 3.1 基于DOM 的信息抽取 31-36 3.1.1 页面特点 31 3.1.2 DOM 原理 31-33 3.1.3 HTMLParser 解析器 33-34 3.1.4 基于DOM 的信息抽取流程 34-36 3.2 分词与特征提取 36-38 3.2.1 文本表示 36-37 3.2.2 特征选择 37-38 3.3 页面分类 38-41 3.3.1 关键词提取 38-40 3.3.2 基于χ~2 统计和关键词加权的分类方法 40-41 3.4 本章小结 41-42 第四章 用户个体兴趣及需求挖掘算法的研究 42-51 4.1 相关定义 42-43 4.2 用户个体兴趣模型表示 43-44 4.3 长期兴趣挖掘算法 44-46 4.3.1 长期兴趣相关定义和指标 44-45 4.3.2 长期兴趣挖掘流程 45 4.3.3 长期兴趣挖掘算法描述 45-46 4.4 短期兴趣挖掘算法 46-47 4.4.1 短期兴趣相关定义和指标 46 4.4.2 短期兴趣挖掘流程 46-47 4.4.3 短期兴趣挖掘算法描述 47 4.5 兴趣度 47-48 4.6 用户模型更新 48-50 4.6.1 模型更新相关定义和指标 48 4.6.2 模型更新算法描述 48-50 4.7 本章小结 50-51 第五章 用户群体兴趣挖掘算法的研究 51-58 5.1 高维稀疏二态数据 52 5.2 基于 Links 的 Rock 聚类算法 52-56 5.2.1 Neighbors 53 5.2.2 Links 53-54 5.2.3 ROCK 聚类算法的总体流程 54-55 5.2.4 ROCK 核心算法描述 55-56 5.2.5 处理剩余数据 56 5.2.6 判别函数 56 5.3 本章小结 56-58 第六章 用户兴趣挖掘系统设计与整体框架 58-67 6.1 系统设计原理 58 6.2 系统总体架构 58-61 6.2.1 逻辑架构模型概览 58-61 6.2.2 逻辑架构设计使用的模式 61 6.3 数据库设计 61-63 6.4 关键数据类的设计 63-64 6.5 系统评估方法 64-66 6.6 本章小结 66-67 第七章 测试与分析 67-76 7.1 信息抽取实验分析 67-68 7.2 页面分类实验分析 68-71 7.3 用户个体兴趣及需求挖掘实验分析 71-74 7.4 用户群体兴趣挖掘实验分析 74-75 7.5 本章小结 75-76 第八章 总结与展望 76-78 8.1 总结 76-77 8.2 展望 77-78 致谢 78-79 参考文献 79-82 攻硕期间取得的研究成果 82-83
|
相似论文
- 基于模糊理论的Web用户聚类的研究,TP311.13
- 基于点击的用户聚类的研究,TP311.13
- 基于Web日志的用户访问模式挖掘的研究,TP311.13
- 基于AJAX的个性化图书馆信息系统的设计与实现,TP311.52
- 基于协同过滤算法的个性化推荐系统的研究,TP393.09
- 个性化信息服务中的用户兴趣迁移研究,TP311.13
- 基于ACO的WEB日志挖掘研究,TP393.09
- 协同过滤算法在电子商务推荐系统的研究,TP391.3
- 基于Web挖掘的信息提取与推荐相关研究,TP393.09
- 基于模范用户的协同过滤算法研究,TP301.6
- 用户兴趣建模的研究,TP393.09
- 基于Mesh的P2P实时流媒体管理协议的研究,TN919.8
- 元搜索引擎的个性化技术研究,TP391.3
- 学习兴趣发展变化机制的纵向研究,G420
- 基于Web聚类的个性化推荐服务应用研究,TP393.09
- 基于用户浏览路径的Web用户聚类研究,TP393.09
- 基于用户兴趣分析的个性化搜索引擎研究,TP391.3
- 基于协同过滤的信息商品个性化捆绑推荐研究,TP399-C2
- 基于Web日志的网络使用挖掘算法研究,TP311.13
- 面向WEB个性化服务的用户建模技术,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|