学位论文 > 优秀研究生学位论文题录展示
基于本体的用户兴趣挖掘系统的研究与实现
作 者: 沈书毅
导 师: 陈健; 黄晋
学 校: 华南理工大学
专 业: 软件工程
关键词: 兴趣挖掘 本体 扩散激活
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着人类社会商业模式的不断演变,各商业公司都希望有一种既符合自己业务特点,又能够为不同用户提供个性化服务的经营策略,而这种个性化服务的关键便是用户的兴趣模型。传统的数据挖掘技术,根据用户与物品之间的关联关系,捕获用户的兴趣特征,为用户推荐其可能感兴趣的商品,进而引发用户的购买行为。对于一些非电子商务类的企业,例如搜索引擎厂商、网络服务提供商等,由于其并没有用户直接的购买记录,所以使用常见的数据挖掘技术很难建立起有效的用户兴趣模型。但是这类企业往往拥有另外一种宝贵的资源——用户的浏览记录。本文所探讨的用户兴趣挖掘系统正是针对用户浏览记录中的URL数据,以兴趣本体为基础,提出了一种新颖的用户兴趣建模流程,并以真实的用户数据作为实验对象,证明了本系统的可行性和实用性。本文主要的研究工作如下:1.一套完整有效的面向兴趣本体概念的训练方法。从预先建立的兴趣参照本体中获得兴趣关键字,使用这些关键字针对特定的搜索引擎构造其搜索URL,系统将抓取搜索引擎的返回结果作为本体概念的训练文档集。结合基于XPath的网页信息提取技术和改进的基于行块长度函数的网页正文抽取算法,提炼训练文档的核心内容。最后使用Lucene为文档集构建便于快速检索的倒排索引,高效而准确地计算出兴趣本体中每一个概念的TF-IDF特征向量。2.一种结合了用户浏览行为的兴趣建模方法。用户兴趣模型本质上是兴趣参照本体的一个带评分的实例,本文提出了一种集成了用户浏览模式的扩散激活算法来初始化和更新用户的兴趣评分。该方法充分考虑了本体概念之间的关联关系,不但能准确捕捉到用户明确表现出来的兴趣,而且还能在一定程度上发现用户的潜在兴趣。此外,本文方法很好地克服了一般兴趣挖掘算法所面临的冷启动问题。
|
全文目录
摘要 5-6 Abstract 6-11 第一章 绪论 11-17 1.1 研究背景 11-12 1.2 研究目的与意义 12-13 1.3 国内外研究现状 13-15 1.3.1 国外研究状况 13-15 1.3.2 国内研究状况 15 1.4 论文的组织 15-16 1.5 本章小结 16-17 第二章 相关理论与技术 17-26 2.1 本体 17-19 2.1.1 本体的概念 17-18 2.1.2 本体建模原语 18 2.1.3 本体描述语言 18-19 2.2 用户兴趣信息收集 19-20 2.2.1 显示信息收集 20 2.2.2 隐式信息收集 20 2.3 用户兴趣模型的表示方法 20-23 2.3.1 基于关键词的表示 21 2.3.2 基于向量空间的表示 21 2.3.3 基于案例的表示 21-22 2.3.4 基于本体的表示 22-23 2.4 用户兴趣模型的构建技术 23-25 2.4.1 手工建模 23-24 2.4.2 半自动建模 24 2.4.3 自动建模 24-25 2.5 本章小结 25-26 第三章 用户兴趣挖掘系统的设计 26-30 3.1 系统架构说明 26-27 3.2 系统工作流程 27-29 3.2.1 数据采集与转换流程 27-28 3.2.2 兴趣概念训练流程 28-29 3.2.3 用户信息处理流程 29 3.2.4 兴趣生成流程 29 3.3 本章小结 29-30 第四章 基于本体的用户兴趣建模方法 30-43 4.1 兴趣参照本体 30-32 4.1.1 兴趣本体的设计 30-31 4.1.2 本体的构建工具 31-32 4.2 用户兴趣建模方法 32-42 4.2.1 本体化的用户模型 32-34 4.2.2 兴趣参照本体的表示 34-35 4.2.3 用户浏览行为分析 35-38 4.2.4 基于扩散激活的用户建模 38-42 4.3 本章小结 42-43 第五章 用户兴趣挖掘系统的实现 43-58 5.1 数据采集转换模块 43-51 5.1.1 数据采集预处理 43-44 5.1.2 数据采集 44-45 5.1.3 网页正文提取 45-51 5.2 兴趣概念训练模块 51-55 5.2.1 特征词典构建 51-53 5.2.2 建立倒排索引 53-54 5.2.3 计算特征向量 54-55 5.3 用户信息处理模块 55-56 5.4 用户兴趣生成模块 56-57 5.5 本章小结 57-58 第六章 系统运行效果评估 58-65 6.1 兴趣概念特征向量准确性实验 60-61 6.2 兴趣标签准确性实验 61-63 6.3 兴趣标签描述能力评估实验 63-65 第七章 总结与展望 65-68 7.1 总结 65-66 7.2 下一步工作 66-68 7.2.1 兴趣参照本体的完善 66 7.2.2 网页文档类别预处理 66 7.2.3 与其他系统的结合 66-68 参考文献 68-71 致谢 71-72 附件 72
|
相似论文
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 俄语外来词的本土化及其深层解读,H35
- 二十世纪五十至六十年代中国儿童歌曲研究,J609.2
- 伽达默尔游戏观研究,B83-0
- 低黄变亲水性有机硅柔软剂的开发与应用研究,TS195.23
- 基于领域本体的专利地图研究,TP391.1
- 视觉干预康复训练对脑卒中后平衡控制及步行能力的影响,R743.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的文本信息抽取技术及实现,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 面向观点挖掘的汽车本体知识库建立研究,TP391.1
- 城市普通中学管理研究,G637
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|