学位论文 > 优秀研究生学位论文题录展示
产品库平台系统的研究和实现
作 者: 张仁爱
导 师: 金连甫;陈平
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 产品库 分布式计算 特征抽取 产品识别 自然语言处理
分类号: TP311.52
类 型: 硕士论文
年 份: 2010年
下 载: 34次
引 用: 3次
阅 读: 论文下载
内容摘要
随着电子商务飞速发展,互联网上的商品信息量呈“爆炸式”的发展,出现信息过载问题。为了改善用户购物体验的购物搜索引擎和个性化推荐服务等应用,都需要能将网上各式的商品与它所属产品对应起来,进行“信息降维”。同时将互联网上同属一个产品的商品信息融合,有助于数据挖掘和知识发现。本文设计了产品库平台系统整体架构模型:它能自动处理海量的网上商品,识别这些商品属于哪个产品,并更新产品库;自动融合每个产品对应的网上商品的信息,包括产品规格资料和评论信息;并且作为一个基础平台为其它应用提供服务。本产品库平台与现存人工整理的产品库平台不同,是一个所有处理过程都是自动化的产品库平台。本文重点研究了如何借助了IR(information retrieval),自然语言处理以及机器学习等技术,设计算法来进行商品所属产品的自动化识别。本论文根据商品数据的特点,在产品识别中的特征提取部分,研究了商品标题中属性实体识别和商品属性规约问题。在商品标题中属性实体识别问题中,由于经典的命名实体识别算法具有较低的命名实体覆盖率(有限的人工训练和识别),需要人工干预,不能自学习(适应)商品数据的变化的局限性,本文提出改进算法:基于商业词库的属性实体识别算法,并用实验证明改进的有效性。在商品属性规约问题中,根据现有的基于频率统计方法正确率和召回率都较低的现状,改进了商品规约算法,并用实验验证了改进的有效性。在前面改进的基础上,本文设计并实现了完整的产品识别算法,并改进其中的产品分类算法使其能完全自动化,同时用实验证明整体算法的效果。
|
全文目录
摘要 4-5 Abstract 5-11 第1章 绪论 11-18 1.1 课题背景 11-13 1.2 国内外现状 13-15 1.2.1 产品库 13-14 1.2.2 产品的自动化识别 14-15 1.2.3 数据分布式存储和并行处理 15 1.3 本文研究内容 15-16 1.4 文章组织结构 16-18 第2章 实现产品库平台的技术背景 18-25 2.1 分布式文件系统——HDFS 18-21 2.1.1 HDFS设计原则和目标 19-20 2.1.2 HDFS架构和实现 20-21 2.2 分布式计算框架——MapReduce 21-22 2.2.1 原理 21 2.2.2 实现 21-22 2.3 Hadoop streaming技术 22-23 2.4 Hadoop 平台的局限性 23-25 第3章 产品库平台系统设计 25-41 3.1 设计目标和原则 25-26 3.2 产品库整体系统架构 26-27 3.3 系统构成及实现技术 27-36 3.3.1 商品网页数据预处理 27-30 3.3.2 关键特征抽取 30-33 3.3.3 产品分类 33 3.3.4 产品信息融合 33-34 3.3.5 支持知识库:同义词表、商业词库和关键属性库 34-35 3.3.6 外部访问接口服务 35-36 3.4 外部访问接口服务 36-40 3.4.1 组成部分及功能 36-37 3.4.2 数据分布式存储系统 37-38 3.4.3 并行访问系统 38-40 3.5 本章小结 40-41 第4章 商品标题中属性实体识别算法研究和改进 41-51 4.1 问题描述和定义 41 4.2 属性实体识别算法 41-48 4.2.1 基准算法: CRF命名实体识别方法 42-43 4.2.2 改进算法:基于商业词库的属性实体识别算法 43-48 4.3 效果实验分析 48-50 4.3.1 正确率测试实验 48-49 4.3.2 属性实体覆盖率实验分析 49-50 4.4 改进算法的优势 50 4.5 本章小结 50-51 第5章 商品属性规约算法研究和改进 51-59 5.1 问题描述和定义 51-52 5.2 商品属性规约算法 52-53 5.2.1 关键属性库自动化构建 52-53 5.3 关键属性知识库的形式化定义 53 5.4 属性重要度计算算法 53-56 5.4.1 基准算法:基于频率统计算法 53 5.4.2 改进算法:基于用户行为的挖掘算法 53-54 5.4.3 改进算法:基于文本内容的挖掘算法 54-56 5.5 算法效果实验对比 56-58 5.5.1 评测数据集 56 5.5.2 评测指标 56-57 5.5.3 评测结果 57-58 5.6 改进算法的优势 58 5.7 本章小结 58-59 第6章 整体产品识别算法研究和改进 59-64 6.1 产品分类算法 60-61 6.1.1 基准算法:基于人工规则的分类算法 61 6.1.2 改进算法:基于topK重要属性的分类算法 61 6.1.3 可能的改进算法:基于机器学习理论的分类算法 61 6.2 产品分类算法效率分析 61-62 6.3 整体产品识别算法有效性验证实验 62-63 6.3.1 整体产品识别算法 62 6.3.2 评测数据集 62 6.3.3 评测指标 62-63 6.3.4 评测结果 63 6.4 本章小结 63-64 第7章 总结和展望 64-66 7.1 全文总结 64-65 7.2 研究展望 65-66 参考文献 66-68 致谢 68
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 构建分布式系统的关键技术研究与实现,TP338.8
- 心电特征提取及分类方法研究,TN911.7
- 学术主页信息抽取系统的研究,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
- PI在企业产品开发设计中的应用研究,TB472
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于用户体验的产品识别系统研究,TB472
- 面向工程机械行业的PI手册及PI设计,TB47
- 面向自然语言处理的汉语句子语义知识库构建研究,H13
- 基于P2P的语义Web服务查找与组合模型研究,TP393.09
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- 自动流量平衡阀快速开发CAD系统研究,TP391.72
- 面向事件的多文档自动文摘研究,TP391.1
- 中文文本分类技术研究,TP391.1
- 嵌入式Linux逆向解析技术研究,TP316.81
- 基于图像识别的商标检索系统设计与实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|