学位论文 > 优秀研究生学位论文题录展示

产品库平台系统的研究和实现

作 者: 张仁爱
导 师: 金连甫;陈平
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 产品库 分布式计算 特征抽取 产品识别 自然语言处理
分类号: TP311.52
类 型: 硕士论文
年 份: 2010年
下 载: 34次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着电子商务飞速发展,互联网上的商品信息量呈“爆炸式”的发展,出现信息过载问题。为了改善用户购物体验的购物搜索引擎和个性化推荐服务等应用,都需要能将网上各式的商品与它所属产品对应起来,进行“信息降维”。同时将互联网上同属一个产品的商品信息融合,有助于数据挖掘和知识发现。本文设计了产品库平台系统整体架构模型:它能自动处理海量的网上商品,识别这些商品属于哪个产品,并更新产品库;自动融合每个产品对应的网上商品的信息,包括产品规格资料和评论信息;并且作为一个基础平台为其它应用提供服务。本产品库平台与现存人工整理的产品库平台不同,是一个所有处理过程都是自动化的产品库平台。本文重点研究了如何借助了IR(information retrieval),自然语言处理以及机器学习等技术,设计算法来进行商品所属产品的自动化识别。本论文根据商品数据的特点,在产品识别中的特征提取部分,研究了商品标题中属性实体识别和商品属性规约问题。在商品标题中属性实体识别问题中,由于经典的命名实体识别算法具有较低的命名实体覆盖率(有限的人工训练和识别),需要人工干预,不能自学习(适应)商品数据的变化的局限性,本文提出改进算法:基于商业词库的属性实体识别算法,并用实验证明改进的有效性。在商品属性规约问题中,根据现有的基于频率统计方法正确率和召回率都较低的现状,改进了商品规约算法,并用实验验证了改进的有效性。在前面改进的基础上,本文设计并实现了完整的产品识别算法,并改进其中的产品分类算法使其能完全自动化,同时用实验证明整体算法的效果。

全文目录


摘要  4-5
Abstract  5-11
第1章 绪论  11-18
  1.1 课题背景  11-13
  1.2 国内外现状  13-15
    1.2.1 产品库  13-14
    1.2.2 产品的自动化识别  14-15
    1.2.3 数据分布式存储和并行处理  15
  1.3 本文研究内容  15-16
  1.4 文章组织结构  16-18
第2章 实现产品库平台的技术背景  18-25
  2.1 分布式文件系统——HDFS  18-21
    2.1.1 HDFS设计原则和目标  19-20
    2.1.2 HDFS架构和实现  20-21
  2.2 分布式计算框架——MapReduce  21-22
    2.2.1 原理  21
    2.2.2 实现  21-22
  2.3 Hadoop streaming技术  22-23
  2.4 Hadoop 平台的局限性  23-25
第3章 产品库平台系统设计  25-41
  3.1 设计目标和原则  25-26
  3.2 产品库整体系统架构  26-27
  3.3 系统构成及实现技术  27-36
    3.3.1 商品网页数据预处理  27-30
    3.3.2 关键特征抽取  30-33
    3.3.3 产品分类  33
    3.3.4 产品信息融合  33-34
    3.3.5 支持知识库:同义词表、商业词库和关键属性库  34-35
    3.3.6 外部访问接口服务  35-36
  3.4 外部访问接口服务  36-40
    3.4.1 组成部分及功能  36-37
    3.4.2 数据分布式存储系统  37-38
    3.4.3 并行访问系统  38-40
  3.5 本章小结  40-41
第4章 商品标题中属性实体识别算法研究和改进  41-51
  4.1 问题描述和定义  41
  4.2 属性实体识别算法  41-48
    4.2.1 基准算法: CRF命名实体识别方法  42-43
    4.2.2 改进算法:基于商业词库的属性实体识别算法  43-48
  4.3 效果实验分析  48-50
    4.3.1 正确率测试实验  48-49
    4.3.2 属性实体覆盖率实验分析  49-50
  4.4 改进算法的优势  50
  4.5 本章小结  50-51
第5章 商品属性规约算法研究和改进  51-59
  5.1 问题描述和定义  51-52
  5.2 商品属性规约算法  52-53
    5.2.1 关键属性库自动化构建  52-53
  5.3 关键属性知识库的形式化定义  53
  5.4 属性重要度计算算法  53-56
    5.4.1 基准算法:基于频率统计算法  53
    5.4.2 改进算法:基于用户行为的挖掘算法  53-54
    5.4.3 改进算法:基于文本内容的挖掘算法  54-56
  5.5 算法效果实验对比  56-58
    5.5.1 评测数据集  56
    5.5.2 评测指标  56-57
    5.5.3 评测结果  57-58
  5.6 改进算法的优势  58
  5.7 本章小结  58-59
第6章 整体产品识别算法研究和改进  59-64
  6.1 产品分类算法  60-61
    6.1.1 基准算法:基于人工规则的分类算法  61
    6.1.2 改进算法:基于topK重要属性的分类算法  61
    6.1.3 可能的改进算法:基于机器学习理论的分类算法  61
  6.2 产品分类算法效率分析  61-62
  6.3 整体产品识别算法有效性验证实验  62-63
    6.3.1 整体产品识别算法  62
    6.3.2 评测数据集  62
    6.3.3 评测指标  62-63
    6.3.4 评测结果  63
  6.4 本章小结  63-64
第7章 总结和展望  64-66
  7.1 全文总结  64-65
  7.2 研究展望  65-66
参考文献  66-68
致谢  68

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 构建分布式系统的关键技术研究与实现,TP338.8
  3. 心电特征提取及分类方法研究,TN911.7
  4. 学术主页信息抽取系统的研究,TP393.092
  5. 基于自然语言打印机人机交互方法研究与实现,TP11
  6. 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
  7. PI在企业产品开发设计中的应用研究,TB472
  8. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  9. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  10. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  11. 基于用户体验的产品识别系统研究,TB472
  12. 面向工程机械行业的PI手册及PI设计,TB47
  13. 面向自然语言处理的汉语句子语义知识库构建研究,H13
  14. 基于P2P的语义Web服务查找与组合模型研究,TP393.09
  15. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  16. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
  17. 自动流量平衡阀快速开发CAD系统研究,TP391.72
  18. 面向事件的多文档自动文摘研究,TP391.1
  19. 中文文本分类技术研究,TP391.1
  20. 嵌入式Linux逆向解析技术研究,TP316.81
  21. 基于图像识别的商标检索系统设计与实现,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com