学位论文 > 优秀研究生学位论文题录展示

产品名实体识别及规范化研究

作 者: 梅丰
导 师: 林磊
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 产品名实体语料库构建 产品名实体识别 产品名实体规范化 最大熵模型 条件随机场模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 20次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着电子商务的普及与繁荣,针对电子商务的检索技术开始被越来越多的研究者所关注,其中,作为电子商务检索技术的核心问题之一的产品名实体识别技术也成为了一个重要的研究课题。本文主要研究产品名实体的定义与语料库的构建、产品名实体识别及规范化技术,具体内容包括以下几个方面:第一,根据产品名实体在网络环境中的变化规律,提出了产品名实体的组成成分的全新定义,从而有利于更为细致的针对不同组成成分的识别问题开展研究。在此基础上,制定了产品名实体语料标注规范,并采用半监督的方法构建了一个高质量的产品名实体识别语料库。另一方面,为了使得产品名实体规范化能够顺利展开,还给出了产品名实体规范化定义,并据此构建了一个包含21240产品的层次型产品实体库。第二,针对产品名实体划分结构的特点,将产品名实体识别分为两个阶段,第一阶段识别产品的品牌名、系列名、型号名及公司名,第二阶段在第一阶段的识别基础上,对产品名实体进行识别,并给出了基于隐马尔科夫模型、最大熵模型条件随机场模型的产品名实体识别方法。在基于最大熵模型和条件随机场模型的产品名实体识别方法中,将产品的品牌库和系列库融入到模型的特征模板中,用于触发产品的品牌名、系列名及型号名的识别。实验结果表明,在融入产品的品牌特征和系列特征之后,系统对产品名实体识别的F值提升了8.42%。最后,比较分析了三个方法之间的优缺点,其中基于条件随机场模型的产品名实体识别方法取得了最好的识别性能,系统的F值取得了86.45%。第三,针对产品名称简写及产品多名等原因造成产品名实体的歧义问题,给出了产品名实体规范化概念,并根据产品名实体组成结构的特点,给出基于编辑距离算法的产品名称相似度的计算方法,在产品名实体规范化中系统的准确率达到84.72%。此外,采用了基于自学习的关系抽取方法抽取相邻产品实体之间的关系,并依据关系的传递性质,推导出全文中各个产品实体之间的关系,利用产品实体之间的关系和产品名称相似度计算方法规范化产品名实体,系统的准确率取得了88.09%。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-16
  1.1 课题背景及研究的目的和意义  9
  1.2 名实体识别的研究现状及困难  9-14
    1.2.1 国内外研究现状  9-13
    1.2.2 产品名实体的特点及识别难点分析  13-14
  1.3 本文内容组织  14-16
第2章 产品名实体语料库构建  16-30
  2.1 引言  16
  2.2 产品名实体识别语料库构建  16-24
    2.2.1 产品名实体定义  16-18
    2.2.2 产品名实体标注规范  18-23
    2.2.3 语料库构建  23-24
  2.3 产品名实体规范化语料库建设  24-29
    2.3.1 产品名实体规范化定义  24
    2.3.2 产品实体库构建  24-26
    2.3.3 产品名实体规范化标注规范  26-29
  2.4 本章小结  29-30
第3章 基于有监督方法的产品名实体识别研究  30-45
  3.1 引言  30-31
  3.2 基于隐马尔科夫模型的产品名实体识别  31-33
    3.2.1 隐马尔科夫模型介绍  31-32
    3.2.2 实验结果  32-33
  3.3 基于最大熵模型的产品名实体识别  33-39
    3.3.1 最大熵模型  33-34
    3.3.2 特征融合及特征选择  34-37
    3.3.3 实验结果及分析  37-39
  3.4 基于条件随机场模型的产品名实体识别  39-42
    3.4.1 条件随机场模型介绍  39-40
    3.4.2 用于产品名实体识别的条件随机场的特征  40-41
    3.4.3 实验结果  41-42
  3.5 各方法实验结果对比及分析  42-43
  3.6 本章小结  43-45
第4章 产品名实体规范化研究  45-58
  4.1 引言  45
  4.2 基于产品实体库的产品名实体规范化  45-47
    4.2.1 产品名称相似度计算方法  45-46
    4.2.2 基于产品实体库的产品名实体规范化方法  46-47
    4.2.3 实验结果  47
  4.3 基于实体关系的产品名实体规范化  47-56
    4.3.1 产品名实体关系的定义  47-48
    4.3.2 产品名实体关系抽取的特点及困难  48-49
    4.3.3 相邻产品名实体关系抽取  49-53
    4.3.4 产品名实体关系推导  53-55
    4.3.5 产品名实体规范化任务及实现  55-56
    4.3.6 实验结果  56
  4.4 本章小结  56-58
结论  58-60
参考文献  60-65
攻读硕士学位期间发表的论文  65-67
致谢  67

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 汉语框架自动识别中的歧义消解,TP391.1
  4. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  5. 基于自学习的社会关系抽取的研究,TP391.1
  6. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  7. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  8. 最大熵方法及其在自然语言处理中的应用,TP391.1
  9. 基于内容的自动视频监控研究,TP277
  10. 文本分类及其相关技术研究,TP391.1
  11. 快速精确的结构化机器学习方法研究,TP181
  12. 基于统计方法的中文文本情感倾向分类研究,TP391.1
  13. 英文多文档查询型自动文摘研究,TP391.1
  14. 基于条件随机场的图像线条画研究,TP391.41
  15. 汉语短语识别方法研究,TP391.1
  16. 基于条件随机场模型的汉语框架语义角色自动标注研究,TP391.1
  17. 电子商务中针对产品的摘要挖掘技术研究,TP391.1
  18. 基于激光热凝固效应的眼角膜屈光矫正原理及预测技术研究,R779.63
  19. 汉语情感问题分析和比较类型情感问答方法的研究,TP391.1
  20. 使用机器学习方法对汉语评论进行情感分类,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com