学位论文 > 优秀研究生学位论文题录展示

面向专利文献的汉语分词技术研究

作 者: 岳金媛
导 师: 徐金安
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 专利文献 汉语分词 条件随机场 专业术语提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 103次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在社会信息化程度日益提高的今天,专利已成为最大的科技信息载体,其在科研开发和技术创新上发挥着重要作用。怎样有效利用其所包含着的爆炸式增长的各类专业信息资源,使专利在科研和专利业务的诸多方面发挥重要作用,是当前汉语专利信息处理系统的重要挑战,而分词技术是其重要的基础工作,专利检索、专利翻译的工作都离不开汉语专利文献的分词技术,分词质量的高低直接影响专利文献应用的效率。汉语分词和词性标注工作已经取得了非常丰硕的成果,但是,目前针对汉语专利文献分词研究的参考文献数量不多,还没有专门的面向专利文献的开源的分词系统。本文根据专利文献自身的特点,提出了一种领域词典与统计相结合的分词方法,与现有的ICTCLAS分词系统相比在专利领域内切分取得了很高的准确率与召回率,通过提取专业术语大大提高了未登录词的识别效率。针对专利文献存在大量的未登录专业术语导致的分词精度下降,本文提出应用NC-value算法抽取专业术语,使用条件随机场模型(CRF),构建专利领域术语抽取模板,抽取出有意义的低频率术语,提高专业术语识别率。与当前主流术语抽取算法在专利语料上的比较结果显示,该方法很好地解决了未登录词的识别问题,使分词的性能提升了大约10个百分点以上。

全文目录


致谢  5-6
摘要  6-7
ABSTRACT  7-12
1 绪论  12-17
  1.1 研究背景和意义  12-13
  1.2 国内外研究现状  13-15
    1.2.1 汉语分词技术的研究现状  13-14
    1.2.2 术语自动提取技术的研究现状  14-15
  1.3 论文的主要内容  15
  1.4 论文的组织结构  15-17
2 理论与技术基础  17-29
  2.1 汉语自动分词的难点  17-18
  2.2 汉语分词算法的比较和分析  18-22
    2.2.1 基于规则的分词方法  18-20
    2.2.2 基于统计的分词方法  20-21
    2.2.3 规则与统计相结合的分词方法  21-22
  2.3 统计语言模型的理论介绍  22-25
    2.3.1 隐马尔科夫模型  23-24
    2.3.2 条件随机场模型  24-25
  2.4 专业术语提取技术  25-29
    2.4.1 基于语言学知识的术语提取方法  26
    2.4.2 基于统计的术语提取方法  26-28
    2.4.3 基于语言学知识与统计相结合的术语提取方法  28-29
3 领域词典与统计相结合的分词技术研究  29-41
  3.1 专利文献的特点  29-30
    3.1.1 术语的语言学特点  29-30
    3.1.2 专利文献术语的特点  30
  3.2 基于领域词典与统计相结合的专利文献分词方法  30-41
    3.2.1 预处理  31
    3.2.2 专业术语提取  31-38
    3.2.3 专利领域词典的构建及分词  38-40
    3.2.4 后处理  40-41
4 实验设置、结果及分析  41-45
  4.1 实验设置  41-42
    4.1.1 实验语料  41
    4.1.2 实验环境  41-42
    4.1.3 评测方法  42
  4.2 实验结果及分析  42-45
5 结论与展望  45-47
参考文献  47-49
作者简历  49-51
学位论文数据集  51

相似论文

  1. 评价对象抽取研究,TP391.1
  2. 汉语嵌套命名实体识别方法研究,TP391.1
  3. 基于理解的汉语分词系统的设计与实现,TP391.1
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 基于空间邻域词袋模型的图像标注技术,TP391.41
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 基于条件随机场的RNA二级结构预测算法,R346
  8. 基于字词联合解码的中文分词研究,TP391.1
  9. 特定领域中文术语抽取,TP391.1
  10. 生物医学文献中模糊限制语及其范围的检测,TP391.1
  11. 中文命名实体识别与歧义消解研究,TP391.1
  12. 中文命名实体识别及若干相关问题的研究,TP391.41
  13. 基于信息抽取技术的商业社会网络创建研究,TP391.1
  14. 基于条件随机场的中文命名实体识别研究,TP391.4
  15. 基于条件随机场的中文命名实体识别,TP391.43
  16. 本地搜索领域POI缩略词词典的研究,TP391.3
  17. 基于条件随机场的汉语短语识别研究,TP391.1
  18. 基于规则与统计的语气词用法自动识别研究,TP391.1
  19. 基于用法属性的现代汉语介词短语边界识别研究,TP391.1
  20. 产品名实体识别及规范化研究,TP391.1
  21. 人脸表情识别及其在视频分类与推荐中的应用,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com