学位论文 > 优秀研究生学位论文题录展示
面向专利文献的汉语分词技术研究
作 者: 岳金媛
导 师: 徐金安
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 专利文献 汉语分词 条件随机场 专业术语提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 103次
引 用: 0次
阅 读: 论文下载
内容摘要
在社会信息化程度日益提高的今天,专利已成为最大的科技信息载体,其在科研开发和技术创新上发挥着重要作用。怎样有效利用其所包含着的爆炸式增长的各类专业信息资源,使专利在科研和专利业务的诸多方面发挥重要作用,是当前汉语专利信息处理系统的重要挑战,而分词技术是其重要的基础工作,专利检索、专利翻译的工作都离不开汉语专利文献的分词技术,分词质量的高低直接影响专利文献应用的效率。汉语分词和词性标注工作已经取得了非常丰硕的成果,但是,目前针对汉语专利文献分词研究的参考文献数量不多,还没有专门的面向专利文献的开源的分词系统。本文根据专利文献自身的特点,提出了一种领域词典与统计相结合的分词方法,与现有的ICTCLAS分词系统相比在专利领域内切分取得了很高的准确率与召回率,通过提取专业术语大大提高了未登录词的识别效率。针对专利文献存在大量的未登录专业术语导致的分词精度下降,本文提出应用NC-value算法抽取专业术语,使用条件随机场模型(CRF),构建专利领域术语抽取模板,抽取出有意义的低频率术语,提高专业术语识别率。与当前主流术语抽取算法在专利语料上的比较结果显示,该方法很好地解决了未登录词的识别问题,使分词的性能提升了大约10个百分点以上。
|
全文目录
致谢 5-6 摘要 6-7 ABSTRACT 7-12 1 绪论 12-17 1.1 研究背景和意义 12-13 1.2 国内外研究现状 13-15 1.2.1 汉语分词技术的研究现状 13-14 1.2.2 术语自动提取技术的研究现状 14-15 1.3 论文的主要内容 15 1.4 论文的组织结构 15-17 2 理论与技术基础 17-29 2.1 汉语自动分词的难点 17-18 2.2 汉语分词算法的比较和分析 18-22 2.2.1 基于规则的分词方法 18-20 2.2.2 基于统计的分词方法 20-21 2.2.3 规则与统计相结合的分词方法 21-22 2.3 统计语言模型的理论介绍 22-25 2.3.1 隐马尔科夫模型 23-24 2.3.2 条件随机场模型 24-25 2.4 专业术语提取技术 25-29 2.4.1 基于语言学知识的术语提取方法 26 2.4.2 基于统计的术语提取方法 26-28 2.4.3 基于语言学知识与统计相结合的术语提取方法 28-29 3 领域词典与统计相结合的分词技术研究 29-41 3.1 专利文献的特点 29-30 3.1.1 术语的语言学特点 29-30 3.1.2 专利文献术语的特点 30 3.2 基于领域词典与统计相结合的专利文献分词方法 30-41 3.2.1 预处理 31 3.2.2 专业术语提取 31-38 3.2.3 专利领域词典的构建及分词 38-40 3.2.4 后处理 40-41 4 实验设置、结果及分析 41-45 4.1 实验设置 41-42 4.1.1 实验语料 41 4.1.2 实验环境 41-42 4.1.3 评测方法 42 4.2 实验结果及分析 42-45 5 结论与展望 45-47 参考文献 47-49 作者简历 49-51 学位论文数据集 51
|
相似论文
- 评价对象抽取研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于理解的汉语分词系统的设计与实现,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 生物医学文献中模糊限制语及其范围的检测,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于信息抽取技术的商业社会网络创建研究,TP391.1
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 本地搜索领域POI缩略词词典的研究,TP391.3
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于规则与统计的语气词用法自动识别研究,TP391.1
- 基于用法属性的现代汉语介词短语边界识别研究,TP391.1
- 产品名实体识别及规范化研究,TP391.1
- 人脸表情识别及其在视频分类与推荐中的应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|