学位论文 > 优秀研究生学位论文题录展示
术语自动抽取技术的研究与应用
作 者: 刘豹
导 师: 张桂平;蔡东风
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 术语自动抽取 最大熵模型 条件随机场 术语识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 49次
引 用: 1次
阅 读: 论文下载
内容摘要
术语是通过语言或文字来表达或限定专业概念的约定性语言符号,术语集中体现和负载了一个学科领域的核心知识。术语自动抽取(Automatic Term Extraction: ATE)是自然语言处理中的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域具有广泛的应用。本文针对汉语专利语料翻译过程中,所存在大量术语影响翻译质量的问题,开展了中文专利语料中术语自动抽取技术的研究。论文在分析专利语料中术语的构词特点的基础上,实现了一个基于规则的术语自动抽取系统;使用目前命名体识别效果较好的最大熵模型和条件随机场模型进行术语自动抽取,将术语抽取问题转化为一个术语识别问题;分别进行基于词的最大熵模型和条件随机场模型的术语自动抽取实验,实验结果表明条件随机场模型优于最大熵模型;在基于词的条件随机场模型基础上,提出基于字的条件随机场模型术语自动抽取方法,该方法有效地避免了分词错误,有效地提高了系统性能;针对抽取结果采用规则进行后处理,过滤掉部分非术语,实现了一个基于字的条件随机场模型和规则相结合的术语自动抽取系统。本文所开发的系统获得了较好的实验效果,使用该系统对专利语料进行抽取,建立一个术语库,并应用于机器翻译中,有效地提高了翻译中术语翻译的准确性。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 引言 11-16 1.1 选题的背景和意义 11-12 1.2 国内外术语自动抽取研究现状 12-14 1.2.1 国外术语抽取技术的研究 12-13 1.2.2 国内术语抽取技术的研究 13-14 1.3 本文的主要工作 14 1.4 本文的组织结构 14-16 第2章 术语自动抽取概述 16-27 2.1 术语的特点和分类 16-18 2.1.1 术语的特点 16-17 2.1.2 术语的分类 17-18 2.2 基于规则的术语抽取方法 18-19 2.3 基于统计的术语抽取方法 19-20 2.4 基于混合策略的术语抽取方法 20-21 2.5 机器学习的理论介绍 21-27 2.5.1 生成模型和判别模型 21-22 2.5.2 最大熵模型的介绍 22-24 2.5.3 条件随机场模型的介绍 24-27 第3章 基于规则的术语自动抽取技术研究 27-34 3.1 专利语料分析 27-29 3.1.1 本文术语的界定 27 3.1.2 专利语料中术语的特点和识别的难点分析 27-29 3.2 基于规则的术语自动抽取的系统框架 29 3.3 系统各模块的介绍 29-32 3.3.1 预处理 29-30 3.3.2 停用词库的建立 30-31 3.3.3 词语的角色标注 31 3.3.4 后处理 31-32 3.4 实验结果 32-33 3.5 基于统计的术语抽取实验 33 3.6 小结 33-34 第4章 基于机器学习的术语自动抽取方法研究 34-47 4.1 基于最大熵的术语自动抽取研究 34-37 4.1.1 预处理 35 4.1.2 特征选择 35-36 4.1.3 测试及实验结果 36-37 4.2 基于词的条件随机场的术语自动抽取研究 37-42 4.2.1 预处理 37 4.2.2 特征模板选取 37-39 4.2.3 特征的选择 39 4.2.4 测试及结果 39-40 4.2.5 扩展BIO 标注集实验 40-41 4.2.6 后处理模块 41-42 4.3 基于字的条件随机场的术语自动抽取研究 42-46 4.3.1 基于词的模型中存在问题 42-44 4.3.2 基于字的术语抽取实验 44-45 4.3.3 加入字性的实验 45-46 4.4 小结 46-47 第5章 系统实现和应用 47-52 5.1 系统框架 47 5.2 实验结果 47-48 5.2.1 基于字的模型与规则相结合的实验结果 47-48 5.2.2 实验结果比较 48 5.3 结果分析 48-50 5.4 术语自动抽取的应用 50-51 5.5 小结 51-52 结论 52-54 附录I 部分处理规则列表 54 附录II 部分术语词性规则 54-55 附录Ⅲ 术语标注界面 55 附录Ⅳ 术语抽取界面 55-56 参考文献 56-59 致谢 59-60 攻读硕士期间发表(含录用)的学术论文 60
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 基于Web的领域词典构建技术研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
- 基于拼音标注的中文分词算法研究,TP391.1
- 基于信息抽取技术的商业社会网络创建研究,TP391.1
- 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
- 基于条件随机场的中文命名实体识别研究,TP391.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|