学位论文 > 优秀研究生学位论文题录展示
信息技术领域字母词语提取研究
作 者: 宋丽娟
导 师: 田学东
学 校: 河北大学
专 业: 语言学及应用语言学
关键词: 自然语言处理 字母词语提取 错误驱动 知识库
分类号: H136
类 型: 硕士论文
年 份: 2008年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
字母词语提取研究,就是从大规模真实文本中识别并提取出字母词语。字母词语提取,不仅是中文自动分词的需要,对信息检索,机器翻译,自动分类,自动文摘,句法分析的性能指标都有重要的影响。本文选择了信息技术领域作为字母词语研究的领域。信息技术领域作为当今发展最快、影响最大的一门学科,其字母词语的出现频率相对较高,更具有代表性和相对明显的统计意义。本文首先论述了字母词语的界定、字母词语的语言学特征、字母词语的考察研究,然后对字母词语的提取进行了分析,提出了基于转换的错误驱动的字母词语提取方法。在此基础上,文章介绍了字母词语提取系统的具体实现:以《计算机世界》24万字的字母词语手工标注语料库为基础,建设字母词语知识库;以字母词语知识库为标注器,对语料进行初始标注;对比初始标注的结果与正确答案,在错误驱动的基础上,获取转换规则;并给出了字母词语提取的封闭测试和开放测试结果及分析。实验证明,“以字母词语知识库为初始标注器,基于转换的错误驱动的学习方法”,召回率和准确率都取得了较好的效果。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 引言 9-17 1.1 课题背景及研究意义 9-11 1.2 字母词语提取的研究现状 11-14 1.2.1 字母词语识别研究 11-12 1.2.2 未登录词研究 12-13 1.2.3 基本名词短语研究 13-14 1.2.4 提取方法分析 14 1.3 本文的研究内容 14-15 1.3.1 语料的选择 14-15 1.3.2 语料的获取及处理 15 1.3.3 字母词语的研究及提取分析 15 1.3.4 字母词语的知识库建设 15 1.3.5 字母词语提取系统 15 1.3.6 实验结果与分析 15 1.4 文章的组织结构 15-17 第2章 字母词语的语言学研究及对提取的指导 17-26 2.1 字母词语的界定 17-19 2.1.1 语言学领域中字母词语的界定 17-18 2.1.2 信息技术领域字母词语的界定 18-19 2.2 字母词语的语法特征 19-23 2.2.1 字母词语的构成 19-20 2.2.2 字母词语的语法类别 20-23 2.3 字母词语的相关语言学研究 23-26 2.3.1 字母词语的归属 23 2.3.2 字母词语的种类和结构方式 23-24 2.3.3 字母词语的统计考察 24 2.3.4 字母词语的规范 24-25 2.3.5 字母词语的入典 25-26 第3章 字母词语考察及提取分析 26-32 3.1 字母词语存在和使用情况的考察 26-29 3.1.1 考察的范围 26 3.1.2 字母词语中含有大量专名、术语 26-27 3.1.3 字母词语中标点符号的使用 27-29 3.1.4 字母词语的语形不规范 29 3.1.5 字母词语的出现频率 29 3.2 字母词语的提取分析 29-32 3.2.1 字母词语中含有字母串 30 3.2.2 字母词语是一个完整的语言单位 30 3.2.3 字母词语提取的分析 30-32 第4章 字母词语提取方法 32-43 4.1 基于转换的错误驱动的学习方法概述 32-33 4.2 字母词语知识库建设 33-35 4.2.1 汉字语素或汉语词库(HgC) 33-34 4.2.2 特征词库(Tc) 34 4.2.3 指界汉字语素或汉语词库(HzC) 34 4.2.4 汉字语素或汉语词词性库(HPC) 34-35 4.2.5 标点符号库(W) 35 4.3 初始标注 35-39 4.3.1 分词和词性标注 36 4.3.2 初始标注过程 36 4.3.3 举例说明初始标注过程 36-37 4.3.4 初始标注结果及分析 37-39 4.4 规则的获取 39-41 4.4.1 规则的获取模式 39 4.4.2 本文获取的规则 39-41 4.5 工作流程 41-43 第5章 实验结果与分析 43-46 5.1 实验结果 43 5.2 实验分析 43-46 5.2.1 字母词语提取召回率的分析 43 5.2.2 字母词语提取准确率的分析 43-46 第6章 结论与展望 46-48 6.1 本文所做的工作 46 6.2 结论 46-47 6.3 展望 47-48 参考文献 48-50 附录 50-52 攻读硕士学位期间发表论文情况 52-53 致谢 53
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 制造特征提取与智能工艺决策技术研究,TH162
- 汉语框架自动识别中的歧义消解,TP391.1
- 服装质量预测系统的软件设计与实现,TP311.52
- 学术主页信息抽取系统的研究,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 四川职业技术学院档案信息管理系统的设计与实现,TP311.52
- 基于SLA的云服务自适应提供框架的研究与实现,TP311.52
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 烟草病虫害防治网络信息系统研究,S435.72
- 电子化疾病护理知识库的开发研究,R47
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 基于知识的应用生命周期管理研究,TP311.52
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 语义Web中基于描述逻辑的多知识库整合研究,TP391.1
- 建筑图中有限自然语言的分析与理解的研究,TU204
- 用材林林木资产评估决策支持系统的研制,S712
中图分类: > 语言、文字 > 汉语 > 语义、词汇、词义(训诂学) > 现代词汇
© 2012 www.xueweilunwen.com
|