学位论文 > 优秀研究生学位论文题录展示

信息技术领域字母词语提取研究

作 者: 宋丽娟
导 师: 田学东
学 校: 河北大学
专 业: 语言学及应用语言学
关键词: 自然语言处理 字母词语提取 错误驱动 知识库
分类号: H136
类 型: 硕士论文
年 份: 2008年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


字母词语提取研究,就是从大规模真实文本中识别并提取出字母词语。字母词语提取,不仅是中文自动分词的需要,对信息检索,机器翻译,自动分类,自动文摘,句法分析的性能指标都有重要的影响。本文选择了信息技术领域作为字母词语研究的领域。信息技术领域作为当今发展最快、影响最大的一门学科,其字母词语的出现频率相对较高,更具有代表性和相对明显的统计意义。本文首先论述了字母词语的界定、字母词语的语言学特征、字母词语的考察研究,然后对字母词语的提取进行了分析,提出了基于转换的错误驱动的字母词语提取方法。在此基础上,文章介绍了字母词语提取系统的具体实现:以《计算机世界》24万字的字母词语手工标注语料库为基础,建设字母词语知识库;以字母词语知识库为标注器,对语料进行初始标注;对比初始标注的结果与正确答案,在错误驱动的基础上,获取转换规则;并给出了字母词语提取的封闭测试和开放测试结果及分析。实验证明,“以字母词语知识库为初始标注器,基于转换的错误驱动的学习方法”,召回率和准确率都取得了较好的效果。

全文目录


摘要  4-5
Abstract  5-9
第1章 引言  9-17
  1.1 课题背景及研究意义  9-11
  1.2 字母词语提取的研究现状  11-14
    1.2.1 字母词语识别研究  11-12
    1.2.2 未登录词研究  12-13
    1.2.3 基本名词短语研究  13-14
    1.2.4 提取方法分析  14
  1.3 本文的研究内容  14-15
    1.3.1 语料的选择  14-15
    1.3.2 语料的获取及处理  15
    1.3.3 字母词语的研究及提取分析  15
    1.3.4 字母词语的知识库建设  15
    1.3.5 字母词语提取系统  15
    1.3.6 实验结果与分析  15
  1.4 文章的组织结构  15-17
第2章 字母词语的语言学研究及对提取的指导  17-26
  2.1 字母词语的界定  17-19
    2.1.1 语言学领域中字母词语的界定  17-18
    2.1.2 信息技术领域字母词语的界定  18-19
  2.2 字母词语的语法特征  19-23
    2.2.1 字母词语的构成  19-20
    2.2.2 字母词语的语法类别  20-23
  2.3 字母词语的相关语言学研究  23-26
    2.3.1 字母词语的归属  23
    2.3.2 字母词语的种类和结构方式  23-24
    2.3.3 字母词语的统计考察  24
    2.3.4 字母词语的规范  24-25
    2.3.5 字母词语的入典  25-26
第3章 字母词语考察及提取分析  26-32
  3.1 字母词语存在和使用情况的考察  26-29
    3.1.1 考察的范围  26
    3.1.2 字母词语中含有大量专名、术语  26-27
    3.1.3 字母词语中标点符号的使用  27-29
    3.1.4 字母词语的语形不规范  29
    3.1.5 字母词语的出现频率  29
  3.2 字母词语的提取分析  29-32
    3.2.1 字母词语中含有字母串  30
    3.2.2 字母词语是一个完整的语言单位  30
    3.2.3 字母词语提取的分析  30-32
第4章 字母词语提取方法  32-43
  4.1 基于转换的错误驱动的学习方法概述  32-33
  4.2 字母词语知识库建设  33-35
    4.2.1 汉字语素或汉语词库(HgC)  33-34
    4.2.2 特征词库(Tc)  34
    4.2.3 指界汉字语素或汉语词库(HzC)  34
    4.2.4 汉字语素或汉语词词性库(HPC)  34-35
    4.2.5 标点符号库(W)  35
  4.3 初始标注  35-39
    4.3.1 分词和词性标注  36
    4.3.2 初始标注过程  36
    4.3.3 举例说明初始标注过程  36-37
    4.3.4 初始标注结果及分析  37-39
  4.4 规则的获取  39-41
    4.4.1 规则的获取模式  39
    4.4.2 本文获取的规则  39-41
  4.5 工作流程  41-43
第5章 实验结果与分析  43-46
  5.1 实验结果  43
  5.2 实验分析  43-46
    5.2.1 字母词语提取召回率的分析  43
    5.2.2 字母词语提取准确率的分析  43-46
第6章 结论与展望  46-48
  6.1 本文所做的工作  46
  6.2 结论  46-47
  6.3 展望  47-48
参考文献  48-50
附录  50-52
攻读硕士学位期间发表论文情况  52-53
致谢  53

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 面向领域的数据库问答系统关键技术研究,TP311.13
  3. 制造特征提取与智能工艺决策技术研究,TH162
  4. 汉语框架自动识别中的歧义消解,TP391.1
  5. 服装质量预测系统的软件设计与实现,TP311.52
  6. 学术主页信息抽取系统的研究,TP393.092
  7. 基于自然语言打印机人机交互方法研究与实现,TP11
  8. 四川职业技术学院档案信息管理系统的设计与实现,TP311.52
  9. 基于SLA的云服务自适应提供框架的研究与实现,TP311.52
  10. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  11. 基于话题的多文档文摘技术研究,TP391.1
  12. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  13. 烟草病虫害防治网络信息系统研究,S435.72
  14. 电子化疾病护理知识库的开发研究,R47
  15. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  16. AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
  17. 基于知识的应用生命周期管理研究,TP311.52
  18. 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
  19. 语义Web中基于描述逻辑的多知识库整合研究,TP391.1
  20. 建筑图中有限自然语言的分析与理解的研究,TU204
  21. 用材林林木资产评估决策支持系统的研制,S712

中图分类: > 语言、文字 > 汉语 > 语义、词汇、词义(训诂学) > 现代词汇
© 2012 www.xueweilunwen.com