学位论文 > 优秀研究生学位论文题录展示
汉语语义依存分析研究
作 者: 王丽杰
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 语义依存分析 语义依存标注 基于图的算法 知网
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 70次
引 用: 1次
阅 读: 论文下载
内容摘要
语义依存分析建立在依存理论基础上,是深层的语义分析理论。它融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含意思。在许多高层次的研究和应用上,语义依存分析都大有用武之地,将对包括自动问答、信息抽取、机器翻译、信息检索、自动文摘等在内的许多研究和应用产生巨大的帮助。本文重点介绍了语义依存语料库的建设及自动语义依存分析算法研究。语料库的建设主要解决语义粒度问题以及人工标注问题。作者参考了国内各家语义体系,最终以董振东先生《知网》上定义的语义体系为主要参考对象,并综合其他语义体系,制定了本文的语义关系标注规范。语料库的建设是半自动的:首先,使用规则进行部分标注;然后,人工进行标注以及修改;当有了一定规模的语料,则使用机器学习方法进行弧上关系标注,然后人工进行修改。自动语义依存分析是本文的最终目标。目前尚不存在针对语义依存分析的实用算法,与其最相关的算法是依存句法分析以及在句法分析基础上进行的语义角色标注。本文首先应用基于图的算法进行自动语义依存分析。由于目前语料规模较少,语义关系种类比较多,数据稀疏较严重,导致标注准确率不是很高,尤其是弧上关系的标注准确率很低,其中依存弧准确率为79.45%、语义关系准确率为63.93%。针对依存弧及语义关系准确率不高的情况,本文使用依存句法信息作为附加特征指导依存结构的建立,加入谓词语义依存框架来提高弧上关系标注准确率。加入句法信息后,依存弧准确率提高了1.07%;以及加入谓词语义依存框架,语义关系准确率提高了1.19%。当同时加入依存句法信息和谓词语义依存框架时,语义关系准确率提高了2.33%。最后,为适应各种不同的需求以及防止数据稀疏现象,本文还对目前的语义体系泛化,将语义比较接近的关系合并为一类。泛化后,语义关系准确率提高了2.90%。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-17 1.1 课题背景 8-10 1.1.1 问题定义 9-10 1.2 课题的研究目的和意义 10-12 1.3 国内外相关研究 12-15 1.3.1 理论分析 12-14 1.3.2 汉语语义依存分析研究 14-15 1.4 本文研究内容 15-17 第2章 语义依存语料库建设 17-42 2.1 语料库建设的必要性 17-18 2.2 使用资源 18-19 2.2.1 HowNet 18 2.2.2 Penn Chinese Treebank 18 2.2.3 Chinese Propbank 18-19 2.3 语义依存语法 19-20 2.4 建立依存结构 20-24 2.4.1 依存结构建立的语法假设 20 2.4.2 依存结构建立规则 20-22 2.4.3 特殊结构 22-24 2.5 语义关系类型 24-32 2.5.1 语义关系定义 24-30 2.5.2 语义关系定义实例 30-31 2.5.3 语义关系歧义的解决方案 31-32 2.6 语料库的建设 32-41 2.6.1 应用原有语料库进行建设 32-38 2.6.2 人工标注及修改 38-41 2.7 本章小结 41-42 第3章 基于图的语义依存分析算法 42-54 3.1 基于图的依存分析方法 42-45 3.1.1 Eisner算法 43-44 3.1.2 Online算法 44-45 3.2 特征选择 45-48 3.3 实验结果及错误分析 48-52 3.3.1 语义依存分析评价方法 48 3.3.2 实验结果 48-52 3.4 本章小结 52-54 第4章 语义依存分析方法改进 54-65 4.1 应用依存句法信息指导语义依存分析 54-61 4.1.1 语义依存分析与依存句法的区别 55-57 4.1.2 方法核心思想 57-58 4.1.3 特征加入 58-59 4.1.4 实验结果及分析 59-61 4.2 加入谓词语义依存框架 61-62 4.2.1 谓词语义依存框架介绍 61 4.2.2 实验结果 61-62 4.3 语义依存体系泛化 62-64 4.3.1 泛化结果 62-63 4.3.2 实验结果 63-64 4.4 本章小结 64-65 结论 65-66 参考文献 66-70 附录1 70-81 附录2 81-87 攻读学位期间发表的学术论文 87-89 致谢 89
|
相似论文
- 基于图的标志SNP位点选择算法研究,Q78
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 基于语义的单文档自动摘要研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 交互式问答系统中的省略恢复研究,TP391.1
- 基于HowNet的中文语义倾向性分析技术研究,TP391.1
- 基于语义理解的论文相似度研究,TP391.1
- CNKI文献关联推荐用户选择行为的实验研究,G354
- 大规模汉语语义词典构建,TP391.1
- 基于Hownet的汽车领域产品评论挖掘方法研究,TP391.1
- 中文文本分类研究,TP391.1
- 基于语义网的个人数字化站点实现,TP391.1
- 基于语义相似度的本体映射方法研究,TP391.1
- 基于实体—属性框架的标题分析及应用,TP391.1
- 基于边界距离的文本聚类方法研究,TP391.1
- 基于知网的汉语词义消歧方法的研究,TP391.1
- 基于本体的语义检索模型的研究,TP391.3
- 图像视觉特征及其描述词汇的对齐研究,TP391.41
- 中文问答系统中问句理解和相似度计算的研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|