学位论文 > 优秀研究生学位论文题录展示
文本中知识的获取
作 者: 王菁华
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 关键词获取 信息抽取 词义消歧 WordNet HowNet PageRank
分类号: TP391.1
类 型: 博士论文
年 份: 2008年
下 载: 701次
引 用: 2次
阅 读: 论文下载
内容摘要
人类通过文字来描述世界、表达思想,文本是人类智慧传承的重要媒介。随着知识经济时代的到来,文档知识管理在学术界和企业界引起了广泛关注。但是文档知识管理系统面临着几个重要问题:如何识别文档主题,如何识别文档中心词;如何对用户所关心的内容进行个性化的关键性提示;如何精确返回用户希望得到信息。关键词获取技术和信息抽取技术是文本处理中的重要技术,可以在一定程度上解决上述问题。本文对基于语义词典的单文本关键词获取技术,信息抽取技术中的规则生成机制进行了研究,主要的研究工作和研究成果包括:1)基于语义网络与UW-PageRank算法的词义消歧提出了基于语义网络和UW-PageRank结合的知识词义消歧算法,能够对文档中出现的任何词语(同时包含在知识库内)进行实时消歧处理,不需要语料库,无须训练。针对中文文本,以HowNet为语义知识库,以义原为节点,义原间的相关性为边的权重构造无向赋权网络,表达文本内容。使用UW-PageRank算法评价义原的权重,进而计算义项的权重;对每一个词语来说,权重最高的义项即为其含义。分别采用全文标注试验与SENSEVAL-3评测集对算法进行了评价。针对英文文本,以WordNet为语义知识库,以Synset为节点,Synset间的相关性为边的权重构造无向赋权网络,表达文本内容;使用UW-PageRank算法评价Synset的权重;根据Synset的权重并结合共指词义现象、词义常用性等因素进行词义消歧。在SemCor数据集对算法进行了评测。2)基于语义网络与UW-PageRank算法的关键词抽取提出了基于语义网络与UW-PageRank算法的单文本关键词抽取算法。在词义消歧的基础上,文本中的所有词语都具有确定的词义,对语义网络进行剪裁,去掉词语的其他义项,此时语义网络中的节点即为该词在文本中的义项,然后使用UW-PageRank公式挖掘出重要的词义,其对应的词语即为文本关键词。在对中英文科技论文的手工标注数据集上,与Tf方法进行比较,结果表明了算法的有效性。3)启发式的汉语信息抽取规则生成算法——RGA-CIE提出了一种启发式的汉语信息抽取系统的规则生成算法——RGA-CIE(RuleGeneration Algorithm for Chinese Information Extraction)。采用有监督的自底向上规则学习过程,能够根据中文的特点进行启发式的逐步泛化,同时采用Laplacian~*算子作为评价生成规则的效果。Laplacian~*算子能够很好的平抑覆盖率与准确率的矛盾;采用语义扩展进一步提高规则的覆盖效果。在自主开发的财经新闻信息抽取系统上,对RGA-CIE算法性能进行评测,生成规则的准确率为0.84,召回率为0.82,性能优于手工编制的规则。此外,将信息抽取技术应用于本体的实例获取,在北京旅游信息查询系统(Travelingin Beijing,TBJ)的领域本体构建过程中起了重要的作用。
|
全文目录
摘要 4-6 ABSTRACT 6-11 第一章 结论 11-27 1.1.信息-知识-智能转换规律 11-14 1.2.文档知识管理 14-20 1.2.1.搜索引擎中的内容索引 14-16 1.2.2.企业知识管理中的文档管理 16-17 1.2.3.图书馆信息管理 17-19 1.2.4.文档管理中面临的问题 19-20 1.3.关键词获取技术 20-22 1.4.信息抽取技术 22-24 1.4.1.信息抽取系统的应用 22-23 1.4.2.信息抽取研究存在的困难与挑战 23-24 1.5.研究工作概述 24-25 1.5.1.研究目标 24 1.5.2.研究内容 24-25 1.6.本文的内容安排 25-27 第二章 相关技术介绍 27-43 2.1.常用语义词典 27-33 2.1.1.知网 27-29 2.1.1.1.知网概况 27-28 2.1.1.2.知网的内容与结构 28-29 2.1.2.同义词词林 29-31 2.1.3.WORDNET 31-33 2.1.3.1.WordNet概况 31-32 2.1.3.2.WordNet中名词的组织 32-33 2.2.PAGERANK算法 33-38 2.2.1.PAGERANK算法的数学模型 33-37 2.2.2.PAGERANK算法在无向赋权图中的计算 37-38 2.3.本体 38-43 2.3.1.本体的定义 38-39 2.3.2.本体研究领域的重要课题 39-43 第三章 基于语义网络的词义消歧 43-63 3.1.词义消歧的基本方法 43-47 3.1.1.基于统计的词义消歧 43-45 3.1.2.基于知识的词义消歧 45-47 3.2.基于知网与UW-PAGERANK的汉语词义消歧 47-56 3.2.1.义原间关系的计算 47-48 3.2.2.语义网络的构建 48-50 3.2.3.词义的选取 50-51 3.2.4.实验 51-56 3.2.4.1.全文标注实验 51-53 3.2.4.2.SENSEVAL-3评测 53-55 3.2.4.3.相关工作 55-56 3.3.基于WORDNET与UW-PAGERANK的英语词义消歧 56-61 3.3.1.词义间关系的计算 57 3.3.2.语义网络图的构建 57-58 3.3.3.词义的选取 58-59 3.3.4.实验 59-61 3.3.4.1.词义一致性验证 59-60 3.3.4.2.SemCor消歧评测 60-61 3.3.4.3.相关工作 61 3.4.本章小结 61-63 第四章 基于语义网络的文本关键词获取 63-75 4.1.关键词获取的基本方法 63-66 4.1.1.基于统计的关键词获取 63-64 4.1.2.基于词典的关键词获取 64-65 4.1.3.基于图形的关键词获取 65-66 4.2.基于知网与UW-PAGERANK的汉语文本关键词获取 66-70 4.2.1.实验 68-70 4.3.基于WORDNET与UW-PAGERANK的英语文本关键词获取 70-72 4.3.1.实验 71-72 4.3.2.相关工作 72 4.4.本章小结 72-75 第五章 文本信息抽取及规则生成 75-97 5.1.信息抽取的基本方法 75-80 5.1.1.基于统计的信息抽取 75-79 5.1.2.基于规则的信息抽取 79-80 5.2.信息抽取规则的生成方法 80-83 5.3.财经新闻文本信息抽取系统 83-85 5.4.RGA-CIE 85-94 5.4.1.泛化路径的确定 88-89 5.4.2.泛化效果的评测 89-91 5.4.3.规则的语义扩展 91-92 5.4.4.实验 92-93 5.4.5.相关工作 93-94 5.5.基于信息抽取的本体实例获取 94-97 5.5.1.本体实例获取 94-95 5.5.2.信息抽取在本体构实例获取的应用 95-96 5.6.本章小结 96-97 第六章 工作小结与展望 97-99 6.1 研究工作小结 97-98 6.2.今后的研究方向 98-99 参考文献 99-111 致谢 111-113 攻读博士学位期间发表的论文 113-114
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 词义消歧语料库自动获取方法研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 主题搜索引擎关键技术研究,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于语义距离的Web页面关键词获取研究,TP391.1
- 结合本体HowNet的中文文本分类研究,TP391.1
- 结合WordNet的领域语义标注研究,TP391.1
- 基于链接结构分析的Web页面排序算法,TP393.092
- 基于马尔可夫逻辑网络的语义角色标注,TP391.1
- 异构信息源的领域人物信息抽取研究,TP391.1
- 搜索引擎主题相关性研究,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于Web的股评观点倾向性分析研究,TP391.1
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于文档结构的半监督Blog信息抽取技术,TP393.092
- 基于查询扩展的垂直搜索研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|