学位论文 > 优秀研究生学位论文题录展示

文本中知识的获取

作 者: 王菁华
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 关键词获取 信息抽取 词义消歧 WordNet HowNet PageRank
分类号: TP391.1
类 型: 博士论文
年 份: 2008年
下 载: 701次
引 用: 2次
阅 读: 论文下载
 

内容摘要


人类通过文字来描述世界、表达思想,文本是人类智慧传承的重要媒介。随着知识经济时代的到来,文档知识管理在学术界和企业界引起了广泛关注。但是文档知识管理系统面临着几个重要问题:如何识别文档主题,如何识别文档中心词;如何对用户所关心的内容进行个性化的关键性提示;如何精确返回用户希望得到信息。关键词获取技术和信息抽取技术是文本处理中的重要技术,可以在一定程度上解决上述问题。本文对基于语义词典的单文本关键词获取技术,信息抽取技术中的规则生成机制进行了研究,主要的研究工作和研究成果包括:1)基于语义网络与UW-PageRank算法的词义消歧提出了基于语义网络和UW-PageRank结合的知识词义消歧算法,能够对文档中出现的任何词语(同时包含在知识库内)进行实时消歧处理,不需要语料库,无须训练。针对中文文本,以HowNet为语义知识库,以义原为节点,义原间的相关性为边的权重构造无向赋权网络,表达文本内容。使用UW-PageRank算法评价义原的权重,进而计算义项的权重;对每一个词语来说,权重最高的义项即为其含义。分别采用全文标注试验与SENSEVAL-3评测集对算法进行了评价。针对英文文本,以WordNet为语义知识库,以Synset为节点,Synset间的相关性为边的权重构造无向赋权网络,表达文本内容;使用UW-PageRank算法评价Synset的权重;根据Synset的权重并结合共指词义现象、词义常用性等因素进行词义消歧。在SemCor数据集对算法进行了评测。2)基于语义网络与UW-PageRank算法的关键词抽取提出了基于语义网络与UW-PageRank算法的单文本关键词抽取算法。在词义消歧的基础上,文本中的所有词语都具有确定的词义,对语义网络进行剪裁,去掉词语的其他义项,此时语义网络中的节点即为该词在文本中的义项,然后使用UW-PageRank公式挖掘出重要的词义,其对应的词语即为文本关键词。在对中英文科技论文的手工标注数据集上,与Tf方法进行比较,结果表明了算法的有效性。3)启发式的汉语信息抽取规则生成算法——RGA-CIE提出了一种启发式的汉语信息抽取系统的规则生成算法——RGA-CIE(RuleGeneration Algorithm for Chinese Information Extraction)。采用有监督的自底向上规则学习过程,能够根据中文的特点进行启发式的逐步泛化,同时采用Laplacian~*算子作为评价生成规则的效果。Laplacian~*算子能够很好的平抑覆盖率与准确率的矛盾;采用语义扩展进一步提高规则的覆盖效果。在自主开发的财经新闻信息抽取系统上,对RGA-CIE算法性能进行评测,生成规则的准确率为0.84,召回率为0.82,性能优于手工编制的规则。此外,将信息抽取技术应用于本体的实例获取,在北京旅游信息查询系统(Travelingin Beijing,TBJ)的领域本体构建过程中起了重要的作用。

全文目录


摘要  4-6
ABSTRACT  6-11
第一章 结论  11-27
  1.1.信息-知识-智能转换规律  11-14
  1.2.文档知识管理  14-20
    1.2.1.搜索引擎中的内容索引  14-16
    1.2.2.企业知识管理中的文档管理  16-17
    1.2.3.图书馆信息管理  17-19
    1.2.4.文档管理中面临的问题  19-20
  1.3.关键词获取技术  20-22
  1.4.信息抽取技术  22-24
    1.4.1.信息抽取系统的应用  22-23
    1.4.2.信息抽取研究存在的困难与挑战  23-24
  1.5.研究工作概述  24-25
    1.5.1.研究目标  24
    1.5.2.研究内容  24-25
  1.6.本文的内容安排  25-27
第二章 相关技术介绍  27-43
  2.1.常用语义词典  27-33
    2.1.1.知网  27-29
      2.1.1.1.知网概况  27-28
      2.1.1.2.知网的内容与结构  28-29
    2.1.2.同义词词林  29-31
    2.1.3.WORDNET  31-33
      2.1.3.1.WordNet概况  31-32
      2.1.3.2.WordNet中名词的组织  32-33
  2.2.PAGERANK算法  33-38
    2.2.1.PAGERANK算法的数学模型  33-37
    2.2.2.PAGERANK算法在无向赋权图中的计算  37-38
  2.3.本体  38-43
    2.3.1.本体的定义  38-39
    2.3.2.本体研究领域的重要课题  39-43
第三章 基于语义网络的词义消歧  43-63
  3.1.词义消歧的基本方法  43-47
    3.1.1.基于统计的词义消歧  43-45
    3.1.2.基于知识的词义消歧  45-47
  3.2.基于知网与UW-PAGERANK的汉语词义消歧  47-56
    3.2.1.义原间关系的计算  47-48
    3.2.2.语义网络的构建  48-50
    3.2.3.词义的选取  50-51
    3.2.4.实验  51-56
      3.2.4.1.全文标注实验  51-53
      3.2.4.2.SENSEVAL-3评测  53-55
      3.2.4.3.相关工作  55-56
  3.3.基于WORDNET与UW-PAGERANK的英语词义消歧  56-61
    3.3.1.词义间关系的计算  57
    3.3.2.语义网络图的构建  57-58
    3.3.3.词义的选取  58-59
    3.3.4.实验  59-61
      3.3.4.1.词义一致性验证  59-60
      3.3.4.2.SemCor消歧评测  60-61
      3.3.4.3.相关工作  61
  3.4.本章小结  61-63
第四章 基于语义网络的文本关键词获取  63-75
  4.1.关键词获取的基本方法  63-66
    4.1.1.基于统计的关键词获取  63-64
    4.1.2.基于词典的关键词获取  64-65
    4.1.3.基于图形的关键词获取  65-66
  4.2.基于知网与UW-PAGERANK的汉语文本关键词获取  66-70
    4.2.1.实验  68-70
  4.3.基于WORDNET与UW-PAGERANK的英语文本关键词获取  70-72
    4.3.1.实验  71-72
    4.3.2.相关工作  72
  4.4.本章小结  72-75
第五章 文本信息抽取及规则生成  75-97
  5.1.信息抽取的基本方法  75-80
    5.1.1.基于统计的信息抽取  75-79
    5.1.2.基于规则的信息抽取  79-80
  5.2.信息抽取规则的生成方法  80-83
  5.3.财经新闻文本信息抽取系统  83-85
  5.4.RGA-CIE  85-94
    5.4.1.泛化路径的确定  88-89
    5.4.2.泛化效果的评测  89-91
    5.4.3.规则的语义扩展  91-92
    5.4.4.实验  92-93
    5.4.5.相关工作  93-94
  5.5.基于信息抽取的本体实例获取  94-97
    5.5.1.本体实例获取  94-95
    5.5.2.信息抽取在本体构实例获取的应用  95-96
    5.6.本章小结  96-97
第六章 工作小结与展望  97-99
  6.1 研究工作小结  97-98
  6.2.今后的研究方向  98-99
参考文献  99-111
致谢  111-113
攻读博士学位期间发表的论文  113-114

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 词义消歧语料库自动获取方法研究,TP391.1
  3. 时间表达式识别与归一化研究,TP391.1
  4. WordNet和《中国分类主题词表》的映射研究,G254
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 网页属性抽取的方法研究,TP391.1
  7. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  8. 主题搜索引擎关键技术研究,TP391.3
  9. 基于搜索引擎网页排序算法研究,TP391.3
  10. 基于语义距离的Web页面关键词获取研究,TP391.1
  11. 结合本体HowNet的中文文本分类研究,TP391.1
  12. 结合WordNet的领域语义标注研究,TP391.1
  13. 基于链接结构分析的Web页面排序算法,TP393.092
  14. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  15. 异构信息源的领域人物信息抽取研究,TP391.1
  16. 搜索引擎主题相关性研究,TP391.3
  17. 基于点击数据分析的个性化搜索引擎研究,TP391.3
  18. 基于Web的股评观点倾向性分析研究,TP391.1
  19. 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
  20. 基于文档结构的半监督Blog信息抽取技术,TP393.092
  21. 基于查询扩展的垂直搜索研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com