学位论文 > 优秀研究生学位论文题录展示
基于Web的大规模中文人物信息提取研究
作 者: 胡万亭
导 师: 杨燕
学 校: 西南交通大学
专 业: 计算机系统结构
关键词: 信息抽取 结构化 分词 词频统计 正文抽取
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
现代人越来越依赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。网络上有海量的人物信息,但是这些信息格式多样、内容纷乱,大量的垃圾信息又充斥其中,如何从互联网中自动高效地抽取准确的信息相对复杂,有很多问题需要解决。本文研究了一个从网页数据采集、网页正文抽取、中文分词处理到人物信息结构化的完整过程,每个部分都对应论文的一章。首先是网页数据的采集。论文详述了人物信息网页来源的选取和网页的下载方法。网页下载越来越困难,网站对爬虫程序的限制越来越严,甚至采取了各种反爬虫措施,比如对同一IP访问频率的限制。作者自己编写程序下载网页数据,针对网站的不同情况采用了三种网页数据的下载方式:一般下载方式、代理下载方式和动态网页数据的下载方式。然后是对网页正文进行抽取。论文综述了网页正文抽取的相关研究,采用了基于统计和DOM的方法进行正文抽取。方法采用的统计信息是正文字长、超链接数和结束标点符号数。对每个容器标签,统计三个信息值后,利用它们的数量比值判断标签是否正文标签,进而抽取正文。接着是对网页正文进行分词处理。常见的分词系统在实体识别方面存在不足,不能很好适用于知识抽取、自然语言处理等。本文分词处理使用的是西南交大思维与智慧研究所开发的分词系统,该系统在实体识别方面显著优于其它分词系统。机构名识别算法由本文作者实现,算法基于词频统计。实验中训练数据主要通过百度百科词条整理得到。训练时,作者利用百度百科词条名在词条文本中的频数统计,进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。最后是网页人物信息的结构化。网页上的人物信息一般以半结构化和非结构化呈现,人物信息抽取的最后部分就是抽取半结构化和非结构化的人物信息并保存为结构化的人物信息。对于半结构化人物信息,需要正文去匹配人物属性词典,然后结合简单规则,直接提取属性值就行了,方法简单而有效。对于非结构化人物信息的提取,采用基于规则的提取方法,过程中建立触发词库和规则库,触发词库包括基本人物属性和对应的触发词,规则库是人工定义的提取属性值的规则。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-15 1.1 项目背景 11 1.2 目的和意义 11 1.3 研究现状分析 11-13 1.4 本文主要研究内容 13-15 第2章 人物网页数据采集 15-22 2.1 引言 15 2.2 爬虫概述 15-16 2.3 HttpClient介绍 16 2.4 网页数据下载 16-21 2.4.1 网页数据普通方式下载 16-17 2.4.2 网页数据代理方式下载 17-19 2.4.3 动态网页数据下载 19-21 2.4.5 实验结果 21 2.5 本章小结 21-22 第3章 基于DOM的网页正文信息提取 22-28 3.1 引言 22 3.2 DOM简介 22-24 3.3 Html解析器 24 3.4 基于DOM的正文抽取方法 24-25 3.4.1 原理分析 24-25 3.4.2 算法过程描述 25 3.5 实验结果 25-27 3.6 本章小结 27-28 第4章 网页正文的分词处理 28-36 4.1 引言 28-29 4.2 分词系统介绍 29 4.3 组织机构名识别 29-33 4.3.1 机构名的组成结构 29-30 4.3.2 机构名构成词的词频统计 30 4.3.3 词语频数统计排序 30 4.3.4 机构后缀词整理 30-31 4.3.5 机构名词典的建立 31 4.3.6 机构词词频的计算 31-32 4.3.7 机构名识别方法 32 4.3.8 算法描述 32-33 4.4 实验结果 33-35 4.4.1 机构名识别实验 33-34 4.4.2 正文分词处理实验 34-35 4.4 本章小结 35-36 第5章 人物信息结构化 36-46 5.1 引言 36 5.2 人物信息结构类型 36-38 5.3 半结构化人物信息提取 38-42 5.3.1 基于《知网》的语义相似度 38-39 5.3.2 属性词词典建立 39-41 5.3.3 基于词典匹配的方法 41-42 5.4 非结构化人物信息提取 42-44 5.4.1 文本分析 42 5.4.2 触发词库建立 42-43 5.4.3 规则库建立 43-44 5.4.4 算法描述 44 5.5 实验结果 44-45 5.6 本章小结 45-46 总结 46-48 致谢 48-49 参考文献 49-53 攻读硕士学位期间发表的论文和科研情况 53
|
相似论文
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 基于文本挖掘的学者简历自动生成,TP391.1
- 基于规则的中文地址分词与匹配方法,P208
- 基于本体的文本信息抽取技术及实现,TP391.1
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 基于本体的食品投诉文本危害信息抽取研究,TP391.1
- 基于本体的食品投诉文档事件追踪研究,TP391.1
- 基于校园网的用户行为分析系统的设计与实现,TP393.18
- 基于主题分类特征的物业评论情感分析,TP391.1
- 基于MVC的校园电子商务创业平台的搭建研究,TP311.52
- 网页属性抽取的方法研究,TP391.1
- 基于理解的汉语分词系统的设计与实现,TP391.1
- 全文检索及相关技术研究,TP391.3
- 网络论坛舆情监控系统的研究及设计,G206
- 基于规则的Web文本信息抽取技术的研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 数据挖掘技术在证券市场分析中的应用研究,F830.91
- 基于情感词的产品评论挖掘研究,TP311.13
- 药效仿真支持的心衰治疗模型研究,R312
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|