学位论文 > 优秀研究生学位论文题录展示
基于信息抽取技术的商业社会网络创建研究
作 者: 季念星
导 师: 黄荷姣
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 商业社会网络 信息抽取技术 条件随机场 自扩展算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
在互联网诸多种类的文本中,有一种以商业财经分析和股评信息为主题的电子文档,这些文档中涉及很多商业实体和商业关系。商业社会网络就是以该类文档为基础,利用文本处理技术构建的一种社会网络。结构化的商业社会网络是以商业实体为基础,通过商业关系联接在一起的复杂结构图,图中的节点代表商业实体名称,边代表商业关系。信息抽取是文本处理技术的一类,其目的是由无结构或半结构的文本中抽取出特定的信息,然后将已抽取的信息格式化并存入数据库,以供用户的查询和分析。本文主要利用信息抽取技术中中文机构名称识别和中文关系识别技术,结合财经文本的特点,实现了商业社会网络系统的自动构建。重点阐述了利用自然语言处理模型进行的商业实体名称的识别和以自扩展技术为基础的商业关系抽取。在商业实体名称识别中,首先利用分词和统计的方法,确定构成商业实体名称的不同词性分布,作为条件随机场的训练的特征;然后利用统计的方法确定商业实体的文本上下文特征;最后利用条件随机场综合已选择的特征,经过训练得到能够在自由文本中实现商业实体名称的语言模型。对CRF训练得到的语言模型采用N折交叉测试,商业实体全称的识别精确度达到了94.6%,召回率达到91.4%,平均F值达到92.9%。本文同样使用CRF对简称进行标记,采用基于单字特征训练得到新的识别模型,经过对该模型的N折交叉测试,识别精确度为93.4%,召回率85.6%,平均F值89.3%。为了实现商业实体关系的自动抽取,首先利用精确匹配方法将财经文本中已识别的商业实体显示标出;然后采用自扩展算法,在提供优良的种子集基础上,实现商业实体关系的提取。对抽取的结果采用随机抽取小样本和人工标注结果比对测试,抽取正确率达到了66.8%。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 课题研究背景 8-10 1.2 本文相关技术及研究现状 10-12 1.3 本文主要研究工作 12-13 1.4 本文结构 13-14 第2章 信息抽取技术综述 14-27 2.1 信息抽取基本概念 14-16 2.2 信息抽取关键技术 16-20 2.2.1 命名实体识别 16-18 2.2.2 实体关系识别 18-19 2.2.3 评测标准 19-20 2.3 条件随机场 20-23 2.3.1 条件随机场概述 20 2.3.2 条件随机场原理 20-22 2.3.3 条件随机场参数训练 22-23 2.4 自扩展算法 23-26 2.4.1 自扩展算法概述 23-24 2.4.2 自扩展算法流程 24-25 2.4.3 自扩展算法关键问题 25-26 2.5 本章小结 26-27 第3章 商业实体识别 27-41 3.1 基于CRF 的商业实体识别 27-28 3.2 商业实体全称识别 28-32 3.2.1 相关工作 28-29 3.2.2 识别特征选择 29-30 3.2.3 训练数据生成 30-32 3.3 全称识别评测 32-36 3.3.1 评测方法 32-33 3.3.2 实验结果及分析 33-36 3.4 商业实体简称识别 36-37 3.4.1 相关工作 36 3.4.2 识别特征选择 36-37 3.4.3 训练数据生成 37 3.5 简称识别评测 37-40 3.5.1 评测方法 37-38 3.5.2 实验结果及分析 38-40 3.6 本章小结 40-41 第4章 商业关系抽取 41-50 4.1 商业关系抽取概述 41-42 4.2 相关工作 42-43 4.3 商业关系抽取预处理 43-44 4.3.1 商业关系实例提取 43-44 4.3.2 商业关系模式 44 4.4 基于自扩展的商业关系抽取 44-47 4.4.1 初始种子集选择 44-46 4.4.2 模式评估方法 46-47 4.4.3 自扩展迭代参数 47 4.5 实验评测 47-49 4.5.1 评测方法 47-48 4.5.2 实验结果及分析 48-49 4.6 本章小结 49-50 第5章 商业社会网络系统及应用 50-55 5.1 商业社会网络系统 50-51 5.1.1 系统结构 50 5.1.2 系统模块功能 50-51 5.2 商业社会网络 51-53 5.2.1 全局商业社会网络 51-52 5.2.2 局部商业社会网络 52-53 5.3 商业社会网络典型应用 53-54 5.3.1 商业实体价值评估 53 5.3.2 商业社区性研究 53-54 5.3.3 正反方研究 54 5.4 本章小结 54-55 结论 55-56 参考文献 56-61 攻读硕士学位期间发表的学术论文及其它成果 61-63 致谢 63
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 本地搜索领域POI缩略词词典的研究,TP391.3
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于规则与统计的语气词用法自动识别研究,TP391.1
- 产品名实体识别及规范化研究,TP391.1
- 人脸表情识别及其在视频分类与推荐中的应用,TP391.41
- 面向产品领域的细粒度情感分析技术,TP391.1
- 语义角色标注的集成策略的研究,TP391.1
- 领域本体概念实例、属性及属性值提取研究,TP391.1
- 基于SSH和Lucene垂直搜索引擎研究,TP391.3
- 框架元素语义核心词自动识别研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|