学位论文 > 优秀研究生学位论文题录展示

基于语义的金融企业非结构化信息检索系统研究

作 者: 陈斌
导 师: 饶若楠;曹顺良
学 校: 上海交通大学
专 业: 软件工程
关键词: 非结构化信息 本体技术 UIMA 全文检索 语义检索 金融企业
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 72次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着金融行业自身信息化水平的不断提高,越来越多的金融业务以信息化方式提供着监管与服务。在这些业务数据中存在着大量非结构化信息,如何快速的从海量的非结构化数据信息中获取有价值的内容并加以应用是金融企业在信息管理中面临的问题。传统的全文检索技术虽然能够满足根据关键字快速查找匹配资料的需求,但存在以下缺点:无法完成具有异源异构特性的非结构化信息数据整合;无法根据查询要求对需求的信息进行语义分析与推理;在检索结果中存在过多的无价值与不相关信息。为了解决这些问题,本文在非结构化信息管理架构UIMA(Unstructured Information Management Architecture)规范和全文检索技术的基础之上,提出了一种基于语义的非结构化信息检索方法。该方法首先对金融企业异源异构的非结构化信息数据源进行整合,并通过内容管理系统CMS(Content Management System)对信息资源进行统一管理。然后利用可扩展的UIMA框架实现对这些非结构化金融信息资源的数据获取与扩展化数据分析,并应用Lucene索引技术实现对数据内容和分析结果的序列化索引。在信息检索中,该方法在传统搜索模型的基础上,引入本体概念,提出了一种基于领域本体的检索模型,通过构建基于OWL(Web Ontology Language)标准的金融领域本体库实现基于语义的信息检索。以基于语义的非结构化信息检索方法为依据,本文提出了基于语义的金融企业非结构化信息检索系统设计方案,根据该方案设计与实现了一个应用系统FUIRS(Financial Unstructured Information Retrieval System)。FUIRS由非结构化信息内容管理子系统、分析子系统、内容索引子系统、关联检索子系统四部分组成。内容管理子系统负责对金融企业异源异构数据的整合与管理。分析子系统负责获取内容管理子系统中的数据信息并实现可扩展的数据分析。内容索引子系统负责对数据进行索引与存储。关联检索子系统负责基于语义的信息检索,并提供用户访问的可交互搜索平台。通过FUIRS系统,金融企业能够有效的整合非结构化信息资源,实现业务数据的内容分析应用,并通过本体技术为金融企业用户提供高效的数据检索服务。本文通过单元测试、性能测试两种方法对FUIRS的核心功能模块与系统运行性能进行了测试,同时根据其特点在应用案例中对FUIRS的信息检索功能进行了数据验证,结果表明基于语义的金融企业非结构化信息检索系统设计方案在实践中是可行并有效的。与传统的全文检索系统相比,FUIRS系统具有以下特点:实现了对非结构化数据源的有效整合与内容获取;基于金融企业特点构建,支持业务数据内容的扩展化数据分析与应用;使用基于OWL标准的本体技术,在检索中支持语义分析与推理功能,使得用户能够获得更全面、准确的信息。

全文目录


摘要  3-5
ABSTRACT  5-10
1. 绪论  10-14
  1.1 研究背景及意义  10
  1.2 国内外研究现状  10-12
  1.3 研究目标及内容  12-13
  1.4 本文结构  13-14
2. 相关技术  14-26
  2.1 概述  14
  2.2 UIMA  14-19
    2.2.1 通用分析结构  15-16
    2.2.2 类型系统模块  16
    2.2.3 基础类型系统  16-17
    2.2.4 UIMA 抽象接口  17-18
    2.2.5 行为元数据  18
    2.2.6 处理元素元数据  18-19
    2.2.7 服务WSDL 描述  19
  2.3 Lucene 技术  19-22
    2.3.1 索引部分核心  19-20
    2.3.2 搜索部分核心  20-21
    2.3.3 Lucene 的评分策略  21-22
  2.4 本体技术  22-25
    2.4.1 本体的概念  22
    2.4.2 RDF 与OWL  22-24
    2.4.3 SPARQL  24
    2.4.4 Jena  24-25
  2.5 本章小结  25-26
3. 业务及需求分析  26-36
  3.1 金融担保业务分析  26-27
  3.2 担保业务通用流程  27-29
  3.3 非结构化信息管理方面的问题  29-32
    3.3.1 数据规模  29-30
    3.3.2 数据多元化  30-32
    3.3.3 相关联信息查询  32
  3.4 解决方法  32
  3.5 解决方案  32-35
    3.5.1 方案描述  33
    3.5.2 系统方案  33-34
    3.5.3 方案目标  34-35
  3.6 本章小结  35-36
4. 系统设计  36-63
  4.1 系统需求  36-37
  4.2 架构设计  37-40
  4.3 非结构化信息内容管理子系统设计  40-46
    4.3.1 数据源整合模块  41-45
    4.3.2 Bridge 模块  45-46
  4.4 非结构化信息分析子系统设计  46-52
    4.4.1 组件管理模块设计  48-49
    4.4.2 资源获取组件设计  49-50
    4.4.3 内容分析组件  50-51
    4.4.4 数据处理组件  51-52
  4.5 内容索引子系统设计  52-58
    4.5.1 分词模块设计  53-55
    4.5.2 索引模块设计  55-58
  4.6 关联检索子系统设计  58-62
    4.6.1 本体编辑模块设计  58-59
    4.6.2 本体查询模块设计  59-61
    4.6.3 搜索引擎设计  61-62
  4.7 本章小结  62-63
5. 系统实现  63-80
  5.1 系统实现环境  63-65
  5.2 系统部署  65-66
  5.3 功能模块实现  66-79
    5.3.1 非结构化信息内容子系统实现  66-69
    5.3.2 非结构化信息分析子系统实现  69-72
    5.3.3 内容索引子系统实现  72-75
    5.3.4 关联检索子系统实现  75-79
  5.4 本章小结  79-80
6. 测试与应用案例  80-89
  6.1 测试工具介绍  80
  6.2 单元测试  80-83
  6.3 性能测试  83-85
  6.4 应用案例  85-87
  6.5 本章小结  87-89
7. 总结与展望  89-91
  7.1 工作总结  89
  7.2 下一步工作  89-91
参考文献  91-94
致谢  94-95
攻读学位期间发表的学术论文目录  95-98
上海交通大学博士学位论文答辩决议书  98

相似论文

  1. 基于本体的语义检索研究,TP391.3
  2. 我国金融企业人力资源成本管理研究,F272.92
  3. 金融企业信息系统安全解决方案的设计与实现,TP393.08
  4. 基于本体的医学命名实体识别技术研究,TP391.1
  5. 广西金融企业间网络关系研究,F832.3
  6. 网络智能答疑系统的研究与实现,TP393.09
  7. 仿真资源云存储技术的研究与实现,TP333
  8. 数据库全文检索方法研究及其应用,TP311.13
  9. 知识文档的语义检索方法研究与实现,TP391.3
  10. 企业短信互动系统设计及实现关键技术研究,TN929.53
  11. 基于本体和SWRL推理的知识检索方法研究,TP391.3
  12. 基于本体的知识管理系统的设计与实现,TP311.52
  13. 海量数据存储与全文检索,TP333
  14. 本体技术在电子病历中的应用研究,TH772.2
  15. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  16. 安徽电力数字图书馆系统开发与应用,TP311.52
  17. 汉英跨语言网址搜索引擎的设计与实现,TP391.3
  18. 基于领域本体的网络产品检索引擎的研究与实现,TP391.3
  19. DS省农村信用社员工激励体系研究,F832.35
  20. 城市地理信息检索服务研究,P208

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com