学位论文 > 优秀研究生学位论文题录展示
基于分布式多Agent系统的二层专利数据库信息获取系统研究
作 者: 康宁
导 师: 翟东升
学 校: 北京工业大学
专 业: 管理科学与工程
关键词: 分布式系统 异构数据源 负载均衡调度
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 67次
引 用: 1次
阅 读: 论文下载
内容摘要
为了提高北京市知识产权预警能力和高新技术产业竞争力,需要我们构建知识产权预警平台,为企业、政府和中介机构提供理论、方法和技术支持。而进行这各项研究最基本的就是有大量而准确的面向主题的专利信息。目前,虽然有人针对于专利数据库信息获取进行了研究,但是在数据源关系、效率及易用性方面还是存在着缺陷。由于德文特专利数据库是建立在各国专利数据库之上的主题数据库,其中的专利信息是由专业的专利分析人员将各国专利数据库中的信息整合编译过之后而形成的,具有很高的参考价值。而德文特专利数据库中只包含了专利的主题信息,不能够支持专利详细信息分析,需要到原始数据库中查询下载专利详细内容。本文通过使用分布式的系统结构,研究了从德文特专利数据库到USPTO专利数据库的二层专利数据源信息获取机制。系统采用模块化思想,抽象为四个模块,并通过使用分布式结构提高了专利抽取速率,并开发具有针对性的负载均衡调度算法,实现了整个系统的负载均衡。其中涉及到Multi-Agent技术、XML相关技术、分布式系统技术等。同时,为了提高系统易用性,为用户提供了基于自主标注的信息抽取模板生成功能模块,用户不需要任何专业知识即可生成信息抽取XSLT。最后,针对于下载到本地的专利信息,生成专利统计文件,为用户进行专利分析提供数据基础。本文的创新之处在于:第一,综合运用多种方法,实现了多源异构层次化专利数据库的专利信息抽取,并使用分布式多Agent系统,解决的专利信息的抽取速率问题。第二,针对于专利信息抽取的特点,制定了具有针对性的负载均调度指标体系,并采用了轮询式的负载均衡调度算法,使系统的负载均衡调度更为高效。第三,使用DOM、锚点、XSLT等技术,并结合自主设计的空白节点剪枝算法和动态节点剪枝算法,通过两颗源于深网的信息页面匹配,获得页面模板元数据,并由用户对模板的标注,实现了信息抽取规则的简易生成。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-19 1.1 研究背景与意义 9-10 1.1.1 研究背景 9 1.1.2 研究意义 9-10 1.2 国内外研究现状 10-16 1.2.1 分布式系统负载均衡机制研究 10-13 1.2.2 网页信息抽取技术研究 13-16 1.2.3 信息抽取规则生成技术研究 16 1.3 论文主要研究工作 16-19 1.3.1 论文主要研究内容 16-17 1.3.2 论文总体结构 17-19 第2章 异构数据源分析 19-29 2.1 DII专利数据库简介 19 2.2 DII专利检索及获取 19-24 2.2.1 快速检索 20-21 2.2.2 被引专利检索 21 2.2.3 高级检索 21-22 2.2.4 专利检索结果及导出 22-23 2.2.5 全记录导出字段 23-24 2.3 异构数据库的信息交互 24-28 2.3.1 DII数据库与USPTO数据库的异构性 24-26 2.3.2 专利详细信息的反向查询 26-28 2.4 本章小结 28-29 第3章 分布式专利抽取系统的分析与设计 29-63 3.1 系统需求分析 29-32 3.1.1 以问题为导向的需求分析 29 3.1.2 已有软件功能 29-30 3.1.3 系统需求 30-32 3.2 系统总体设计 32-37 3.2.1 系统工作流程 32-33 3.2.2 系统用例建模 33-34 3.2.3 系统角色建模 34-35 3.2.4 系统整体设计 35-37 3.3 DII专利数据库抽取模块设计 37-51 3.3.1 DII专利数据库抽取模块架构 37-38 3.3.2 用户接口Agent设计 38-41 3.3.3 中心控制Agent设计 41-44 3.3.4 爬行功能模块设计 44-47 3.3.5 抽取功能模块设计 47-51 3.4 详细任务分发模块设计 51-56 3.4.1 用户接口Agent设计 52-54 3.4.2 任务控制Agent 54-56 3.5 统计结果模块设计 56-57 3.6 数据库设计 57-61 3.7 本章小结 61-63 第4章 任务分配关键技术 63-75 4.1 分布式多Agent系统的通信 63-66 4.1.1 异地中心控制Agent的消息上报 63-64 4.1.2 任务控制Agent与异地的通信机制 64-66 4.2 分布式多Agent系统的负载评估体系 66-71 4.2.1 异地服务器负载均衡评级指标 66-70 4.2.2 轮询式负载均衡算法 70-71 4.3 系统任务分配机制 71-73 4.3.1 负载均衡评价指标获取 71-72 4.3.2 负载均衡的计算 72 4.3.3 任务分发 72-73 4.4 本章小结 73-75 第5章 信息抽取规则半自动生成关键技术 75-85 5.1 源于深网的专利页面 75-76 5.2 基于锚点的信息抽取规则 76-78 5.3 信息抽取规则半自动生成流程 78-79 5.4 页面预处理模块 79-80 5.5 元数据JTree生成模块 80-83 5.5.1 空节点剪枝 80-81 5.5.2 动态节点剪枝 81-83 5.6 XSLT生成模块 83-84 5.7 本章小结 84-85 第6章 原型系统实现 85-99 6.1 原型系统的运行平台 85 6.2 原型系统运行实例 85-91 6.2.1 DII专利信息抽取 86-88 6.2.2 详细任务分配及抽取 88-89 6.2.3 统计信息推送 89-91 6.3 试验与分析 91-97 6.3.1 DII专利信息抽取 91-93 6.3.2 详细任务分配及抽取 93-97 6.4 本章小结 97-99 总结与展望 99-101 参考文献 101-105 攻读硕士期间发表的学术论文 105-107 致谢 107
|
相似论文
- 分布式系统的故障注入方法研究,TP338.8
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 构建分布式系统的关键技术研究与实现,TP338.8
- 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
- 基于Web Service在线考试管理系统的研究与实现,TP311.52
- 分布式麦克风阵列跟踪算法研究,TN912.3
- 基于Grid Quorum理论的大规模分布式系统后备路径选择问题研究,TP393.06
- 分布式多视角目标跟踪的统计推理方法及实现,TP391.41
- 异构数据资源汇聚的模式及优化问题研究,TP311.13
- 基于ETL技术的企业财务数据采集系统的设计与实现,TP311.52
- 基于Web服务的分布式计算求解器的研究,TP393.09
- 基于本体的物流信息集成系统的研究,TP311.52
- 基于SyncML的移动数据库同步技术研究,TP311.13
- 基于SOA构件化资源整合基础平台设计与实现,TP311.52
- 基于XML的医学资源预处理系统的设计与实现,TP311.52
- 多数据源环境下重复记录检测问题的研究,TP311.13
- 基于多核处理机构建分布式系统的关键技术研究,TP338.8
- 济南大学招生管理信息系统的设计与实现,TP311.52
- 多源异构数据集成技术研究,TP311.52
- 基于多核平台的入侵检测系统的设计与实现,TP393.08
- 基于软件总线模型的数据清洗系统的研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|