学位论文 > 优秀研究生学位论文题录展示

支付宝商户风险监控系统爬虫子系统的设计与实现

作 者: 钱宣统
导 师: 刘曙; 黄笃耀
学 校: 哈尔滨工业大学
专 业: 软件工程
关键词: 第三方支付 商户风险监控 分布式爬虫 任务调度 负载均衡
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 40次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着电子商务的高速发展,在线交易量日益增大,光靠网银自身的系统已经支撑不了客户支付的要求,于是一系列第三方支付公司如雨后春笋拔地而起。第三方支付平台汇总了各大银行的支付接口,同时还丰富了很多应用,满足了客户在线支付的需求。第三方支付平台允许商户网站接入其提供的支付接口,为客户提供在线支付服务。本文分析了支付宝在线支付平台的具体情况,可以得到目前支付宝平台主要提供资金的在线流动服务,对具体的交易内容是无法知晓的,使得很多电子商务网站在线进行一些非法交易,严重破坏了网络支付环境。针对当前接入支付宝平台支付接口的电子商务网站规模和业务领域进行了分析,找出了一套合理地商户风险监控方案,建立商户风险监控系统,系统还提供管理员后台操作界面,允许人工介入对系统发现的嫌疑商户进行验证,确保最终整改的商户确实为非法商户。商户风险监控系统分为爬虫子系统、审核任务子系统。本文对爬虫子系统的基础数据维护、基础数据加载、分布式环境负载均衡、网页地址分发和去重以及文本分析结果处理功能做了详细的需求分析以及设计实现。根据对当前商户数据量的评估,设计了合理的系统物理架构。维护的基础数据包含关键词、商户筛选策略以及应用场景,这些数据加载到爬虫系统中用来进行高风险商户网站的筛选和商户网站内容的分析。采用基于Hash的任务调度机制实现了分布式爬虫的负载均衡,利用BloomFilter数据结构,实现了高效的网页地址去重,由关键词分析之后的嫌疑违规文本会被封装成人工核查任务分发给审核任务子系统。该系统于2011年12月20号已经上线运行。在实际运营中验证了爬虫子系统的理论研究和设计实现的实际价值,对商户的监控起到了比较好的效果。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景及研究的目的和意义  8-9
  1.2 课题相关国内外研究状况  9-12
    1.2.1 第三方支付  9-10
    1.2.2 分布式爬虫技术  10-11
    1.2.3 对象关系映射  11-12
    1.2.4 规则引擎  12
  1.3 本文的研究内容及论文结构  12-14
第2章 爬虫子系统需求分析  14-28
  2.1 业务流程分析  14-16
    2.1.1 商户风险监控系统整体结构  14
    2.1.2 商户风险监控系统业务流程  14-16
    2.1.3 爬虫子系统业务流程  16
  2.2 爬虫子系统功能需求分析  16-24
    2.2.1 商户基本信息同步  17-19
    2.2.2 商户筛选策略配置管理  19-20
    2.2.3 关键词管理  20-22
    2.2.4 应用场景管理  22
    2.2.5 爬虫应用建立  22-24
  2.3 爬虫子系统非功能需求分析  24-25
  2.4 爬虫子系统关键技术  25-27
  2.5 本章小结  27-28
第3章 爬虫子系统概要设计  28-48
  3.1 爬虫子系统功能设计  28-37
    3.1.1 商户基本信息同步  29-30
    3.1.2 商户筛选策略配置管理  30-31
    3.1.3 关键词配置管理  31-35
    3.1.4 应用场景管理  35
    3.1.5 爬虫应用建立  35-37
  3.2 基于 HASH 的负载均衡设计  37-40
    3.2.1 负载均衡问题的描述  38
    3.2.2 负载均衡的设计  38-40
  3.3 基于 BLOOMFILTER 的 URL 去重设计  40-42
    3.3.1 URL 去重问题描述  40-41
    3.3.2 URL 去重方法设计  41-42
  3.4 爬虫子系统架构设计  42-45
    3.4.1 爬虫子系统物理架构  42-43
    3.4.2 爬虫子系统软件架构  43-45
  3.5 爬虫子系统数据库设计  45-47
  3.6 本章小结  47-48
第4章 爬虫子系统详细设计与实现  48-68
  4.1 爬虫子系统的详细设计与实现  48-62
    4.1.1 商户基本信息同步  48-51
    4.1.2 商户筛选策略配置管理  51-52
    4.1.3 关键词配置管理  52-55
    4.1.4 应用场景管理  55
    4.1.5 爬虫应用建立  55-62
  4.2 基于 HASH 的负载均衡详细设计与实现  62-64
  4.3 基于 BLOOMFILTER 的 URL 去重详细设计与实现  64-67
  4.4 本章小结  67-68
第5章 爬虫子系统测试  68-82
  5.1 爬虫子系统运行效果  68-74
  5.2 爬虫子系统功能测试  74-80
    5.2.1 测试用例数据  75-76
    5.2.2 测试输出数据及分析  76-80
  5.3 爬虫子系统接口性能测试  80-81
  5.4 本章小结  81-82
结论  82-83
参考文献  83-87
致谢  87-88
个人简历  88

相似论文

  1. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  2. 随机路由在无线传感器网络中的研究与应用,TN929.5
  3. 嵌入式实时操作系统MQX的内核分析及应用研究,TP316.2
  4. 网上第三方支付平台法律规制研究,D923
  5. 第三方支付的金融风险及其防范研究,F724.6
  6. 面向中小型商业银行的计算机集群技术分析与设计,TP338
  7. 网络化福利彩票计费系统的设计与实现,TP311.52
  8. 昆山地区教师进修远程研训平台的设计与实现,TP311.52
  9. 基于HWMP协议的无线Mesh网络负载均衡策略研究,TN929.5
  10. LTE-A异构网络中的自组网技术研究,TN929.5
  11. 基于一种新经济模型的异构网络选择算法,TN929.5
  12. 基于QoS的无线Mesh网络路由协议及相关技术的研究,TN929.5
  13. 构建分布式系统的关键技术研究与实现,TP338.8
  14. 基于S2SH框架的雅砻江虚拟研究中心系统研究与设计,TP311.52
  15. 容灾备份系统中备份服务器及系统安全机制的研究与实现,TP309.3
  16. 基于负载均衡的混合型应用层组播模型研究,TP393.02
  17. 异构网络联合接纳与切换控制技术研究,TN929.5
  18. 面向网格应用的光网络资源调度研究,TN929.1
  19. 数据缓存实现快速数据访问的设计,TP309
  20. 高可用分布式旅游电子商务网站设计与实现,TP393.092
  21. 云计算自动化软件安装系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com