学位论文 > 优秀研究生学位论文题录展示
基于agent的internet信息自动提取的研究
作 者: 吴宗树
导 师: 郑守春
学 校: 沈阳工业大学
专 业: 计算机应用技术
关键词: agent,机器学习 internet 据过滤,搜索
分类号: TP393.09
类 型: 硕士论文
年 份: 2003年
下 载: 71次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet以及相关技术的发展与成熟,Internet,尤其是WWW逐渐成为人们发布和获取信息的常用平台,从网络上收集信息资源已经成为当今至未来社会人们获取信息的重要手段。然而,面对汪洋大海般的网上信息,一个普通用户使用现有手段是很难招架的。这又包括两种情况:1 主动送上门的或已经下载的信息难以消化,即所谓的“信息过载”;2用户不知道如何确切表达(目前技术也并没有提供合适的表达手段)对真正想要的网上资源的需求,也不知道如何更准确、有效地寻找资源,即所谓的“资源迷向”。 基于Agent的Internet信息自动提取的研究是一种面向个人用户和一般企业用户的实用智能化信息获取Agent,它可以通过反复学习,掌握用户的兴趣特征,自主在lnternet上搜索用户感兴趣的信息,并且将找到的信息经过过滤后提供给用户,实现智能化的主动信息服务。根据用户的偏好和反馈训练Agent,及时获取用户感兴趣的最新信息,从而获得个性化服务,帮助用户解决“信息过载”和“资源迷向”。 文章系统介绍了智能代理,机器学习和汉语分词技术,其中着重研究了Agent的智能性,代理性,主动性。本系统结合了这几种技术,集中建立一个基于Agent信息自动获取系统。 本文的系统划分成三个子系统:数据采集子系统,数据过滤子系统,机器学习子系统。三个子系统通过知识库有机的结合在一起,并尽可能地在系统的各个环节利用Agent的思想提高智能化,并对传统的分词算法,归纳学习算法做了融合和改进。
|
全文目录
摘要 5-6 Abstract 6-12 引言 12-16 1 agent理论 16-21 1.1 Agent技术的由来及发展 16 1.2 Agent的基本理论 16-17 1.2.1 Agent的定义 16-17 1.3 Agent的结构 17-18 1.3.1 审慎式结构(Deliberative Architecture) 17 1.3.2 反应式结构(Reactive Architecture) 17-18 1.3.3 混合式结构(Hybrid Architecture) 18 1.4 agent工作过程 18-19 1.5 agent的软件开发方法 19-21 2 数据采集子系统 21-33 2.1 万维网的信息构造 21-23 2.1.1 万维网的文档结构 21-22 2.1.2 统一资源定位符URL 22 2.1.3 超文本传输协议HTTP 22-23 2.1.4 超文本置标语言HTML 23 2.2 搜索引擎的工作原理 23-24 2.3 数据采集子系统的实现过程 24-25 2.4 数据采集子系统的层次结构 25-26 2.4.1 用户接口的功能 25 2.4.2 预处理层的功能 25 2.4.3 查询代理的功能 25-26 2.4.4 综合处理层 26 2.4.5 规划管理层 26 2.5 数据采集子系统的代理结构设计 26-28 2.5.1 用户接口代理 26-27 2.5.2 预处理层代理 27-28 2.5.3 查询代理 28 2.5.4 综合处理代理 28 2.6 自主搜索引擎 28-30 2.7 数据采集子系统的体系结构 30-31 2.8 数据采集子系统的特点 31-33 3 数据过滤子系统 33-47 3.1 信息过滤的理论背景 33 3.2 信息过滤的研究回顾 33-35 3.3 信息过滤的方法 35-36 3.3.1 布尔模型 35 3.3.2 向量空间模型 35-36 3.3.3 潜在语意索引模型 36 3.4 汉语分词 36-46 3.4.1 中文分词技术 37-38 3.4.2 本子系统所用的分词方法 38-44 3.4.3 数据过滤子系统的具体流程 44-46 3.5 小结 46-47 4 机器学习子系统 47-63 4.1 机器学习的理论 47-50 4.1.1 机器学习的发展 47-48 4.1.2 机器学习的概念和基本结构 48 4.1.3 几种常用的机器学习方法 48-50 4.2 智能代理与机器技术结合的技术。 50 4.2.1 采用从观察中学习的方式 50 4.2.2 半自动的方式(即人机交互的方式) 50 4.2.3 将各种机器学习方法加以综合应用 50 4.3 机器学习子系统设计方案 50-55 4.3.1 概述 50-51 4.3.2 知识库的构造 51-52 4.3.3 知识库的知识表示 52-53 4.3.4 本系统的知识表示 53-55 4.4 机器学习机制的设计 55-62 4.4.1 基于记忆观察的机器学习方法 55-56 4.4.2 基于ID3的归纳学习方法 56-62 4.5 小结 62-63 5 Agent的Internet信息获取整体实现 63-67 5.1 系统的开发平台和开发工具 63 5.2 系统的体系结构 63-64 5.3 系统工作流程 64-65 5.4 系统的整体效果分析 65-67 5.4.1 自主性,预动性表现: 65-66 5.4.2 智能性体现: 66-67 结论 67-69 参考文献 69-74 致谢 74
|
相似论文
- Internet/Intranet多层结构的研究及其在铁路安监系统中的应用,TP393.03
- 土地信息系统及其设计,P208
- 嵌入式UPS监控系统及其在65045部队网络管理中的应用,TP303.3
- 电子商务网站构建技术及应用研究,TP393.092
- 基于Internet的模拟法庭交互行为研究,TP391.9
- 基于GSM/GPRS网络的煤矿安全监控系统的研究,TP277
- 雷电监测数据采集系统设计,TM83
- 基于复杂网络理论的Internet拓扑特征分析,TP393.4
- Revenue Management on Internet Banner Advertising,F49
- 基于ARM嵌入式系统的网络传输应用与研究,TP368.12
- 基于嵌入式Internet的换热器在线监测系统设计实现,TP274
- 基于AGENT个性化Web协作学习系统的模型设计,TP311.52
- SIP协议若干安全问题的研究,TP393.08
- 基于文本信息过滤技术的短信防火墙系统设计与实现,TP393.08
- 基于嵌入式Internet的上隅角瓦斯远程监控系统的研究,TD712
- 基于Internet的自动化设备远程监控系统设计,TP277
- 基于ARM9的生物发酵过程数字控制系统研究,TP273.5
- 基于GPRS/Internet的拉床远程监控系统,TP277
- 网络环境下学校自动化办公系统的研究与实现,TP317.1
- 高带宽时延积网络拥塞控制算法研究,TP393.07
- 基于IPSec的VPN网关的研究与实现,TP393.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|