学位论文 > 优秀研究生学位论文题录展示
互联网药品信息抽取算法的研究
作 者: 沈元一
导 师: 李银胜
学 校: 复旦大学
专 业: 计算机软件与理论
关键词: 信息抽取 语义词典 信息熵 医药电子商务
分类号: TP393.01
类 型: 硕士论文
年 份: 2010年
下 载: 59次
引 用: 1次
阅 读: 论文下载
内容摘要
目前,互联网上虚假药品信息泛滥,急需先进的互联网信息抽取技术来增强国家药监部门对医药电子商务市场的监管能力。为此,作者所在的课题组展开了对互联网药品监测技术的深入探讨。作者参与了其中关键技术——互联网药品信息抽取算法的研究工作,并取得了突出成果。常用的互联网信息抽取技术存在准确率不高、覆盖率低、人工干预多等诸多缺陷,无法满足对互联网药品信息进行全面、准确、实时、自动抽取的需求。本文在国内外相关研究的基础上,提出了一种新的互联网药品信息抽取算法,通过引入语义技术构建互联网药品信息三维语义词典,屏蔽不同药品交易网站在网页内容和结构上的异构性,同时利用药品信息网页中所需抽取的目标药品属性往往具有一定聚集度的特征,基于信息熵的基本理论设计出能对目标信息进行智能定位和抽取的方法。文中还介绍了该抽取算法的具体设计和实现,并通过相关实验证明了该抽取算法既可以大大降低信息抽取的人工干预程度,又具备较高的准确率和召回率。应用该抽取算法能实时自动全面准确地获取、监测和管理互联网药品交易信息,为政府药监部门提供丰富的监管依据及智能化全程在线监测的技术手段,对规范医药电子商务市场,保证公众的用药安全具有重要的现实意义。
|
全文目录
摘要 4-5 Abstract 5-6 第一章 绪论 6-9 1.1 研究背景和意义 6-7 1.2 研究内容和成果 7-8 1.3 本文结构 8-9 第二章 国内外相关研究分析 9-15 2.1 互联网信息搜索技术 9-10 2.2 网页信息抽取技术 10-12 2.3 语义技术 12-14 2.4 本章小结 14-15 第三章 关键问题与技术思路 15-27 3.1 抽取算法需要解决的关键问题 15-16 3.2 互联网药品信息三维语义词典 16-22 3.2.1 互联网药品信息的三维语义概念 17-19 3.2.2 互联网药品信息三维语义词典建模方法 19-22 3.3 网页结构语义熵 22-26 3.3.1 网页结构语义熵概念的提出 22-24 3.3.2 网页结构语义熵的定义和计算方法 24-26 3.4 本章小结 26-27 第四章 抽取算法的设计与实现 27-38 4.1 用例分析 27 4.2 模块分解 27-28 4.3 整体抽取流程 28-32 4.3.1 网页预处理 29-30 4.3.2 利用语义词典匹配目标文本 30 4.3.3 利用结构语义熵识别目标区域 30-32 4.3.4 信息抽取 32 4.4 类图和伪代码 32-37 4.5 本章小结 37-38 第五章 抽取算法验证实验 38-49 5.1 实验目的 38 5.2 实验验证方法 38-39 5.3 实验设计 39-42 5.3.1 实验术语介绍 39-40 5.3.2 关键技术指标 40 5.3.3 实验流程设计 40-42 5.4 实验数据准备 42-44 5.5 实验结果分析 44-47 5.5.1 页面内药品属性名值对的抽取 44-46 5.5.2 药品详细信息页的识别 46-47 5.6 实验发现的问题和改进思路 47-48 5.7 本章小结 48-49 第六章 总结 49-51 6.1 结论 49-50 6.2 展望 50-51 参考文献 51-54 致谢 54-55
|
相似论文
- 基于信息熵的课堂观察量化评价模型研究,G632.4
- 领域实体属性及事件抽取技术研究,TP391.1
- 主题搜索引擎关键技术研究,TP391.3
- 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于判断矩阵一致性的判别方法研究,O151.21
- 蚁群算法在VANET路由协议的应用研究,TN929.5
- 基于写作风格特征的论文剽窃检查优化方法研究,TP391.1
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于信息熵蚁群聚类的模糊C-均值算法的研究,TP311.13
- 企业关系挖掘技术研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 虚拟物流联盟风险控制研究,F252
- 盘龙云海公司电子商务应用策略研究,F426.72
- 基于人工标注技术的网页内容抽取系统开发,TP393.092
- 基于语义词典和局部分析的查询扩展研究,TP391.3
- 基于MongoDB的关系网络分析技术研究与应用,TP311.13
- 基于多维语义的互联网药品信息抽取的研究与应用,TP393.09
- 基于WordNet和FrameNet的领域语义词典的构建研究,TP391.1
- 基于信息熵理论的基因组特性研究,O236
- 基于“中国科技论文在线”的用户关注度分析及个性化研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络理论
© 2012 www.xueweilunwen.com
|