学位论文 > 优秀研究生学位论文题录展示
中医药多源搜索引擎推荐系统研究及其实现
作 者: 施少敏
导 师: 魏宝刚;吴江琴
学 校: 浙江大学
专 业: 计算机应用
关键词: 数字图书馆 信息抽取 机器学习 推荐算法 多源知识聚合
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 59次
引 用: 2次
阅 读: 论文下载
内容摘要
中医药文化博大精深,通过阅读数字图书馆中的中医著作或者浏览相关电子资料是一种了解、学习中医药知识的有效方式,而这些著作和电子资料是通过搜索引擎呈现给用户的。虽然传统中医药图书推荐系统会在用户搜索的同时提供字面相关的推荐词条或者图书推荐页面,但是这些推荐词条都是搜索关键词的字面衍生,推荐页面也仅仅含有搜索文本,而没有先后之分。实际上用户关心的不仅是搜索文本字面相关的信息,也可能是与搜索文本语义、语境等相关的知识术语、不同媒介的知识载体。因此传统推荐系统满足不了这种学习认知模式。本文中设计的中医药多源搜索引擎推荐系统整合了中医药知识的各方面信息,包括中药、方剂、病证、图像、视频、药物产地、名家名医、著名医馆等多源信息,推荐项是各方面信息的聚合,力求帮助用户快速有条理地学习中医知识,多角度探触搜索项的方方面面。该推荐系统以数字图书馆CADAL项目为背景,利用自生成正则表达式的信息抽取技术从OCR书籍和网络中提取信息,使用双数组Trie树算法分离药物、方剂主治信息,使用文中提出的方剂分离算法对方剂组成信息进行细化,之后在中医药辞典的基础之上,使用了“辞典学习”的学习算法,得出与用户搜索语义相关的关键词,并结合网络信息以及用户关注度协同过滤算法得到推荐词条集合,然后对推荐词条集合采用反向索引的方式找到索引页面并对页面进行评估,最后对页面重新排序再推荐给用户。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-15 1.1 数字图书馆和图书推荐系统 10 1.2 课题背景及其意义 10-13 1.3 本文所做的主要工作 13-14 1.4 论文结构安排 14-15 第2章 CADAL推荐系统相关开发技术分析 15-25 2.1 CADAL项目介绍 15-16 2.2 信息搜索推荐相关技术 16-23 2.2.1 信息抽取技术 16-17 2.2.2 全文检索技术 17-19 2.2.3 排序技术 19-20 2.2.4 信息压缩与传送技术 20-21 2.2.5 Web信息挖掘技术 21 2.2.6 协同过滤技术 21-22 2.2.7 基于知识的推荐技术 22-23 2.3 推荐系统的评估 23 2.4 推荐系统的发展趋势 23-24 2.5 本章小结 24-25 第3章 CADAL中医药推荐系统总体设计 25-37 3.1 推荐系统框架设计 25-27 3.2 建立系统所需任务 27-28 3.3 中医药数据采集方法 28-31 3.3.1 书籍数据采集 28-30 3.3.2 中医药数据网络采集 30-31 3.4 中医药数据集成和变换 31-32 3.4.1 数据集成 31-32 3.4.2 数据变换 32 3.5 搜索引擎界面设计 32-34 3.6 推荐的产生以及反馈 34-35 3.7 用户数据获取及处理 35-36 3.8 本章小结 36-37 第4章 CADAL中医药推荐系统技术设计 37-52 4.1 基于正则表达式的实体抽取算法 37-38 4.2 基于双数组Trie树的信息分离算法 38-41 4.3 方剂组成信息的细化 41-44 4.4 语义推荐算法 44-48 4.5 页面评估算法 48-50 4.6 实验结果分析 50-51 4.7 本章小结 51-52 第5章 CADAL中医药推荐系统的实现 52-60 5.1 系统底层软件支撑环境 52 5.2 元数据管理模块的实现 52-53 5.3 数据处理模块的实现 53-56 5.3.1 知识获取模块 53-54 5.3.2 数据关联模块 54-55 5.3.3 数据检索模块 55-56 5.4 流程控制模块 56-58 5.5 页面显示模块 58-59 5.6 本章小结 59-60 第6章 总结与展望 60-62 6.1 总结 60 6.2 展望 60-62 参考文献 62-66 攻读硕士学位期间主要的研究成果 66-67 致谢 67-68 作者简历 68
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 数字图书馆信息服务视域下的著作权问题研究,D923.41
- 基于数据分布特征的文本分类研究,TP391.1
- 基于云计算的数字图书馆服务模式研究,G250.76
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 网页属性抽取的方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 数字图书馆的著作权问题研究,G250.76
- 监督主题模型的研究与应用,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 基于失真效应的图像质量评价与分类,TP391.41
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|