学位论文 > 优秀研究生学位论文题录展示
基于Web信息自动抽取的英语题库生成算法研究
作 者: 熊惠荟
导 师: 杨晓非
学 校: 华中科技大学
专 业: 软件工程
关键词: Web信息抽取 DOM树 编辑距离 网页聚类 模板
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
在英语教学中,教师根据自己的经验积累了丰富的试题资源。为了减少教学中繁杂重复的工作,让教师的精力聚焦于备课、授课与解答等环节,真正提高教师的教学能力。通过各种途径获取试题资源,并快速有效的建立试题库成为英语教学的迫切需求。本文重点介绍了基于Web信息自动抽取技术的英语题库生成算法,希望利用Internet上丰富的信息资源,采用Web信息抽取技术,快速地建立海量试题库。针对包含英语试题信息网页的特点,设计了一个基于DOM和树状模板的Web信息自动抽取系统。该系统能够自动获取网页并进行预处理,然后对网页集合自动聚类、生成模板、信息抽取,最后对抽取的结果进行分析并按题库标准存入到数据库中。其中所涉及到的相关技术包括:网页集的自动获取及预处理、基于DOM树编辑距离的网页聚类算法、最优化模板生成技术、试卷信息匹配技术、英语题库生成技术。论文取得的阶段性成果主要包括:其一,对网页集准确地进行聚类,本文采用基于DOM树编辑距离的网页聚类算法,使具有相似结构的网页尽可能地归为一簇,通过仿真实验确定了聚类算法终止条件的最佳阈值;其二,提出了最优化模板的标准,以及试卷信息匹配规则,用修剪后的DOM树对网页进行内容抽取,实验证明该方法具有很好的精度。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 背景、研究目的及意义 8-9 1.2 国内外发展情况 9-12 1.3 本文的主要工作及内容安排 12-14 2 总体方案设计 14-19 2.1 自动获取网页 15 2.2 预处理 15-16 2.3 网页聚类 16 2.4 模板生成 16 2.5 信息匹配 16-17 2.6 题库生成 17-18 2.7 小结 18-19 3 网页聚类 19-31 3.1 相关知识 19-22 3.2 DOM 树的编辑距离 22-26 3.3 网页聚类算法 26-30 3.4 小结 30-31 4 模板生成算法 31-42 4.1 HTML 文档匹配多个模板树 31-34 4.2 正则表达式 34-36 4.3 从多序列比对推导模型 36-37 4.4 模板的简化 37-38 4.5 最优化模板的建立 38-40 4.6 生成模板 40 4.7 试卷信息匹配 40-41 4.8 小结 41-42 5 系统设计 42-50 5.1 总体设计 42-43 5.2 系统实现 43-49 5.3 小结 49-50 6 测试结果及分析 50-55 6.1 评价标准 50-51 6.2 网页聚类测试及分析 51-52 6.3 模板生成算法测试及分析 52-53 6.4 试卷信息抽取测试及分析 53-54 6.5 小结 54-55 7 总结与展望 55-58 7.1 总结 55-56 7.2 展望 56-58 致谢 58-59 参考文献 59-63 附录1 攻读硕士学位期间发表的论文目录 63
|
相似论文
- 溶胶—凝胶AAO模板法制备ITO准一维纳米结构,TB383.1
- Bi3.25La0.75Ti3O12(BLT)纳米管/线的合成工艺研究,TB383.1
- 水热法制备氧化物中空微球,TB383.4
- 2D人脸模板保护算法研究,TP391.41
- 基于距离映射码的安全指纹认证研究,TP391.4
- 有序多孔TiO2薄膜的制备及其性能研究,TB383.2
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 论电视节目模板的知识产权保护,G222
- 多孔氧化铜空心微球的制备及表征,O614.121
- 壁上有孔的二氧化硅空心球的制备,TB383.1
- 微/纳米结构聚苯胺及其复合材料的制备和表征,TB383.1
- 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
- 基于CNN的智能交通系统多车牌定位方法的研究,TP391.41
- 网页属性抽取的方法研究,TP391.1
- 近似字符串匹配研究及其在URL检测中的应用,TP393.08
- 甲醇制烯烃催化剂SAPO-34分子筛的合成及改性研究,TQ221.2
- 跟踪印花系统视觉检测算法研究,TP391.41
- 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
- 基于并联机构的视觉伺服技术,TP391.41
- 应急预案的形式化建模与决策规划,N945.1
- 基于QoS感知的Web服务组合,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|