学位论文 > 优秀研究生学位论文题录展示

基于Web信息自动抽取的英语题库生成算法研究

作 者: 熊惠荟
导 师: 杨晓非
学 校: 华中科技大学
专 业: 软件工程
关键词: Web信息抽取 DOM树 编辑距离 网页聚类 模板
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 24次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在英语教学中,教师根据自己的经验积累了丰富的试题资源。为了减少教学中繁杂重复的工作,让教师的精力聚焦于备课、授课与解答等环节,真正提高教师的教学能力。通过各种途径获取试题资源,并快速有效的建立试题库成为英语教学的迫切需求。本文重点介绍了基于Web信息自动抽取技术的英语题库生成算法,希望利用Internet上丰富的信息资源,采用Web信息抽取技术,快速地建立海量试题库。针对包含英语试题信息网页的特点,设计了一个基于DOM和树状模板的Web信息自动抽取系统。该系统能够自动获取网页并进行预处理,然后对网页集合自动聚类、生成模板、信息抽取,最后对抽取的结果进行分析并按题库标准存入到数据库中。其中所涉及到的相关技术包括:网页集的自动获取及预处理、基于DOM树编辑距离网页聚类算法、最优化模板生成技术、试卷信息匹配技术、英语题库生成技术。论文取得的阶段性成果主要包括:其一,对网页集准确地进行聚类,本文采用基于DOM树编辑距离的网页聚类算法,使具有相似结构的网页尽可能地归为一簇,通过仿真实验确定了聚类算法终止条件的最佳阈值;其二,提出了最优化模板的标准,以及试卷信息匹配规则,用修剪后的DOM树对网页进行内容抽取,实验证明该方法具有很好的精度。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 背景、研究目的及意义  8-9
  1.2 国内外发展情况  9-12
  1.3 本文的主要工作及内容安排  12-14
2 总体方案设计  14-19
  2.1 自动获取网页  15
  2.2 预处理  15-16
  2.3 网页聚类  16
  2.4 模板生成  16
  2.5 信息匹配  16-17
  2.6 题库生成  17-18
  2.7 小结  18-19
3 网页聚类  19-31
  3.1 相关知识  19-22
  3.2 DOM 树的编辑距离  22-26
  3.3 网页聚类算法  26-30
  3.4 小结  30-31
4 模板生成算法  31-42
  4.1 HTML 文档匹配多个模板树  31-34
  4.2 正则表达式  34-36
  4.3 从多序列比对推导模型  36-37
  4.4 模板的简化  37-38
  4.5 最优化模板的建立  38-40
  4.6 生成模板  40
  4.7 试卷信息匹配  40-41
  4.8 小结  41-42
5 系统设计  42-50
  5.1 总体设计  42-43
  5.2 系统实现  43-49
  5.3 小结  49-50
6 测试结果及分析  50-55
  6.1 评价标准  50-51
  6.2 网页聚类测试及分析  51-52
  6.3 模板生成算法测试及分析  52-53
  6.4 试卷信息抽取测试及分析  53-54
  6.5 小结  54-55
7 总结与展望  55-58
  7.1 总结  55-56
  7.2 展望  56-58
致谢  58-59
参考文献  59-63
附录1 攻读硕士学位期间发表的论文目录  63

相似论文

  1. 溶胶—凝胶AAO模板法制备ITO准一维纳米结构,TB383.1
  2. Bi3.25La0.75Ti3O12(BLT)纳米管/线的合成工艺研究,TB383.1
  3. 水热法制备氧化物中空微球,TB383.4
  4. 2D人脸模板保护算法研究,TP391.41
  5. 基于距离映射码的安全指纹认证研究,TP391.4
  6. 有序多孔TiO2薄膜的制备及其性能研究,TB383.2
  7. 不完备信息系统的完备化及其上的知识获取,TP311.13
  8. 论电视节目模板的知识产权保护,G222
  9. 多孔氧化铜空心微球的制备及表征,O614.121
  10. 壁上有孔的二氧化硅空心球的制备,TB383.1
  11. 微/纳米结构聚苯胺及其复合材料的制备和表征,TB383.1
  12. 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
  13. 基于CNN的智能交通系统多车牌定位方法的研究,TP391.41
  14. 网页属性抽取的方法研究,TP391.1
  15. 近似字符串匹配研究及其在URL检测中的应用,TP393.08
  16. 甲醇制烯烃催化剂SAPO-34分子筛的合成及改性研究,TQ221.2
  17. 跟踪印花系统视觉检测算法研究,TP391.41
  18. 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
  19. 基于并联机构的视觉伺服技术,TP391.41
  20. 应急预案的形式化建模与决策规划,N945.1
  21. 基于QoS感知的Web服务组合,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com