学位论文 > 优秀研究生学位论文题录展示

基础教育资源搜索引擎中自动文摘技术研究

作 者: 范彦彬
导 师: 杨晓江
学 校: 南京师范大学
专 业: 教育技术学
关键词: 自动文摘 搜索引擎 Web文档 基础教育资源
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 162次
引 用: 1次
阅 读: 论文下载
 

内容摘要


21世纪人类的社会是一个信息化社会。在基础教育领域中,为了更好地为学生、老师、家长、教育机构等提供教育相关资源,我们研发了专用于基础教育资源搜集的快速高效的智能化基础教育资源搜索引擎。 在基础教育资源搜索引擎中,自动文摘是展示文档内容主题的摘要信息的重要部分。本文从分析多种Web文档的结构入手,提出了解析并提取文档信息的方法,特别是针对网页格式的文档,设计了提取其主题文本信息的算法。 在提取Web文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动摘要。自动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上可以提高运算和检索的效率。 本文通过分析基础教育资源的特性和现有的自动文摘方法,提出了把计算得到的基础教育领域的特征词权重,融入到计算文摘句权重的算法中,并同时考查句子位置、句子长度等文本表层统计信息的自动文摘算法。 本文还介绍了该算法的设计思路与实现步骤,并且针对自动文摘系统在基础教育资源搜索引擎中运行的实际情况,进行了科学的评价与总结,并展望了下一步的改进工作。

全文目录


摘要  5-6
ABSTRACT  6-7
前言  7-9
第一章 绪论  9-14
  1.1 基础教育资源搜索引擎课题背景  9-10
  1.2 国内外研究现状  10-11
  1.3 本课题的研究目的  11-12
  1.4 本课题的研究成果  12
  1.5 本文内容安排  12-14
第二章 自动文摘方法综述  14-21
  2.1 自动文摘的发展  14-15
  2.2 自动文摘的方法  15-18
    2.2.1 自动摘录(Automatic Extraction)  15-16
    2.2.2 基于理解的自动文摘  16-17
    2.2.3 信息抽取  17
    2.2.4 基于结构的自动文摘  17-18
  2.3 自动文摘的评价  18-21
    2.3.1 内部评价方法(Intrinsic methods)  19-20
    2.3.2 外部评价方法(Extrinsic methods)  20
    2.3.3 内部评价和外部评价方法的选择  20-21
第三章 网页主题文本内容提取  21-32
  3.1 网页的结构特征  21
  3.2 HTML文档解析  21-24
  3.2 网页主题内容的提取  24-27
  3.4 其他格式文档信息提取  27-29
  3.5 文档预处理器的设计  29-32
    3.5.1 文档预处理器的模块设计  29-31
    3.5.2 文档预处理器的实验结果  31-32
第四章 基础教育资源特征权重计算  32-43
  4.1 文本的表示方法  32-33
  4.2 特征选择  33-39
    4.2.1 特征选择算法  33-36
    4.2.2 实验设置  36-37
    4.2.3 实验结果与分析  37-39
  4.3 特征权重计算  39-43
    4.3.1 权重计算方法  39-41
    4.3.2 实验结果与分析  41-42
    4.4.3 结论  42-43
第五章 基础教育资源搜索引擎中自动文摘系统设计与实现  43-49
  5.1 基础教育资源搜索引擎中自动文摘系统设计思想  43-44
  5.2 自动文摘系统的构造与实现  44-47
  5.3 自动文摘系统的实验结果和评价  47-49
第六章 结束语  49-50
参考文献  50-52
致谢  52

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 中国区域基础教育资源配置的均等化研究,G521
  3. 基于语义网络的智能搜索引擎研究,TP391.3
  4. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  5. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  6. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  7. 论搜索引擎竞价排名的法律规制,D923.43
  8. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  9. 基于领域知识的Deep Web接口发现研究,TP393.09
  10. 基于对等网络的搜索引擎关键技术研究,TP391.3
  11. 基于本体的智能答疑系统研究与实现,TP311.52
  12. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  13. 对搜索引擎扩充语义信息功能方法研究,TP391.3
  14. 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
  15. 一种新的搜索引擎分词词典的研究,TP391.1
  16. 基于web的基础教育资源管理系统的研究与实现,TP311.52
  17. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  18. 基于倒排索引的压缩算法性能研究,TP391.3
  19. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  20. 搜索引擎主题相关性研究,TP391.3
  21. 基于Web数据挖掘的搜索引擎设计与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com