学位论文 > 优秀研究生学位论文题录展示

Web数学公式提取方法的研究

作　者: 崔林卫
导　师: 苏伟
学　校: 兰州大学
专　业: 软件工程
关键词: 搜索引擎爬虫公式识别 MathML OpenMath 数学公式
分类号: TP393.09
类　型: 硕士论文
年　份: 2012年
下　载: 102次
引　用: 0次
阅　读: 论文下载

内容摘要

随着信息技术的发展,Web技术对数学交流的支持目益成熟和完善,用户在Web上进行数学公式的获取和管理数学公式活动,需要数学公式搜索引擎的支持。数学公式搜索引擎是第三代智能化搜索引擎的研究课题之一,而基于数学公式的爬虫是数学公式搜索中极其重要的一部分,其质量的好坏直接影响着数学公式搜索引擎的功能和性能。本文的工作重点是对基于数学公式爬虫的研究,主要涉及Web数学公式的识别提取和系统设计。目前,数学公式的识别研究已经取得相当大的进展,但无法应用到数学公式交流和搜索上。本文对用户可编程的数学公式的识别做了有针对性的研究工作,以Web文档中XML格式、LaTeX格式、Infix格式描述的公式以及微软办公软件和OpenOffice中公式为重点。总结分析这些描述形式的公式在Web中的存在形式及其外在的模式特征,利用模式匹配识别提取。在此研究基础上,以开源软件Nutch为系统基础设计实现了数学爬虫系统MathCrawler, MathCrawler有良好的系统架构,可以在互联网上抓取含有数学公式相关内容的文档并提取出数学公式,并用实验表明系统有良好的性能,可以较准确地提取了数学公式。

全文目录

中文摘要  3-4
Abstract  4-9
第一章引言  9-13
  1.1 背景  9-10
  1.2 研究现状  10-11
  1.3 课题研究的主要内容  11-12
  1.4 论文结构  12-13
第二章相关研究基础  13-19
  2.1 MathSearch  13-14
  2.2 Nutch  14-16
    2.2.1 Nutch特点  14-15
    2.2.2 Nutch系统架构  15-16
  2.3 其他相关技术  16-19
    2.3.1 模式匹配  16-17
    2.3.2 DOM  17
    2.3.3 Tika  17-19
第三章 Web中公式描述  19-30
  3.1 LaTeX/TeX  20-21
  3.2 MathML  21-26
    3.2.1 表示式MathML  21-22
    3.2.2 语文式MathML  22
    3.2.3 MathML 3.0中的新特性  22-24
    3.2.4 MathML浏览器支持  24
    3.2.5 MathML其它支持  24-25
    3.2.6 MathML转化  25
    3.2.7 MathML编辑工具  25-26
    3.2.8 小结  26
  3.3 OpenMath  26
  3.4 Infix  26-27
  3.5 混合标签  27-28
  3.6 并行标签  28-29
  3.7 小结  29-30
第四章公式特征提取  30-48
  4.1 基于XML数学公式提取  30-35
    4.1.1 显式代码提取  31-32
    4.1.2 隐式代码提取  32-35
  4.2 基于LaTeX数学公式提取  35-37
  4.3 基于Infix数学公式提取  37-40
  4.4 Office Word数学公式提取  40-46
    4.4.1 Microsoft Office公式提取  41-44
    4.4.2 OpenOffice公式提取  44-46
  4.5 公式存储  46-47
  4.6 小结  47-48
第五章 MathCrawler系统  48-55
  5.1 MathCrawler设计  48-50
    5.1.1 MathCrawler设计目标和原则  48-49
    5.1.2 MathCrawler工作流程  49-50
  5.2 系统实验  50-54
    5.2.1 基本配置  50-51
    5.2.2 实验  51-54
  5.3 小结  54-55
第六章总结和展望  55-57
参考文献  57-60
在学期阆的研究成果  60-61
致谢  61

Web数学公式提取方法的研究

内容摘要

全文目录

相似论文