学位论文 > 优秀研究生学位论文题录展示
Web数学公式提取方法的研究
作 者: 崔林卫
导 师: 苏伟
学 校: 兰州大学
专 业: 软件工程
关键词: 搜索引擎 爬虫 公式识别 MathML OpenMath 数学公式
分类号: TP393.09
类 型: 硕士论文
年 份: 2012年
下 载: 102次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的发展,Web技术对数学交流的支持目益成熟和完善,用户在Web上进行数学公式的获取和管理数学公式活动,需要数学公式搜索引擎的支持。数学公式搜索引擎是第三代智能化搜索引擎的研究课题之一,而基于数学公式的爬虫是数学公式搜索中极其重要的一部分,其质量的好坏直接影响着数学公式搜索引擎的功能和性能。本文的工作重点是对基于数学公式爬虫的研究,主要涉及Web数学公式的识别提取和系统设计。目前,数学公式的识别研究已经取得相当大的进展,但无法应用到数学公式交流和搜索上。本文对用户可编程的数学公式的识别做了有针对性的研究工作,以Web文档中XML格式、LaTeX格式、Infix格式描述的公式以及微软办公软件和OpenOffice中公式为重点。总结分析这些描述形式的公式在Web中的存在形式及其外在的模式特征,利用模式匹配识别提取。在此研究基础上,以开源软件Nutch为系统基础设计实现了数学爬虫系统MathCrawler, MathCrawler有良好的系统架构,可以在互联网上抓取含有数学公式相关内容的文档并提取出数学公式,并用实验表明系统有良好的性能,可以较准确地提取了数学公式。
|
全文目录
中文摘要 3-4 Abstract 4-9 第一章 引言 9-13 1.1 背景 9-10 1.2 研究现状 10-11 1.3 课题研究的主要内容 11-12 1.4 论文结构 12-13 第二章 相关研究基础 13-19 2.1 MathSearch 13-14 2.2 Nutch 14-16 2.2.1 Nutch特点 14-15 2.2.2 Nutch系统架构 15-16 2.3 其他相关技术 16-19 2.3.1 模式匹配 16-17 2.3.2 DOM 17 2.3.3 Tika 17-19 第三章 Web中公式描述 19-30 3.1 LaTeX/TeX 20-21 3.2 MathML 21-26 3.2.1 表示式MathML 21-22 3.2.2 语文式MathML 22 3.2.3 MathML 3.0中的新特性 22-24 3.2.4 MathML浏览器支持 24 3.2.5 MathML其它支持 24-25 3.2.6 MathML转化 25 3.2.7 MathML编辑工具 25-26 3.2.8 小结 26 3.3 OpenMath 26 3.4 Infix 26-27 3.5 混合标签 27-28 3.6 并行标签 28-29 3.7 小结 29-30 第四章 公式特征提取 30-48 4.1 基于XML数学公式提取 30-35 4.1.1 显式代码提取 31-32 4.1.2 隐式代码提取 32-35 4.2 基于LaTeX数学公式提取 35-37 4.3 基于Infix数学公式提取 37-40 4.4 Office Word数学公式提取 40-46 4.4.1 Microsoft Office公式提取 41-44 4.4.2 OpenOffice公式提取 44-46 4.5 公式存储 46-47 4.6 小结 47-48 第五章 MathCrawler系统 48-55 5.1 MathCrawler设计 48-50 5.1.1 MathCrawler设计目标和原则 48-49 5.1.2 MathCrawler工作流程 49-50 5.2 系统实验 50-54 5.2.1 基本配置 50-51 5.2.2 实验 51-54 5.3 小结 54-55 第六章 总结和展望 55-57 参考文献 57-60 在学期阆的研究成果 60-61 致谢 61
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
- 基于BP网络的元搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- Web挂马检测系统的设计与实现,TP393.08
- 基于聚焦爬虫的网上药品信息监测系统,TP393.09
- 基于因特网的动态规范词表的系统构建研究,G354
- 基于云计算的Web教育爬虫,TP391.3
- Deep Web接口集成及查询结果排序方法研究,TP274
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 企业搜索引擎营销研究,TP391.3
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 数学公式在线考试系统的设计与实现,TP311.52
- 搜索引擎商标侵权及责任认定,D923.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|