学位论文 > 优秀研究生学位论文题录展示
网络环境下获取汉维篇章级平行语料的研究
作 者: 梁建飞
导 师: 吐尔根·依布拉音
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 网页下载 网页去噪 平行文本识别
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 9次
引 用: 0次
阅 读: 论文下载
内容摘要
汉维双语平行语料库是开发汉维统计机器翻译系统的重要资源,然而现有的汉维双语平行语料库还不能满足实际需要,主要原因是语料库规模小、时效性和领域平衡性差。为了改善这种状况,本文在网页下载、网页去噪和平行文本识别方面作了研究,取得的主要成果如下:首先,根据研究需要实现了网页下载工具,该下载工具采用广度优先的方式下载网页,不仅更加适合完成大型网站的下载任务,而且更容易实现断点恢复、增量下载等功能。其次,对网页中的链接进行分类处理,并综合使用基于网页结构的方法和基于统计的方法在源码划分的基础上以文本长度和文本密度为特征对网页进行去噪,采用这种方法进一步提高了网页去噪的效率和效果。然后,以数字共现和文本长度之比为特征获取汉维候选平行文本对,以名词互译度和单词数目之比为特征,采用SVM分类器识别汉维候选平行文本对中的平行文本对,取得了较好的效果。最后,实现了一个能够自动从网络获取汉维平行文本的系统,为改善汉维双语语料库的状况创造了条件。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 引言 8-13 1.1 概述 8-11 1.1.1 研究背景 8-9 1.1.2 国内外研究现状分析 9-11 1.2 主要研究目标和内容 11 1.2.1 研究目标 11 1.2.2 研究内容 11 1.3 论文组织结构 11-13 第二章 基于 Web 的双语平行语料库获取的总体架构 13-16 2.1 基本流程 13-14 2.2 任务分析与界定 14-15 2.2.1 双语网站网页的下载 14 2.2.2 网页的去噪 14-15 2.2.3 双语平行网页获取 15 2.3 本章小结 15-16 第三章 网页下载工具 16-25 3.1 研究现状 16-17 3.2 正常下载 17-22 3.2.1 网页编码识别 18-20 3.2.2 链接处理 20-21 3.2.3 提高效率的方法 21-22 3.3 附加功能介绍 22-23 3.4 实验与分析 23-24 3.4.1 秋秋网页下载器 23-24 3.4.2 实验结果与分析 24 3.5 本章小结 24-25 第四章 网页去噪 25-38 4.1 相关研究 25-26 4.2 系统介绍 26-27 4.3 源码的预处理 27-31 4.3.1 删除与网页布局无关的源码 27-28 4.3.2 特殊字符的转换 28 4.3.3 删除隐藏的源码 28-29 4.3.4 处理网页链接 29-31 4.4 源码的划分 31-32 4.4.1 基础知识 31 4.4.2 算法描述 31-32 4.5 网页去噪 32-37 4.5.1 算法描述 33-34 4.5.2 实验设置 34-37 4.6 本章小结 37-38 第五章 双语候选平行文本获取 38-45 5.1 相关研究 38-40 5.1.1 URL 匹配 38-39 5.1.2 网页结构相似度 39-40 5.2 获取候选平行文本对 40-44 5.2.1 基于共现信息的方法 40-42 5.2.2 基于文本长度的方法 42-43 5.2.3 基于文本长度和共现信息的方法 43-44 5.3 本章小结 44-45 第六章 双语平行文本识别 45-51 6.1 相关研究 45-46 6.1.1 基于双语网页内容互译性的特征 45 6.1.2 句对齐翻译模型 45-46 6.2 识别平行网页对 46-49 6.2.1 基于词数比例的识别方法 47 6.2.2 基于文本内容互译的识别方法 47-48 6.2.3 SVM 分类器 48-49 6.3 实验与分析 49-50 6.3.1 数据描述与实验设置 49 6.3.2 实验结果 49-50 6.4 本章小结 50-51 第七章 汉维双语平行文本自动获取系统的实现 51-54 7.1 主要进程介绍 51-52 7.2 进程间的数据传递 52 7.3 系统性能介绍 52-53 7.4 本章小结 53-54 第八章 总结 54-57 8.1 总结 54-56 8.2 下一步工作 56-57 参考文献 57-60 附录一 主要汉维双语网站列表 60-61 附录二 全角半角转换表 61-62 附录三 可处理的网页文件类型 62-63 附录四 系统界面 63-65 研究生期间发表论文 65-66 致谢 66
|
相似论文
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- 主题搜索引擎中的爬取技术研究,TP391.3
- 基于用户日志聚类的查询扩展,TP393.09
- 网页去噪与特征提取算法的研究及实现,TP393.092
- 基于网站语义结构的信息抽取系统的研究与实现,TP311.52
- 基于Web的信息智能感知技术及应用,TP18
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 一种基于后缀树的包装器自动生成方法的研究,TP311.1
- 大规模文本去重策略研究,TP391.1
- 搜索引擎系统中网页消重的研究与实现,TP393.092
- 国内植物园网站分析与上海植物园网站开发,TP393.092
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 嵌入式浏览器网页排版技术研究与实现,TP393.092
- 基于贝叶斯理论的网页木马检测技术研究,TP393.092
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 基于BHO技术的恶意网页行为检测技术研究与实现,TP393.092
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 网页主题概念的抽取处理及可视化实现,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|