学位论文 > 优秀研究生学位论文题录展示

网络环境下获取汉维篇章级平行语料的研究

作　者: 梁建飞
导　师: 吐尔根·依布拉音
学　校: 新疆大学
专　业: 计算机应用技术
关键词: 网页下载网页去噪平行文本识别
分类号: TP393.092
类　型: 硕士论文
年　份: 2011年
下　载: 9次
引　用: 0次
阅　读: 论文下载

内容摘要

汉维双语平行语料库是开发汉维统计机器翻译系统的重要资源,然而现有的汉维双语平行语料库还不能满足实际需要,主要原因是语料库规模小、时效性和领域平衡性差。为了改善这种状况,本文在网页下载、网页去噪和平行文本识别方面作了研究,取得的主要成果如下:首先,根据研究需要实现了网页下载工具,该下载工具采用广度优先的方式下载网页,不仅更加适合完成大型网站的下载任务,而且更容易实现断点恢复、增量下载等功能。其次,对网页中的链接进行分类处理,并综合使用基于网页结构的方法和基于统计的方法在源码划分的基础上以文本长度和文本密度为特征对网页进行去噪,采用这种方法进一步提高了网页去噪的效率和效果。然后,以数字共现和文本长度之比为特征获取汉维候选平行文本对,以名词互译度和单词数目之比为特征,采用SVM分类器识别汉维候选平行文本对中的平行文本对,取得了较好的效果。最后,实现了一个能够自动从网络获取汉维平行文本的系统,为改善汉维双语语料库的状况创造了条件。

全文目录

摘要  3-4
ABSTRACT  4-8
第一章引言  8-13
  1.1 概述  8-11
    1.1.1 研究背景  8-9
    1.1.2 国内外研究现状分析  9-11
  1.2 主要研究目标和内容  11
    1.2.1 研究目标  11
    1.2.2 研究内容  11
  1.3 论文组织结构  11-13
第二章基于 Web 的双语平行语料库获取的总体架构  13-16
  2.1 基本流程  13-14
  2.2 任务分析与界定  14-15
    2.2.1 双语网站网页的下载  14
    2.2.2 网页的去噪  14-15
    2.2.3 双语平行网页获取  15
  2.3 本章小结  15-16
第三章网页下载工具  16-25
  3.1 研究现状  16-17
  3.2 正常下载  17-22
    3.2.1 网页编码识别  18-20
    3.2.2 链接处理  20-21
    3.2.3 提高效率的方法  21-22
  3.3 附加功能介绍  22-23
  3.4 实验与分析  23-24
    3.4.1 秋秋网页下载器  23-24
    3.4.2 实验结果与分析  24
  3.5 本章小结  24-25
第四章网页去噪  25-38
  4.1 相关研究  25-26
  4.2 系统介绍  26-27
  4.3 源码的预处理  27-31
    4.3.1 删除与网页布局无关的源码  27-28
    4.3.2 特殊字符的转换  28
    4.3.3 删除隐藏的源码  28-29
    4.3.4 处理网页链接  29-31
  4.4 源码的划分  31-32
    4.4.1 基础知识  31
    4.4.2 算法描述  31-32
  4.5 网页去噪  32-37
    4.5.1 算法描述  33-34
    4.5.2 实验设置  34-37
  4.6 本章小结  37-38
第五章双语候选平行文本获取  38-45
  5.1 相关研究  38-40
    5.1.1 URL 匹配  38-39
    5.1.2 网页结构相似度  39-40
  5.2 获取候选平行文本对  40-44
    5.2.1 基于共现信息的方法  40-42
    5.2.2 基于文本长度的方法  42-43
    5.2.3 基于文本长度和共现信息的方法  43-44
  5.3 本章小结  44-45
第六章双语平行文本识别  45-51
  6.1 相关研究  45-46
    6.1.1 基于双语网页内容互译性的特征  45
    6.1.2 句对齐翻译模型  45-46
  6.2 识别平行网页对  46-49
    6.2.1 基于词数比例的识别方法  47
    6.2.2 基于文本内容互译的识别方法  47-48
    6.2.3 SVM 分类器  48-49
  6.3 实验与分析  49-50
    6.3.1 数据描述与实验设置  49
    6.3.2 实验结果  49-50
  6.4 本章小结  50-51
第七章汉维双语平行文本自动获取系统的实现  51-54
  7.1 主要进程介绍  51-52
  7.2 进程间的数据传递  52
  7.3 系统性能介绍  52-53
  7.4 本章小结  53-54
第八章总结  54-57
  8.1 总结  54-56
  8.2 下一步工作  56-57
参考文献  57-60
附录一主要汉维双语网站列表  60-61
附录二全角半角转换表  61-62
附录三可处理的网页文件类型  62-63
附录四系统界面  63-65
研究生期间发表论文  65-66
致谢  66

网络环境下获取汉维篇章级平行语料的研究

内容摘要

全文目录

相似论文