学位论文 > 优秀研究生学位论文题录展示

真实感汉语可视语音合成关键技术研究

作　者: 赵晖
导　师: 唐朝京
学　校: 国防科学技术大学
专　业: 信息与通信工程
关键词: 可视语音合成聚类趋势检验双模态语料库汉语三视素隐马尔可夫模型单元拼接客观评估
分类号: TN912.33
类　型: 博士论文
年　份: 2010年
下　载: 135次
引　用: 1次
阅　读: 论文下载

内容摘要

可视语音合成又称语音动画合成,是指根据给定的文本或语音,合成出与文本或语音相对应的脸部图像序列,加深人们对语言内容的理解。可视语音合成技术在人机交互、影视娱乐、信息对抗等领域有着重要的应用。本文提出了汉语大规模双模态语料库的设计方案和彩色噪声图像唇部提取方法,在此基础上,提出了多种真实感汉语可视语音合成方法,设计实现了一个以可视语音合成技术为核心的演示系统。实验结果证明本文的可视语音合成方法能够实时、精确、有效地达到信息欺骗等目标。本文的研究工作包括:针对人脸彩色噪声图像,提出了基于峰值趋势检测分割的唇部提取方法。峰值趋势检测分割方法由平行线投影分割算法和基于直方图的加权模糊聚类分割算法构成。平行线投影分割算法的核心思想是根据映射规则,将二维直方图转换为一维直方图,结合了二维直方图分割方法的准确性和一维直方图分割方法的实时性。实验结果证明该唇部提取方法的准确率高,能够为真实感汉语可视语音合成提供精确的唇部坐标信息,并用于语料库的唇部素材选取。提出了大规模汉语双模态语料库Bi-VSSDatabase的设计方案。制定了原始语料选取原则和组成文件的命名规则;提出了基于人工免疫混合聚类的口型特征参数聚类方法;建立了能够反映汉语协同发音现象的三视素模型,并据此提出双模态语料精选算法;设计了双模态语料标注及切分方法。对覆盖率、覆盖效率等统计指标进行计算,计算结果证明了Bi-VSSDatabase能够为真实感汉语可视语音合成提供真实准确、有广泛代表性的双模态语料。提出了三种语音驱动的可视语音合成方法:HMM模型状态合成方法、混合参数合成方法和双层HMM模型合成方法;提出了两种文本驱动的可视语音合成方法:基于HMM模型的方法和基于单元拼接的方法,设计了拼接单元搜索流程,定义了拼接单元的拼接规则。分别以汉语三视素和汉语动态视素作为训练与合成的基本单元。基于三视素的合成序列的主观满意度和客观评测结果都达到良好以上,证明了所提出的方法能够合成平滑、连续、令人满意的口型序列。针对口型序列与背景视频的缝合问题,提出了基于快速行进算法的唇部区域修补方法,合成了完整、自然、流畅的说话人视频。提出了一种基于改进乘积HMM的可视语音质量客观评估方法,能够模拟人们对说话人视频的视觉-听觉感知过程,并从客观角度给出评估结果。在评估过程中,比较分析了本文几种可视语音合成方法的质量,证明了可视语音合成技术能够极大地提高人们,尤其是听障人士对语音内容的理解能力。

全文目录

摘要  13-15
ABSTRACT  15-17
第一章绪论  17-36
  1.1 研究意义与研究背景  17-19
  1.2 可视语音合成研究方法综述  19-31
    1.2.1 人脸动画合成  19-23
    1.2.2 语音动画合成  23-30
    1.2.3 表情合成  30-31
  1.3 应用领域  31-32
  1.4 可视语音合成技术发展趋势  32-34
  1.5 本文的组织结构及创新点  34-36
第二章基于峰值聚类检测的彩色噪声图像唇部提取方法研究  36-62
  2.1 平行线投影快速分割算法  37-39
    2.1.1 含噪声图像直方图分析  37-38
    2.1.2 平行线投影分割PHist算法  38-39
  2.2 基于直方图的加权模糊聚类分割算法  39-41
  2.3 聚类趋势检验指导的分割方法  41-43
  2.4 彩色人脸图像唇部区域提取方法  43-44
  2.5 实验结果及分析  44-61
    2.5.1 传统的一维阈值分割方法与PHist阈值分割方法结果比较  44-47
    2.5.2 传统二维阈值分割方法与PHist阈值分割方法结果比较  47-49
    2.5.3 PHistFCM方法用于彩色唇部区域提取  49
    2.5.4 采用TendencyHist方法的噪声图像分割  49-57
    2.5.5 TendencyHist方法合理性讨论  57-59
    2.5.6 亮度及对比度对噪声分布的影响  59-61
  2.6 小结  61-62
第三章大规模汉语双模态语料库设计  62-87
  3.1 双模态语料库特点  62-65
    3.1.1 真实性  63
    3.1.2 代表性  63-64
    3.1.3 规范性  64
    3.1.4 多样性  64-65
  3.2 双模态语料库建库原则和流程  65-66
  3.3 原始语料选取  66-69
    3.3.1 语料范围  66-67
    3.3.2 语料年代  67-68
    3.3.3 语料库组成及文件命名规则  68-69
  3.4 基于口型特征的音素聚类  69-75
    3.4.1 口型特征参数提取  69-70
    3.4.2 C-均值聚类算法  70
    3.4.3 基于特征加权的模糊C-均值聚类算法  70-71
    3.4.4 基于人工免疫的混合聚类算法  71-72
    3.4.5 聚类结果比较  72-75
  3.5 基于汉语三视素的语料选取算法  75-83
    3.5.1 汉语连续语音三音素结构  75-76
    3.5.2 汉语三视素结构  76-78
    3.5.3 基于三视素的双模态语料选取算法  78-80
    3.5.4 语料选取结果与分析  80-83
  3.6 双模态语料录制条件  83-84
  3.7 双模态语料标注及切分  84-85
  3.8 小结  85-87
第四章语音驱动的汉语可视语音合成方法研究  87-120
  4.1 隐马尔可夫模型基本原理和参数  87-89
  4.2 隐马尔可夫模型基本算法  89-94
    4.2.1 前向-后向算法  89-91
    4.2.2 Viterbi算法  91-92
    4.2.3 Baum-Welch重估算法  92-93
    4.2.4 HMM反向算法  93-94
  4.3 基于隐马尔可夫模型的可视语音合成主要方法  94-96
  4.4 汉语动态视素  96-100
  4.5 语音驱动的基于HMM的可视语音合成  100-108
    4.5.1 语音特征参数提取  100-103
    4.5.2 HMM模型状态合成方法  103-104
    4.5.3 混合参数合成方法  104-107
    4.5.4 双层HMM模型合成方法  107-108
  4.6 实验结果  108-119
    4.6.1 HMM模型状态合成方法实验结果  109-113
    4.6.2 混合参数合成方法实验结果  113-116
    4.6.3 双层HMM模型合成方法实验结果  116-119
  4.7 小结  119-120
第五章文本驱动的汉语可视语音合成方法研究  120-142
  5.1 文本驱动的基于HMM模型的可视语音合成  120-122
  5.2 文本驱动的基于单元拼接的可视语音合成  122-128
    5.2.1 基于单元拼接的可视语音合成流程  122-123
    5.2.2 基于Viterbi算法的拼接单元搜索过程  123-125
    5.2.3 口型单元拼接规则  125-128
  5.3 唇部区域缝合及修补过程  128-131
    5.3.1 唇部区域与背景视频缝合过程  128-129
    5.3.2 用于修补的快速行进算法基本思想  129-130
    5.3.3 快速行进算法流程  130-131
  5.4 实验结果  131-140
    5.4.1 基于HMM模型的合成方法实验结果  131-134
    5.4.2 基于单元拼接的合成方法实验结果  134-137
    5.4.3 唇部区域与背景缝合及修补实验结果  137-140
  5.5 小结  140-142
第六章可视语音合成性能客观评估方法研究  142-151
  6.1 性能评估的意义及评估方法研究现状  142-143
  6.2 改进的乘积HMM模型  143-145
  6.3 利用GPD算法优化权重  145
  6.4 性能评估实验结果  145-150
    6.4.1 权重系数与瞬时SNR的关系  145-147
    6.4.2 权重系数对识别率的影响分析  147-148
    6.4.3 不同方案对识别结果的影响  148-149
    6.4.4 可视语音合成质量评估  149-150
  6.5 小结  150-151
第七章结束语  151-153
致谢  153-155
参考文献  155-165
作者在学期间取得的学术成果  165-167
作者在学期间参加的科研项目  167

真实感汉语可视语音合成关键技术研究

内容摘要

全文目录

相似论文