学位论文 > 优秀研究生学位论文题录展示
维吾尔语句子中词聚类及其汉维词对齐的研究
作 者: 谭勋
导 师: 吐尔根·依布拉音
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 词语长度特征 词形特征 K-Means聚类 GIZA++
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 20次
引 用: 0次
阅 读: 论文下载
内容摘要
词聚类和词对齐是跨语言自然语言处理领域的一个基本问题、至关重要的问题,许多基于双语语料库的应用(如SBMT、EBMT、WSD、词典编纂、双语教学)都需要词语的聚类和词语级别的对齐。维吾尔语属阿尔泰突厥语族,是使用阿拉伯字母为基础的维吾尔文。现代的维吾尔语很多都是在添加词缀的基础上构成的新词,其词义与原词词根词义相去不远。词聚类在自然语言处理领域是一个非常基本的问题,维语的词语聚类研究很少。因此本文分析了维吾尔语词语的结构特点,实现了词语长度特征和词形特征两种方法来进行相似度计算。本文重点研究利用维语的词语长度特征和维语的词形特征计算词语的相似度,从而改善词语聚类的准确率和召回率。在K-Means算法基础上,本文采用了基于维语词语长度的相似度计算方法和基于词形的相似度计算方法。基于词语长度的方法利用欧几里得距离计算词语的相似度,基于词形的相似度算法是在去掉维语词缀的基础上,利用两个维语词语相同字符数计算相似度。后者得到了更好的效果。最后,本文在词语聚类的基础上,改进了词对齐GIZA++的训练流程,词语对齐准确率得到提高。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-14 1.1 本文研究背景和意义 8-11 1.1.1 研究背景 8-10 1.1.2 研究意义 10-11 1.2 国内外研究现状 11-12 1.3 少数民族语言机器翻译研究的现状和意义 12-13 1.4 本文的研究内容和组织结构 13-14 第二章 词聚类的理论基础 14-23 2.1 词聚类与数据挖掘的关系 14-15 2.2 聚类问题的定义 15-16 2.3 聚类流程 16-17 2.4 聚类算法的分类 17-22 2.4.1 划分法 17-18 2.4.2 层次方法 18-20 2.4.3 基于密度的方法 20-21 2.4.4 基于网格的方法 21-22 2.4.5 基于混合聚类的算法 22 2.5 本章小结 22-23 第三章 维吾尔语句子中词聚类的研究 23-38 3.1 维吾尔语的词语基础 23-26 3.2 文本预处理 26-27 3.3 基于距离的相似度计算方法 27-30 3.3.1 引言 27-28 3.3.2 基于词语长度的待聚类词与基词的相似度计算 28-30 3.4 基于词形的相似度计算方法 30-31 3.4.1 概述 30 3.4.2 基于词形的的待聚类词与基词的相似度计算 30-31 3.5 本文使用的聚类算法 31-37 3.6 本章小结 37-38 第四章 汉维词对齐的研究 38-46 4.1 概述 38 4.2 词对齐研究现状 38-39 4.3 词对齐原理 39-40 4.4 词对齐实现 40-45 4.5 本章小结 45-46 第五章 实验与分析 46-49 5.1 评测方法 46-47 5.2 实验结果 47-49 第六章 总结与展望 49-50 参考文献 50-54 攻读学位期间的科研成果 54-55 致谢 55
|
相似论文
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
- 车牌识别中车牌定位技术的研究,TP391.41
- Web数据挖掘技术在网络教育论坛中的应用研究,G434
- Audio-only教育游戏中虚拟声定位的研究,G434
- 蛋白质名字识别系统的研究与实现,TP391.4
- 基于新闻评论数据的K-means聚类算法的研究,TP18
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- 基于蛋白质相互作用网络的聚类和稀疏点检测算法研究,TP301.6
- 聚类分析中的最佳聚类数确定方法研究及应用,TP311.13
- 客家方言特征词研究,H176
- 隐马尔可夫模型在基因调控网络建模中的应用,O211.62
- 基于高校复杂科研信息的数据仓库与知识发现应用研究,TP311.13
- 基于K-means聚类的企业客户价值分析研究,F274
- 改进的k-means聚类算法在图像检索中的应用研究,TP391.41
- SVDD算法研究及在信用卡欺诈检测中的应用,TP311.13
- 面向个性化服装定制的体型分析与智能修订,TS941.2
- 基于ITK的MR脑组织图像分割方法的研究,TP391.41
- 数据挖掘在沪市公司分类的应用,TP311.13
- Ad Hoc无线自组织网网络流量的研究,TN929.5
- 基于聚类的RBF-LBF串联神经网络的学习算法及其应用,TP183
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|