学位论文 > 优秀研究生学位论文题录展示
缅文Web文本挖掘技术研究及实现
作 者: 寸待杰
导 师: 刘韶涛
学 校: 华侨大学
专 业: 计算机应用技术
关键词: 缅文信息检索 向量空间模型 Okapi K-means 层次聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 2次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来缅甸国内计算机和网络的应用越来越普及,国内很多人都使用互联网获取信息。随着缅甸国内互联网的发展,应用缅文的网站也日益增加,网上存在的缅文信息量也不断的膨胀。如何从这些复杂的信息集合里面能够快速、有效的找到所需要的信息是目前缅甸国内正在面临的一个巨大的困难。由于国内经济科学发展较慢,很多技术都还没有达到成熟的阶段,还在发展的过程。国内对数据挖掘这一方面还没有进行过深入的研究,技术方面也还未成熟。所以对缅文文本挖掘方面带来了一种新的挑战。本文对缅文Web文本挖掘方面进行充分的研究。首先简述介绍了Web文本挖掘的研究背景、研究目的、研究意义以及国内外研究现状,分析了缅文语言的一些特征,以及它们对文本挖掘方面带来的一些难题。然后阐述了所提出来的缅文单字分割算法、缅文词干提取算法、缅文停用词、改进的缅文文本聚类算法等。我们分析了这些算法,把它们应用在缅文中,对缅文文本挖掘方面进行充分的研究。本文最后设计并实现了基于以上算法的缅文文献检索系统和缅文文本聚类系统。对缅文Web文本进行Html标签处理、缅文单字分割处理、提取词干、过滤停用词后使用向量空间模型作为文本的表示,使用Okapi相似度评测方法计算缅文文档与查询关键词之间的相关性。经过文献检索实验,测试结果表明所提出来的算法能够快速、有效的挖掘Web上的HTML文档。经过文本聚类的实验,测试结果表明改进后的聚类算法在稳定性、精确性和可靠性方面都有较大的改善和提高。
|
全文目录
摘要 3-4 Abstract 4-8 第1章 引言 8-14 1.1 课题研究背景、研究目的和意义 8-9 1.2 国内外研究现状 9-11 1.3 论文主要研究内容 11-12 1.4 论文组织结构 12 1.5 本章小结 12-14 第2章 Web 挖掘概述 14-24 2.1 Web 挖掘概述 14-16 2.1.1 Web 数据挖掘定义 14 2.1.2 Web 数据挖掘分类 14-16 2.2 Web 文本挖掘定义 16-19 2.2.1 Web 文本挖掘工作流程 16-17 2.2.2 Web 文本挖掘的常用方法 17-18 2.2.3 Web 文本结构分析 18-19 2.3 Web 文本挖掘关键技术 19-21 2.3.1 Web 文本处理 19 2.3.2 分词处理 19-20 2.3.3 文本特征表示 20-21 2.4 本章小结 21-24 第3章 缅文语法概述 24-34 3.1 缅文语法结构 24-28 3.1.1 缅文语法层次 24 3.1.2 缅文句子 24-28 3.2 缅文词的特定功能 28-31 3.2.1 普通词 28 3.2.2 复合词 28-29 3.2.3 外来词 29 3.2.4 下标词 29-31 3.3 缅文网页的字体和编码 31-32 3.4 本章小结 32-34 第4章 基于内容挖掘的缅文 Web 文本检索研究及实现 34-46 4.1 信息检索概念 34 4.2 缅文单字分割算法、词干提取算法与相关步骤 34-42 4.2.1 Html 文档处理 34 4.2.2 标点符号处理 34-35 4.2.3 缅文单字分割算法 35-38 4.2.4 缅文词干提取算法 38-40 4.2.5 缅文停用词处理 40-41 4.2.6 向量空间模型和相关性计算 41-42 4.3 缅文 Web 文本检索系统体系结构 42-43 4.4 实验过程与实验分析 43-45 4.4.1 缅文文献检索系统实验评估 44-45 4.5 本章小结 45-46 第5章 缅文 Web 文本聚类研究及实现 46-54 5.1 文本聚类概念 46-47 5.1.1 Web 文本聚类工作流程 46-47 5.2 文本聚类相关算法 47-48 5.2.1 层次聚类 47 5.2.2 划分聚类 47-48 5.3 缅文文本聚类算法及相关步骤 48-51 5.3.1 文本预处理 48-49 5.3.2 Web 文本特征表示 49-50 5.3.3 缅文文本聚类算法 50-51 5.4 缅文文本聚类系统体系结构 51-52 5.5 实验过程与实验分析 52-53 5.5.1 缅文文本聚类实验系统评价 52-53 5.6 本章小结 53-54 第6章 总结与展望 54-58 6.1 论文总结 54-55 6.2 未来展望 55-58 参考文献 58-60 致谢 60-62 个人简历、在学期间发表的学术论文和研究成果 62
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- K-means聚类优化算法的研究,TP311.13
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 对于系统发育谱法聚类算法的改进,TP311.13
- 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
- 中文人名跨文档指代消解研究,TP391.1
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 基于纹理特征的图像分类研究,TP391.41
- 复杂网络社团结构探测研究,O157.5
- 基于聚类算法的银行卡客户分类分析系统的设计与实现,TP311.52
- 基于DEA模型的我国R&D投入产出效率评估研究,G322
- 面向消费者感性需求的手持GPS设计探讨,TN967.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 最小最大模块化支持向量机数据划分及其应用研究,TP311.13
- 车牌识别中车牌定位技术的研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|