学位论文 > 优秀研究生学位论文题录展示
中文文档内容相似度检测方法研究
作 者: 徐德玉
导 师: 许建潮
学 校: 长春工业大学
专 业: 计算机应用技术
关键词: 中文文档 相似度 检测
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 209次
引 用: 0次
阅 读: 论文下载
内容摘要
中文文档内容相似度检测方法的研究一直是中文信息处理中的一项基础性技术,尤其在信息大爆炸的时代,无论是检测抄袭还是查找内容类似的文档都需要用到该项技术。近年来,随着中文文档处理技术以及相似度计算算法的发展,为相似度检测方法的研究提供了很好的基础。不过,至今仍然没有一个公认的算法能够达到令人满意的程度。本文研究的范围是中文文档内容的相似度检测。文档的相似度检测一直是一个难点,它和传统的针对单一对象的相似度检测不同。文档可以说是许多对象的集合,这些对象结合在一起就出现了很多不确定因素。对单个对象的相似度计算可以作为计算文档相似度的技术之一,但是不可能用来准确的计算中文文档的相似度。文章中首先对传统相似度计算的一些相关技术进行了综述。本文选用的文档是网上新闻。网上新闻取材简单,内容丰富,具有中文文档的典型特征。文中详细分析了中文文档的一些特性,通过分析特性找到了相似度检测的关键问题。文章中对这些问题进行了一一的分析,并在此基础上给出了问题的解决办法,给中文文档的相似度计算提供了一套方案。然后,文章中给出了相似度评价标准,这个标准是通过对大量相似度检测模型分析,依据中文文档特性得出的。在文章的最后,通过对30组各种相似级别的文章进行相似度计算,来验证本文的相似度检测模型,进一步论证了其有效性。本文在多种相似度计算方法的基础上,对文档各部分的特点进行深入的分析,综合运用这些技术,以达到提高相似度计算准确度的目的。文章最后大量的实验结果表明,该方法确实达到了检测文档内容相似度的目的。
|
全文目录
摘要 2-3 ABSTRACT 3-6 第一章 绪论 6-9 1.1 课题背景 6 1.2 国内外研究现状 6-8 1.3 本文的研究内容与组织结构 8-9 第二章 中文文档处理及相似度计算方法 9-21 2.1 分词 9-10 2.2 文档的表示 10-13 2.3 基于语义理解的相似度计算 13-16 2.4 基于统计学的相似度计算 16-21 第三章 相似度检测的关键问题及方法分析 21-28 3.1 中文文档特征分析 21 3.2 文档检测的关键问题 21-24 3.3 相似度检测方法分析 24-28 第四章 中文文档相似度评价模型 28-37 4.1 构造模型的难点 28-29 4.2 文档相似性 29-30 4.3 文档相似度计算模型 30-37 第五章 实验与总结 37-42 5.1 实验 37-41 5.2 总结 41-42 结论 42-43 致谢 43-44 参考文献 44-47 攻读硕士学位期间研究成果 47-48
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于句法特征的代词消解方法研究,TP391.1
- 多币种纸币处理技术的研究与实现,TP391.41
- 面向嵌入式超声检测系统的图形接口设计与应用,TP274.53
- 移动机器人视觉检测和跟踪研究,TP242.62
- 拟南芥胱硫醚-γ-合成酶(D-AtCGS)基因在大肠杆菌中的表达及抗血清制备,Q943.2
- 一种老年人移动健康监护系统的研究,TN929.5
- 基于表面增强拉曼光谱技术的鼻咽癌与胃癌检测方法研究,R739.63
- 油菜田日本看麦娘的抗药性研究,S451.2
- 猪瘟病毒和猪2型圆环病毒基因芯片检测技术研究,S858.28
- 江苏省小型拖拉机性能指标的检测与调查,S219.07
- 湖羊早期妊娠诊断免疫胶体金层析试纸条的初步研制,S858.26
- 合肥市手足口病流行状况及高危人群危险因素分析,R725.1
- 基于计算机视觉的脱水蒜片检测与分级研究,TP391.41
- 动态心电监护系统及心电信号处理方法的研究,TH772.2
- 基于运动目标轨迹分析的智能交通监控系统,TP277
- 生丝扁平度电子检测方法的探索与分析,TS147
- 鸡白痢沙门氏菌的分离鉴定及微量平板凝集抗原的制备,S858.31
- 基于视频的运动目标检测与跟踪方法应用研究,TP391.41
- 基于机器学习的入侵检测系统研究,TP393.08
- 在役化工容器壁面检测机器人的机械本体研究,TP242
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|