学位论文 > 优秀研究生学位论文题录展示
语料处理软件的设计与实现
作 者: 程南昌
导 师: 海柳文
学 校: 广西民族大学
专 业: 语言学及应用语言学
关键词: 语料 检索 排序 函数 字频统计 词频统计
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 60次
引 用: 1次
阅 读: 论文下载
内容摘要
语料处理软件(HC2007YLCL)自从2006年初投入试用以来,经过多次修改和完善,已经相当成熟,本软件已经于2007年12月12日获得国家版权,本文对语料处理软件(HC2007YLCL)的设计与实现进行了阐述。用计算机作为工具,对语言进行研究和处理,这其实是文与理的一个结合。由于在阐述中要用到很多的程序方面的术语,对文中的大量函数的说明,全文力求通俗易懂。函数是程序中的一个重要的组成部分,本文在阐述的时候,主要以函数为线索。本文主要针对软件的六大功能进行阐述:一是对含有单个关键词语句子的检索和排序;二是对含有重叠形式词语句子的检索和提取;三是对多国语言(特别是小语种)语料的检索和提取;四是对成对出现词语的句子的检索和排序;五是字频统计与词频统计;六是检索后的再处理。此外,对软件在界面和提示语言方面,本文也作了简要的说明。
|
全文目录
摘要 3-4 ABSTRACT 4-8 1 引言 8-11 1.1 软件设计的目的 8 1.2 与本软件相关的研究现状及成果 8-11 1.2.1 自动检索 8-9 1.2.2 字频统计、词频统计 9 1.2.3 对含有重叠形式词语句子的检索和提取 9 1.2.4 小语种语料的检索和提取 9-10 1.2.5 对含有成对出现词语句子的检索和提取 10-11 2 程序在检索、排序方面的设计 11-34 2.1 程序设计前的准备工作 11-14 2.1.1 程序语言的选择 11 2.1.2 本程序中用到的几个重要概念 11-14 2.1.2.1 算法 11 2.1.2.2 算法的时间复杂度 11-12 2.1.2.3 算法的空间复杂度 12 2.1.2.4 排序技术 12 2.1.2.5 过程与函数 12-13 2.1.2.6 变量与常量 13 2.1.2.7 自定义函数和库函数 13 2.1.2.8 if 条件句中“与”运算和“或”运算 13 2.1.2.9 几个关键的变量 13-14 2.2 按用户指定的字符串检索句子并且排序 14-34 2.2.1 Findall 函数 14-15 2.2.2 getjuhao 函数 15-16 2.2.3 getqtbd 函数 16-17 2.2.4 getfree 函数 17 2.2.5 getthree、getfive 函数 17-18 2.2.6 extractjuhaolot 函数 18-21 2.2.7 在检索的语料后附上章节信息 21-23 2.2.8 检索并且排序 23-31 2.2.9 对多国语言的检索和提取 31-34 2.2.9.1 对英语语料的检索和提取 31-32 2.2.9.2 对其它国家的语言的语料的处理(特别是小语种语料) 32-34 3 对含有重叠词语句子的检索和提取 34-41 3.1 检索 AA 型重叠词语的句子 34-37 3.1.1 检索难度 34-35 3.1.2 检索过程 35-37 3.1.3 检索ABB 型重叠词语的句子 37 3.2 检索 AABB 型重叠词语的句子 37-38 3.3 检索 ABAB 型重叠词语的句子 38 3.4 检索 ANA 型重叠词语的句子 38-41 4 对含有成对出现词语句子的检索和提取 41-45 4.1 问题的提出 41 4.2 解决问题的思路 41 4.3 具体的实现过程 41-45 5 字频统计与词频统计 45-50 5.1 字频统计 45-49 5.1.1 字频统计过程 45-49 5.2 词频统计 49-50 6 检索后的再处理功能 50-54 6.1 把检索后的句子变成一行 50-51 6.2 Replaceall 函数 51-53 6.3 删除无效的语料 53-54 7 余论 54-59 7.1 本软件的主要特点 54-57 7.1.1 随机调用语料进行处理 54 7.1.2 具有亲和力的界面及丰富的提示信息 54-57 7.1.2.1 界面设计 54-55 7.1.2.2 丰富的提示消息 55-57 7.1.3 使用方便快捷 57 7.1.4 功能丰富、运行速度快 57 7.2 结语 57-59 参考文献 59-60 附录 60-137 附录一:本软件的国家版权证书 60-61 附录二:部分使用本软件的例子 61-62 附录三:软件使用说明书 62-71 附录四:本软件前七十页代码 71-137 致谢 137
|
相似论文
- 带有多项式基的径向点插值无网格方法的研究及应用,O241
- 煤制液体燃料过程中可弃型催化剂的设计与实验研究,TQ529.1
- 某武器系统效能评估方法研究,TJ06
- 辐射问题的球谐函数—离散坐标法研究,TK124
- 高中函数教学研究与实践,G633.6
- 地波辐射源的调制类型识别与参数估计,TN957.51
- 基于函数动态重用的处理器性能优化研究,TP332
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 基于内容的服装图像检索技术研究及实现,TP391.41
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 二维粗糙表面光散射特性模拟与实验研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 个性化检索中相似用户群的获取与更新,TP391.3
- 星载高光谱传感器模拟仿真系统研究,TP391.9
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于图像的路面破损识别,TP391.41
- 面向海量邮件的检索系统研究与实现,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|