学位论文 > 优秀研究生学位论文题录展示
面向语言学研究的大规模汉语语料库全文检索技术与开发
作 者: 郑仲光
导 师: 荀恩东
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 语料库 全文检索 查询
分类号: H08
类 型: 硕士论文
年 份: 2009年
下 载: 60次
引 用: 0次
阅 读: 论文下载
内容摘要
当今的语言学研究和语言教学,语料库扮演了越来越重要的角色。语料库是大规模自然语言文本的集合,它蕴含着语言的特征及规律。采用语料库的研究方法,可以更好地发现潜在的语言规律;通过语言实例,对语言规律进行验证。FTST(Full Text Search Tool for Linguistic Research)系统就是以辅助语言学研究和语言教学为目的而开发的全文检索系统,FTST可以对大规模(G级别)的语料建立索引,FTST的索引结构采用的是Pat数组结构,并且利用多路归并合并索引文件,因此具有良好的建立索引效率和查询效率。此外,FTST还支持增量索引,以方便用户可以动态地扩充语料库,减少不必要重复索引过程。在检索方面,FTST提供了包含检索表达式的检索功能,并支持带有通配符的检索,使系统的应用更为灵活。此外,FTST还支持二次检索,方便用户进行对检索结果的过滤。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-12 1.1 工作的意义 7 1.2 国内外的相关工作 7-11 1.3 FTST的解决方法 11 1.4 FTST的创新性工作 11-12 第二章 系统结构及字索引的建立 12-33 2.1 FTST系统结构 12 2.2 Document模块的实现 12-13 2.3 Index模块采用的主要算法和数据结构 13-18 2.4 Index模块建立字索引的过程 18-20 2.5 索引归并 20-30 2.6 增量索引 30-33 第三章 检索模块的主要算法和数据结构 33-43 3.1 FTST检索模块的结构 33 3.2 字符串表达式的检索 33-37 3.3 基项字符串的检索算法 37-39 3.4 带有通配符的字符串检索 39-41 3.5 二次检索 41-43 第四章 总结 43-45 4.1 FTST的特点 43 4.2 今后的工作 43-45 参考文献 45-46 致谢 46
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的查询处理研究,TP311.13
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 动态环境下移动对象导航系统相关技术的研究,TP301.6
- 边防军分区信息管理系统设计与实现,TP311.52
- 一种自适应选择处理节点的时空查询算法,TN929.5
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 矿区多源遥感影像集成管理系统的设计与实现,P208
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
- 不确定数据及相关性表示性实时概率查询处理,TP311.13
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 云存储中大规模加密小文档存储管理研究与实现,TP333
- 多媒体个性化建模与检索,TP391.3
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 英语学术论文标题的短语学特征研究,H313
- 列存储数据仓库中的查询重写关键技术的研究与实现,TP311.13
中图分类: > 语言、文字 > 语言学 > 应用语言学
© 2012 www.xueweilunwen.com
|