学位论文 > 优秀研究生学位论文题录展示

面向WI输入法的新词发现技术研究与实现

作 者: 周春波
导 师: 关毅
学 校: 哈尔滨工业大学
专 业: 计算机技术
关键词: 新词发现 输入法 最大流最小割 N元递增分步
分类号: TP391.14
类 型: 硕士论文
年 份: 2011年
下 载: 96次
引 用: 1次
阅 读: 论文下载
 

内容摘要


拼音输入法通过输入拼音串转换为汉字串,转换的准确率很大程度上取决于词典是否涵盖常用词汇,特别是一些新兴词汇。手工向词典中加入新词费时费力,而新词发现技术则从大规模文本中自动挖掘新词,具有自动化、易于发现热门词汇等特点。本文将探讨新词发现技术,并将挖掘出来的新词添加到输入法词典中以期提高输入法的音字转换准确率。本文首先探讨了两类新词的挖掘方法:情感词以及商品词。在情感词挖掘中,本文提出基于最大流最小割原理的迭代中文情感词挖掘方法,实验结果显示,基于该思想在挖掘主观词方面具有较强能力,其性能高于传统的基于统计模型的主观词挖掘方法;在商品词挖掘中,本文选择用户在购物网站上的搜索日志作为发现商品词的数据来源,并根据搜索日志的数据特点,在对用户查询(query)的自然分词基础上,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。最后,本文介绍了针对“苹果”公司iOS平台的输入法开发的相关流程,并展示了新词发现技术在WI输入法中发挥的重要作用。WI输入法是哈尔滨工业大学计算机学院语言技术中心网络智能研究室研发的一款面向苹果平台的中文语句级输入法。它的第一个版本于2010年11月11日发布,目前已有用户12万以上,其输入的准确性、流畅性等获得了用户的广泛好评。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-18
  1.1 课题来源及研究意义  8-9
  1.2 新词的定义及分类  9-10
  1.3 国内外研究现状  10-16
    1.3.1 基于规则的新词发现方法  10-11
    1.3.2 词语情感倾向性分析  11-14
    1.3.3 规则和统计相结合的新词发现方法  14-16
  1.4 本文的内容组织  16-18
第2章 基于最大流最小割原理的迭代中文情感词挖掘研究  18-30
  2.1 引言  18-19
  2.2 相关模型  19-21
    2.2.1 最大熵模型  19-20
    2.2.2 最大流最小割原理  20-21
  2.3 基于最大流最小割的迭代中文情感词挖掘  21-28
    2.3.1 构建情感词典  21-23
    2.3.2 情感词分类  23-24
    2.3.3 构建词的加权无向图  24-28
  2.4 实验与分析  28-29
    2.4.1 数据  28
    2.4.2 实验结果与分析  28-29
  2.5 本章小结  29-30
第3章 基于N 元递增分步算法的商品词发现  30-37
  3.1 商品词的概念  30-31
    3.1.1 商品词的特点  30-31
    3.1.2 商品词的作用  31
  3.2 商品词发现的任务  31
  3.3 商品词发现处理的数据  31-32
  3.4 商品词发现的方法  32-35
    3.4.1 商品词发现的方法概述  33
    3.4.2 日志的预处理  33-34
    3.4.3 候选词的挖掘  34-35
  3.5 结果评价  35-36
    3.5.1 评价方式  35-36
    3.5.2 评价结果  36
  3.6 本章小结  36-37
第4章 新词在WI 输入法中的应用  37-47
  4.1 iOS 系统介绍  37-43
    4.1.1 各个层的功能及其包含的组件和框架  37-40
    4.1.2 iOS 上开发软件的限制  40-41
    4.1.3 iOS 上应用程序开放环境介绍  41-43
  4.2 iOS 中文输入法开发的重点难点  43-44
    4.2.1 iOS 上两类输入法的区别  43-44
    4.2.2 iOS 中文输入法开发的难点  44
    4.2.3 iOS 中文输入法开发的重点  44
  4.3 新词在WI 输入法中的应用  44-45
    4.3.1 加入情感词对音字转换精度的影响  45
    4.3.2 加入商品词对音字转换精度的影响  45
  4.4 本章小结  45-47
结论  47-48
参考文献  48-53
攻读硕士学位期间发表的论文及其它成果  53-55
致谢  55

相似论文

  1. 基于Web的领域词典构建技术研究,TP391.1
  2. 基于图割理论的图像匹配问题研究,TP391.41
  3. 嵌入式GUI用户输入模块的设计与实现,TP391.41
  4. 基于Android平台的智能手机输入法研究与设计,TP391.14
  5. 网络编码及其在P2P文件共享系统中应用的研究,TP393.02
  6. 基于AVR的RFID阅读器和应答器的设计研究与实现,TP391.44
  7. 基于小键盘的汉字输入法研究与设计,TP391.14
  8. 分级网络编码算法研究,TP393.01
  9. 一种基于ARM和Linux的专用嵌入式手持设备的研究与构建,TP368.12
  10. Windows Mobile平台下手机智能输入法实现方法研究,TP391.14
  11. 基于SCIM架构的输入法的设计与实现,TP391.14
  12. 卫星通信手持机网控接口协议及应用系统的设计与实现,TP368.12
  13. 试论“元”汉字及其教学,H193.2
  14. 基于CHMM模型的手机中文输入方案及实现,TP391.14
  15. 双码三笔汉字输入法的设计与实现,TP391.14
  16. BBS论坛敏感信息发现与识别技术,TP393.09
  17. 基于条件随机场模型的新词发现系统研究与实现,TP391.1
  18. 音字转换评测体系的研究与实现,TP391.1
  19. PocketPC手机输入法软件设计与实现,TP391.14
  20. 无字库智能造字系统在计算机上的实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理 > 文字录入技术
© 2012 www.xueweilunwen.com