学位论文 > 优秀研究生学位论文题录展示

Blog文档的自动文摘方法研究

作 者: 苗家
导 师: 马军
学 校: 山东大学
专 业: 计算机系统结构
关键词: 文本自动摘要 Blog 评论 HITS
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 36次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着因特网的高速发展、信息爆炸时代的延展,人们对于信息的获取又有了新的需求。人们不再仅仅满足于由新闻媒体、信息门户等网络信息实体所展示的文章或多媒体信息,而是更加倾向于同网络中其他用户的信息交流、分享与互动。随着这种需求的不断增加,作为提供用户信息交流的WEB2.0信息实体的典型代表,Blog获得了广泛的关注与发展。由于Blog具有文章良莠不齐,评论噪声偏多的特点,如何结合Blog评论获取Blog文章的主要内容来给予读者一个简要的内容展示是许多基于Blog的应用所要面临的难题,而对面向Blog的自动文本摘要技术的研究为解决这个难题提供了一种思路。目前对于自动文本摘要技术的研究大多关注的是对单个文档或是属于同一主题下的多个文档的文本摘要技术,而对于特定交互式网络实体的相关文本摘要技术的研究较少。目前比较成熟的通用自动文本摘要技术大多对Blog文章的内容以及结构特点的理解与分析存在着偏差,生成的文本摘要的质量也不高。而在面向特定应用的自动文本摘要技术中Blog文章的处理方法也相对较少,而且效果相对较差。本文通过分析Blog的组成元素以及各元素之间的联系与特点,对面向Blog文章的自动文本摘要方法进行了研究,并提出了相对应的文本摘要方法,最后通过实验证明了该方法的有效性。本文的研究内容主要包括如下几个方面:1.提出了一些可以用于量化Blog相关元素重要性的特征。本文通过分析Blog各个组成元素的特点,提出了Blog统计特征、内容复杂度及观点独特性等可以量化相关元素重要性的特征。相关实验证明本文提出的几种量化特征能够有效的提高Blog文本摘要的质量2.提出了一种Blog评论排名以及噪声过滤的方法。在根据正文与评论的相关特征,通过相应的回归特征量化方法得出Blog评论重要度的基础上,设定噪声过滤阈值。通过相关实验证明这种重要度量化方法以及相应的噪声过滤方法能够有效的得到Blog评论的重要度并在过滤噪声时具有较高的查全率和查准率。3.提出了一种基于HITS图算法的正文句子排名方法。本方法中将正文句子和评论抽象为图节点,通过分析评论与正文的关系得出相应的链接图,最后根据HITS算法得出正文句子的排名情况。4.基于对以上几点问题的研究,本文提出了一种面向Blog文章的自动文本摘要方法。该方法具体工作流程包括Blog评论权重计算、评论噪声过滤、正文句子权重计算、摘要生成等步骤。通过在凤凰博报数据集上的实验证明,本方法茌ROUGE值上优于以往方法。

全文目录


摘要  8-10
Abstract  10-12
第一章 绪论  12-20
  1.1 研究背景和意义  12-14
  1.2 相关工作  14-18
    1.2.1 国内外研究现状  14-16
    1.2.2 自动文摘的组织、会议和评价  16-18
  1.3 本文工作  18
  1.4 本文组织结构  18-20
第二章 基础知识  20-25
  2.1 自动文本摘要的研究目标  20
  2.2 自动文本摘要方法的分类  20-21
  2.3 自动文本摘要方法的基本结构  21-22
  2.4 自动文本摘要方法的基本步骤  22-24
  2.5 专用文摘方法的研究  24-25
第三章 面向Blog的自动文摘  25-38
  3.1 Blog文章  25-28
    3.1.1 基本结构  25-27
    3.1.2 Blog文章特点  27-28
  3.2 本文方法简介  28-30
    3.2.1 Blog自动文本摘要算法描述  28-29
    3.2.2 Blog文档描述  29-30
  3.3 噪声处理  30
  3.4 评论权值计算  30-33
    3.4.1 特征选择  30-33
      3.4.1.1 特征选择相关工作  30-31
      3.4.1.2 Blog评论特征  31-33
    3.4.2 评论权值计算  33
  3.5 句子权值计算  33-35
  3.6 文摘生成  35-38
    3.6.1 K-means算法  36
    3.6.2 MMR算法  36-38
第四章 相关实验  38-43
  4.1 实验数据  38
  4.2 评价标准  38-39
  4.3 相关实验  39-43
    4.3.1 评论过滤阂值设定  39-40
    4.3.2 摘要算法实验  40-43
第五章 总结与展望  43-44
参考文献  44-50
致谢  50-51
攻读学位期间发表的学术论文目录  51-52
学位论文评阅及答辩情况表  52

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 基于SVM分类算法的主题爬虫研究,TP391.3
  3. 博客应用于中职英语阅读教学的研究,G633.41
  4. 中文产品评论观点抽取方法研究,TP391.1
  5. Volterra型算子在一些函数空间上的有界性与紧性,O177
  6. 英汉新闻评论中元话语使用之对比分析,H136
  7. 基于属性集合的产品评论挖掘研究,F274
  8. 都市类报纸评论周刊对政治民主化进程的促进作用分析,G212
  9. “网络评论专题”研究,G206
  10. 微博客营销信息的在线评论与转发对消费者态度的影响,F274;F224
  11. 基于博客的作者声誉度分析,TP393.092
  12. 基于意见挖掘技术的网购评论倾向性分析的研究与应用,TP393.09
  13. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  14. 基于BLOG平台的产品服务设计研究,TB472
  15. 音乐批评理论与实践及其相关问题评述,J605
  16. 从评价理论透析英语电影评论中态度的实现,H313
  17. 报纸近五届夏季奥运评论风格的分化与变迁,G212
  18. 网络新闻评论对传统新闻评论的突破与互动研究,G212
  19. 基于搜索引擎网页排序算法研究,TP391.3
  20. 双曲的Q_(T,s)空间及解析函数空间上的算子理论,O177
  21. 解析函数空间上的若干算子,O174

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com