学位论文 > 优秀研究生学位论文题录展示

面向开源社区的Web数据抽取与挖掘关键技术研究

作　者: 朱沿旭
导　师: 邹鹏
学　校: 国防科学技术大学
专　业: 计算机科学与技术
关键词: 开源软件开源社区 Web数据挖掘数据抽取信息网络分析软件自动分类资源搜索
分类号: TP391.1
类　型: 博士论文
年　份: 2011年
下　载: 100次
引　用: 0次
阅　读: 论文下载

内容摘要

开源社区又称为开放源代码社区，是一种由拥有共同兴趣爱好的人员组成的，根据相应的开源软件许可证协议公布源代码的平台。伴随着开源软件、互联网和Web技术的蓬勃发展，基于Web的开源社区已经成为互联网开源软件的数据和资源中心。开源社区中的Web数据蕴藏着丰富的关于软件的知识，挖掘这些知识对于了解软件结构、功能、复杂性、演化规律以及了解项目开发团队的组织、开发人员的配比合作关系等来说至关重要。然而，Web数据的规模庞大、高度异构、高度动态、受众广泛和信息丰度的特性对有效的数据获取和知识挖掘提出了巨大的挑战。在此背景下，本文按照数据获取、数据挖掘和知识应用的顺序，研究了四个核心问题，针对不同的研究问题提出了相应的解决方法；利用互联网开源社区的真实数据验证了方法的有效性。本文主要的研究工作和成果包括：（1）研究了单网页列表信息抽取问题，提出了基于缩进轮廓的单网页信息抽取算法。该算法首先定义了缩进轮廓模型，该模型是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构，是HTML文档的一种简化抽象，它在简化文档模型的同时保持了文档的重复模式；然后通过检测缩进轮廓中的串联重复波段来定位HTML文档中具有重复模式的代码段，最后利用经典的HTML解析方法抽取数据。实验结果表明，该算法在保证抽取精度的前提下提高了抽取效率。（2）研究了异构多网页信息抽取问题，提出了基于重复内容的异构多网页信息抽取算法。该算法首先构造一个由属性名和可枚举的属性值组成的种子集合，在目标网站的训练网页集合中查找种子属性值；然后，通过字符串匹配的方法定位每一个种子属性在目标网页中的位置，选择具有最大支持度的匹配位置作为抽取规则；最后，结合匹配位置和相对标签节点抽取每个种子属性在目标网站其他网页中的属性值。实验结果表明，该算法很好的利用了同领域不同网站之间数据重复的特性，利用同一个种子属性集合可以抽取异构的多个网站的实体属性值，相对于同领域的其他方法具有更高的效率。（3）研究了开发人员合作关系网络实体排序问题，提出了主题和时间敏感的实体排序算法。算法首先将合作关系网络按照合作主题进行投影，然后在经典的马尔可夫链随机游走模型中扩展了合作时间敏感的状态转移函数，最后根据迭代计算出的各节点排序值对实体进行排序。基于互联网开源社区合作关系数据的实验表明，该算法较传统算法更为精确，能够有效地支持面向不同技术主题、不同时间区间的实体排序，可以支持更细粒度的开发人员搜索应用。（4）研究了开源软件自动分类问题，提出了基于在线增量演化主题模型的软件自动分类算法。算法中，在线增量演化主题模型是在传统LDA主题模型和Gibbs抽样算法的基础上提出的，该模型按照时间单位以分片的方式在线增量式的建立软件文本流的主题模型；通过参数估计获得主题词汇分布和主题文本分布，每个主题由主题标号和核心词汇及分布概率组成，每个软件文本都以特定的概率分配到各个主题中；然后算法利用预设的主题词汇表和第三方词汇本体对主题进行语义标注，完成将每个软件文本分类到具有明确语义标签的主题类属中，实现对软件的自动分类。利用开源社区十年的软件文本数据对算法进行了测试，结果表明该算法分类精确度高于同类算法，同时对于判断主题聚类效果和分析主题演化规律也有很好的参考价值。该算法有力的支撑了按照主题分类搜索软件的应用。为了在实践中检验提出的方法，开发了互联网开源社区资源搜索平台INFLUX。INFLUX通过爬取全球开源社区的项目主页，利用数据抽取技术、数据集成技术将开源软件项目的各种属性信息归档并保存到本地的数据库；将该数据库与软件代码、软件开发过程数据等整合形成一个较为全面的开源软件信息资源库；根据不同实验或者应用的需要可以有针对性的对信息资源库的数据进行挖掘，挖掘的结果可以用于支持不同的应用服务。目前主要支持两个核心应用服务：开发人员搜索和软件资源搜索。开发人员搜索服务是利用合作关系网络实体排序值作为搜索结果的度量，将最满足搜索需求的开发人员尽可能的在靠前的结果中返回；软件资源搜索服务主要利用开源软件自动分类的结果，自动将软件划分到不同的功能类属中，方便用户按照类属以目录的方式浏览搜索软件；同时还支持新功能类属的发现，方便对软件的类属进行调整。综上所述，本文针对开源社区Web数据的特点，研究了开源社区Web数据抽取和数据挖掘的关键技术，提出并实践了新的算法，对于开源社区分析、互联网时代的软件技术具有重要的理论意义，同时对于开源软件搜索、开发人员搜索和软件主题演化等方面具有重要的应用价值。

全文目录

摘要  10-12
Abstract  12-15
第一章绪论  15-35
  1.1 研究背景  15-21
    1.1.1 基于 Web 的开源社区的流行  15-18
    1.1.2 开源社区 Web 数据挖掘的应用需求  18-20
    1.1.3 开源社区 Web 数据挖掘的挑战  20-21
  1.2 研究现状  21-28
    1.2.1 软件资源库挖掘技术  21-23
    1.2.2 Web 信息抽取技术  23-24
    1.2.3 Web 数据挖掘技术  24-26
    1.2.4 信息网络分析技术  26-28
  1.3 研究内容与研究成果  28-33
    1.3.1 本文的研究内容  28-31
    1.3.2 本文的研究成果  31-33
  1.4 论文结构  33-35
第二章基于缩进轮廓的单网页列表信息抽取算法  35-51
  2.1 引言  35-37
  2.2 相关工作  37-38
  2.3 缩进轮廓模型  38-43
    2.3.1 缩进轮廓和缩进波段  39-40
    2.3.2 串联重复波段  40-43
  2.4 缩进轮廓的串联重复波段挖掘算法  43-46
  2.5 数据区域的识别与信息抽取  46-48
  2.6 实验及结果分析  48-50
  2.7 本章小结  50-51
第三章基于重复内容的异构多网页信息抽取算法  51-71
  3.1 引言  51-53
  3.2 相关工作  53-55
  3.3 问题描述  55-57
  3.4 异构多网页信息抽取算法  57-64
    3.4.1 构建种子属性集合  58-59
    3.4.2 属性标注与定位  59-62
    3.4.3 属性抽取  62-64
  3.5 实验及结果分析  64-70
  3.6 本章小结  70-71
第四章开源社区开发者合作关系网络实体排序算法  71-91
  4.1 引言  71-73
  4.2 相关工作  73-74
  4.3 马尔可夫链上的随机游走模型  74-75
  4.4 主题和时间敏感的排序算法  75-80
    4.4.1 主题和时间敏感的合作关系网络模型  75-77
    4.4.2 主题时间函数  77-80
    4.4.3 TTS-Rank 算法  80
  4.5 实验及结果分析  80-88
    4.5.1 开发人员合作关系网络的网络属性  81-84
    4.5.2 试验过程及结果分析  84-88
    4.5.3 讨论  88
  4.6 本章小结  88-91
第五章基于在线增量演化主题模型的软件自动分类算法  91-127
  5.1 引言  91-95
  5.2 相关工作  95-98
    5.2.1 基于监督学习的软件自动分类  95-96
    5.2.2 基于非监督学习的软件自动分类  96
    5.2.3 文本主题发现与在线演化  96-98
  5.3 基于 LDA 的在线增量演化主题模型  98-112
    5.3.1 LDA 主题模型  98-100
    5.3.2 Gibbs 抽样  100-104
    5.3.3 在线增量演化主题模型  104-112
  5.4 开源社区软件自动分类与主题自动标注算法  112-114
  5.5 实验及结果分析  114-125
    5.5.1 数据集和实验方法  114-116
    5.5.2 实验结果及分析  116-125
  5.6 本章小结  125-127
第六章结论与展望  127-131
  6.1 本文工作总结  127-128
  6.2 下一步工作展望  128-131
致谢  131-133
参考文献  133-143
作者在学期间取得的学术成果  143-145
作者在学期间参与的科研项目  145-147
附录A INFLUX 平台  147-152
  平台设计背景  147
  平台系统结构  147-150
  平台目前的运转情况  150-152

面向开源社区的Web数据抽取与挖掘关键技术研究

内容摘要

全文目录

相似论文