学位论文 > 优秀研究生学位论文题录展示

主题自适应学术会议搜索系统

作 者: 孙正
导 师: 赵峰
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 学术会议搜索 支持向量机 向量空间模型 条件随机场
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


据不完全统计,每年在世界各地举办的国际学术会议的数量达到了1万多次,参会人次也有百万之巨,学术交流活动日益频繁。而且,学术会议的种类繁多,特点复杂,有的是一次性的会议,有的则是系列性的会议。面对数量庞大的研究者关于学术会议信息检索的急切需求,主要关注于文献检索的现有学术搜索引擎与数字图书馆已显得力不从心,难以满足用户的检索要求。Acrost是一个面向CFP(Call For Papers)的主题自适应学术会议搜索系统,它具有基于主题检索方式的特点,除了提供学术会议检索服务之外,它还具有投稿推荐特色服务。为了获取充足的数据源,系统使用了两种方式:(1)基于通用搜索引擎的方法,节省了大量的资源开销,采用支持向量机分类器过滤噪声信息;(2)基于向量空间模型的主题爬虫,定向地爬取学术会议网页。在获取了原始的学术会议网页之后,利用正则表达式与条件随机场分别对半结构化和非结构化网页进行信息抽取和实体识别,从而采集学术会议元数据。然后,利用Lucene对元数据建立倒排索引;同时,提出了一种基于增量层次聚类算法的主题发现方法,对用户上传的PDF文档进行解析并自动发现其所属主题领域。另外,系统中建立了一套基于学术影响因子的学术会议评价模型,其考虑的指标包括篇均被引用计数、论文录用率等。实验结果表明,Acrost系统的学术会议检索服务的召回率、准确率及F度量分别是84.8%、90.5%、87.6%;投稿推荐服务的召回率、准确率及F度量分别是60.8%、68.7%、64.5%;同时,Acrost系统能够快速地响应用户的服务请求。这表明,Acrost系统在相关性判定与运行速度方面都具备了较好的性能。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-20
  1.1 研究背景及意义  8-9
  1.2 国内外研究现状  9-17
  1.3 主要研究内容  17-18
  1.4 论文结构概述  18-20
2 Acrost 系统框架设计  20-28
  2.1 系统设计方案  20-21
  2.2 系统基本架构  21-25
  2.3 系统处理流程  25-26
  2.4 本章小结  26-28
3 Acrost 系统中网页与文本数据源的主题分析  28-44
  3.1 数据源发现  28-37
  3.2 元数据的抽取  37-41
  3.3 PDF 文档解析与主题发现  41-43
  3.4 本章小结  43-44
4 Acrost 系统的排序模型与相关性判定  44-50
  4.1 元数据的索引  44-46
  4.2 Lucene 排序与学术会议评价  46-47
  4.3 相关性判定  47-49
  4.4 本章小结  49-50
5 系统测试与结果分析  50-59
  5.1 测试集的构建  50-52
  5.2 测试环境  52-53
  5.3 功能测试  53-55
  5.4 性能测试  55-58
  5.5 测试结果分析  58
  5.6 本章小结  58-59
6 总结和展望  59-61
致谢  61-63
参考文献  63-68
附录 1 攻读学位期间参与的主要项目  68-69
附录 2 攻读学位期间申请的国家发明专利  69

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 音乐结构自动分析研究,TN912.3
  5. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  6. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  7. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  8. 基于停用词处理的汉语语音检索方法,TP391.1
  9. 基于图像的路面破损识别,TP391.41
  10. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  11. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  12. 不匹配信道下耳语音说话人识别研究,TN912.34
  13. 基于特征选择的入侵检测研究,TP393.08
  14. LS-SVM算法预测煤层瓦斯涌出量技术研究及应用,TD712.5
  15. 基于支持向量机的故障诊断研究,TH165.3
  16. 人类抗原肽载体结合力预测,R392.1
  17. 评价对象抽取研究,TP391.1
  18. 基于改进的支持向量机的模拟电路故障诊断方法研究,TN710
  19. 多肽结构表征及其在抗菌肽定量序效关系中的应用,Q51
  20. 基于SVM的说话人拒识策略的研究,TN912.34
  21. 基于支持向量数据描述的说话人识别研究,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com