学位论文 > 优秀研究生学位论文题录展示
Web旅游信息集成中的信息融合研究
作 者: 杨莉
导 师: 万常选
学 校: 江西财经大学
专 业: 计算机应用技术
关键词: Web旅游信息集成 文本分类 实体识别 文本相似性度量
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
自从数字化信息时代的到来,我国传统旅游业的发展紧跟时代的步伐,各大旅游网站在Web上如雨后春笋般不断涌现。然而,正是如此多的网站,导致众说纷纭,极易出现数据不一致现象;并且,用户的需求多种多样,而一个网站的数据量往往有限,致使需求得不到满足。因此,为了满足广大用户需求,向用户提供一个可以全面展现旅游景点信息的查询平台,并且可以应用于现有旅游网站或者旅游信息终端机等领域,本文对Web上已有的旅游信息进行集成,旨在构建更全面的旅游信息集成系统。首先,本文利用爬虫工具从百度百科、中国旅游网、欣欣网、驴妈妈网、驴评网抓取各种文本信息,并完成去除文本中的标签、网络格式符等数据清洗工作,以及分词、词性标注、字段抽取等预处理工作,构建数据集;其次,对从百度百科中采集的文本进行分类处理,区分出景点及其相关文本;再次,识别景点数据间的不一致现象,应用实体识别技术解决现存的同名不同景、、同景不同名问题,使得景点数据更加完备与统一;最后,由于存在多个文本描述同一景点,并且这些文本内容又时有交叠,为了在用户眼前呈现一个完整、可读的文本,本文在文本相似性度量的基础上,删除相似文本片段,并将不相似文本进行融合,从而形成信息面更广的介绍文本。在此,本文主要做了如下贡献:(1)结合Web抓取文本内容的特点,利用特征词权重对文本进行向量表示,提出了一种基于特征词权重的文本分类算法;(2)针对旅游景点的实体识别,来自不同数据源的实体集区别对待,并且使用交叉验证进一步提高实体识别的精准性;(3)提出一种为文本融合服务的文本相似性度量方法,依据段落中的名词,计算文本段落间以及段落与文本间的共同相似性,进而融合不同的文本。
|
全文目录
摘要 7-8 Abstract 8-9 1 绪论 9-16 1.1 研究背景和意义 9-10 1.2 旅游网站现状 10-12 1.3 本文主要研究内容 12-14 1.4 论文的结构安排 14-16 2 相关技术简介 16-20 2.1 文本分类 16-17 2.2 实体识别 17-18 2.3 文本相似性度量 18-19 2.4 本章小结 19-20 3 基于特征词权重的文本分类 20-33 3.1 引言 20 3.2 相关工作 20-22 3.3 文本分类算法 22-29 3.3.1 特征选择算法简介 24-26 3.3.2 特征词类相关性计算 26-27 3.3.3 文本类相关性计算 27-29 3.4 实验评测 29-32 3.4.1 实验数据 29-30 3.4.2 实验结果及评测 30-32 3.5 本章小结 32-33 4 基于属性匹配的相同景点识别 33-47 4.1 引言 33-34 4.2 实体识别研究现状 34-35 4.3 景点实体识别 35-45 4.3.1 实体属性提取 35-36 4.3.2 实现思路及框架 36-38 4.3.3 基于属性对的景点识别实现 38-42 4.3.4 交叉验证 42-44 4.3.5 实验结果及分析 44-45 4.4 本章小结 45-47 5 基于内容相似性的景点介绍文本融合 47-58 5.1 引言 47 5.2 研究现状 47-49 5.3 文本融合方法 49-56 5.3.1 总体思路及框架 49-51 5.3.2 相似性度量方法选取 51-54 5.3.3 阈值确定及实验结果 54-56 5.4 本章小结 56-58 6 总结与展望 58-60 6.1 工作总结 58-59 6.2 工作展望 59-60 参考文献 60-65 作者在攻读硕士期间发表的论文 65 作者在攻读硕士期间参与的课题 65-66 致谢 66
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 集合多标签文本分类研究,TP391.1
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于Hadoop的文本分类研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 基于内容的垃圾邮件过滤技术的研究,TP393.098
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 基于图模型的中文小样本文本分类研究,TP391.1
- 文本分类算法的研究与改进,TP391.1
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 本地搜索领域POI缩略词词典的研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|