数据挖掘分类算法的研究与应用
摘 要:随着现代信息技术的高速发展,各种各样的信息与数据呈现爆炸式的增长,数据库规模日益扩大。在没有外部工具的帮助下,人们很难从这庞大的数据量中找到有用的信息。庞大的数据背后,隐含着十分重要的信息,虽然随着传统的数据库系统的发展,人们已经可以方便地对数据进行录入、查询以及统计等操作,但也很难挖掘出这些数据背后隐藏的关联和规则信息,也就很难根据这些数据来对未来发展趋势做出可靠的预测,使大量的数据成为了冗杂数据,极大地掩盖了其本身的价值。
因此,在这大数据时代,数据挖掘技术应时而生。数据挖掘(Data Mining)是基于数据库的知识发现中的关键步骤,也就是从大量数据中提取知识,通常将其中的知识学习阶段称为数据挖掘。数据分类是数据挖掘中非常重要的分析技术,利用分类技术,能将数据集中的数据项映射到某一给定类别中,因此吸引了学术界和工业界的广泛关注,在政治、经济、交通、生活中都发挥了越来越重要的作用。目前,常用的数据挖掘分类算法主要有:统计分类法、贝叶斯分类法、决策树、人工神经网络方法等。不同的算法会产生不同的分类器,而不同的分类器又会影响数据挖掘的准确性与数据挖掘的效率。不同的算法也都有其各自的优点与缺点,因此,在面临数据量庞大的分类问题时,选择适当的分类算法是非常有必要的。
本文主要工作是对数据挖掘常见分类算法的研究以及在实际数据集上进行算法实验。本文将分类算法分为非集成学习算法与集成学习算法,针对实际应用中的分类问题,详细介绍了非集成算法中的支持向量机与BP神经网络算法,以及基于决策树分类器的集成学习xgboost算法,将这三种算法应用于三个真实的数据集,实现分类实验,并对实验结果进行比较分析。最终根据算法特性选择xgboost对网络新闻流行度进行分类与预测,形成主动智能决策支持系统。
关键词:数据挖掘;支持向量机;BP神经网络;xgboost算法;网络新闻流行度预测
- 绪论
(一)研究背景与意义
近年来,随着计算机技术、通讯技术、网络技术的飞速发展,以电子格式存储的数据和信息出现了急剧的增长。二十多年来,我们就像迷失在数据的森林里,据估计,信息量每10年翻一翻,数据库的数量和容量甚至增长得更快。这些日益增长的数据毫无疑问是有价值的资源,那么,我们如何去利用它们呢?人们己经认识到信息是商业运作的核心,决策者可以利用存储数据得到有价值的对其商业决策的支持。数据库管理系统可以存储数据但这只利用了数据价值的很小一部分。传统的在线处理系统(OLTP)擅长于把数据安全、快速、有效的导入到数据库中,但是并不长于对数据进行有意义的分析。分析数据可以获得在数据中隐藏的深入的知识。为此,人们提出了数据挖掘的概念:利用计算机技术从数据中抽取复杂的、以前没有发现的、有价值的信息称为数据挖掘[1]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。