CART算法综述
摘要:随着信息技术的发展,特别是互联网的发展和信息量的爆炸性增长,信息的重要性与日俱增。如何有效地获取有用的互联网信息与知识,是数据挖掘的目标所在。数据挖掘的主要任务有分类、聚类、回归分析、关联规则发现等。分类是其中非常重要的任务,分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即所说的分类器。实现分类任务的方法有统计学方法、机器学习方法等等,其中机器学习中的决策树方法是目前重点研究方向。CART算法是决策树算法的一种,它在机器学习领域中有着重要的地位。CART通过学者Morgan和Sonquist到Breiman等人的不断研究,目前已经在社会上应用广泛。分类与回归树(Classification and Regression Trees, CART)算法于1984年被提出,是分类数据挖掘算法的中一种,可处理无序或顺序的类属性数据,也能够处理多态的数据值或高度倾斜数据。CART应用广泛,在信用风险、定向营销、市场经济建模、质量控制、图像压缩和临床医学等研究领域发展迅速。当在新数据上用CART算法进行分类时,还可以用替代属性来处理缺少的值。随着社会的需求,CART算法会在未来社会发展中起到至关重要的作用。
关键词:数据挖掘; CART算法; 分类;决策树
一、数据挖掘
在“数据爆炸但知识贫乏”的网络时代,人们希望能够对其进行更高层次的分析,以便更好的利用这些数据,数据挖掘技术应运而生,并显示出强大的生命力。20世纪末,数据挖掘技术在发达国家工业界如雨后春笋般地发展起来。如今,数据挖掘技术正在不断的完善,而且应用的领域十分广泛。
与传统的数据分析不同,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息具有事先未知,有效性和实用性三个特征。它是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。
数据挖掘已在银行、金融、零售、医药、通信、电子工程、航空、旅馆等具有大量数据和深度分析需求的易产生大量数字信息的领域得到广泛应用,并带来了巨大的社会效益和经济效益。数据挖掘已广泛应用与各个领域,它既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。将数据挖掘用于企业信息管理,虽然面临着很大的挑战和许多亟待解决的问题,但我们有充分的理由相信,这些问题将随着各应用领域的信息话推进逐步得到解决,数据挖掘的应用前景十分乐观。
二、决策树算法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。