C4.5决策树算法的综述
摘要:如今是一个大量数据汇集的时代,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘可以处理海量数据,获取的信息和知识可以应用于各种应用,因此得到广泛使用。现实生活中有许多问题需要进行分类,例如临床决策、生产制造、文档分析等很多数据处理的问题。决策树算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。可以解决很多生活中的分类问题。C4.5决策树算法运用信息论知识,计算出各组数据中每个属性的信息增益率的大小,通过比较选择信息增益率值最大的属性作为根节点,并将各属性中的不同元组作为分支到下一叶节点,再次计算各属性的信息增益率来选择下一叶节点,不断重复该步骤最终形成一棵决策树,由此可以判断所给的各组元素的所属类别。通过C4.5算法在实际中的应用实例,可以说明数据分类与实现预测的过程。
关键词: 数据挖掘;分类; 决策树算法;C4.5算法;ID3算法
一、背景介绍
大数据时代已经到来,对数据的处理越来越受到人们的关注,人们迫切需要海量数据背后的重要信息和知识,发现数据中存在的关系和规则,获取有用的知识,并且根据现有数据对未来的发展做出预测。
数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术,主要包括数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式将找出的规律表示出来。
二、决策树算法
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。