大数据分析算法与实践文献综述

 2022-08-26 17:06:51

Kmeans聚类算法文献综述

摘要:聚类是数据挖掘中非常重要的一个分支,用于发现数据中包含的未知信息。聚类分析研究有着长久的历史,几十年来,聚类的重要性以及它与其他研究领域的交叉特性得到了人们的肯定。随着聚类分析技术的迅速发展以及应用的不断扩展,聚类分析越来越成为数据挖掘中一个引人关注的研究课题。K-means聚类算法是最常见的聚类算法之一。因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛应用。但它同时存在一些缺陷和不足,例如聚类数目K 值需事先给定、聚类结果对初始聚类中心的选取敏感、易陷入局部最优解、难以发现球状簇以外其他形状的簇、对孤立点数据敏感等。在 K-均值聚类算法的发展过程中,为了弥补它的缺陷和不足,研究人员提出了各种各样的有效改进措施。

关键词:数据挖掘; 聚类; K-means; 改进措施

1.序论

1.1时代背景

近年来,随着计算机科学和信息技术的高速发展,在银行、保险业、移动通信、生物技术、金融投资等行业每天都会有数以千计万计的数据在产生,大型数据库的应用,以及数据库的应用范围和深度在不断扩大,大数据时代已经到来。在这些海量的数据中蕴含了各种各样的光凭人的直觉与经验无法获取的重要信息。人们面临的主要问题不再是缺乏信息可以利用,而是如何从众多的资源数据中发现有用的信息,在数据分析的基础上进行科学探索、医学研究或者企业管理等。在此基础上,数据挖掘和信息发现技术应运而生,并得以蓬勃发展,显示了其强大的生命力。

数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘就是从大量的数据中揭示出其隐含的、先前未知的并且具有潜在利用价值的信息的过程。本文将介绍数据挖掘中非常重要的一个分组聚类算法分析。

1.2聚类的定义和主要研究的问题

聚类问题是普遍存在于众多领域的基本问题,如数据挖掘、模式识别、机器学习等。近年来,随着聚类分析技术的迅速发展以及应用的不断扩展,聚类分析越来越成为数据挖掘中一个引人关注的研究课题。

1.2.1聚类的定义

聚类[1]就是“将数据分成许多类簇,其中一个类簇内的实体是相似的,不同类簇间的实体是不相似的;一个类簇是测试空间中点的会聚,同一个类簇的任意两个点间的距离小于不同类簇的任意两个点间的距离;类簇可以描述为一个包含密度相对较高的点集的多维空间的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(类簇)相分离。”

聚类问题的数学描述[2]为:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。