主成分分析算法实现与加速方法的研究文献综述

 2023-08-15 14:49:19

文献综述(或调研报告):

一般的数据挖掘方法在处理高维数据时会遇到“维灾”的问题,许多挖掘算法的计算复杂度将随着维数的增加呈指数增长而非线性增长[1]。因此高维数据的降维是有效地实施数据挖掘的前提。主要的降维算法分为线性降维算法和非线性降维算法,线性降维算法主要有主成分分析(Principal Component Analysis,PCA)、线性判别式分析”(Linear Discriminant Analysis,LDA)等。

主成分分析(PCA)是一种广泛使用的用于降维的数学技术,它通过识别较少数量的线性不相关变量(主要成分)来解释数据集中发现的变化而起作用[2]。主要思想是将高维数据投影到较低维空间,提取多元事物的主要因素,揭示其本质特征。主成分分析的应用范围非常广泛,经常和分类、聚类,以及与其他方法连用进行数据处理。它可以高效地找出数据中的主要部分,将原有的复杂数据降维,去除整个数据中的噪音和冗余[3]

PCA是一种统计分析方法,它将原来众多具有一定相关性的多个指标,重新组合成一组新的互相无关的综合指标。它是一种最小均方意义上的最优变换,目的是去除输入随机向量之间的相关性,突出原始数据中的隐含特性[4]。PCA方法的优势在于数据压缩以及对多维数据进行降维,它操作简单,且没有参数限制,可以方便的应用于各个场合。它经常被用于人脸识别和图像压缩、特征提取等领域,是在高维数据中寻找模式的一种技术。

PCA算法概述

PCA降维的一般步骤是求取样本矩阵的协方差矩阵,计算协方差矩阵的特征值及其对应的特征向量,由选择出的特征向量构成这个投影矩阵[5]

PCA算法的输入是一个矩阵XNtimes;B,协方差CBtimes;B = Xttimes;X,其中N是每个图像中的像素,B是向量空间[6]

然后,该算法通过以下步骤来获得以较小维度表示的输出矩阵YNtimes;L(L lt;B):

  1. 协方差矩阵的奇异值分解:C = USigma;UT ;
  2. 按降序对奇异值和向量进行排序:Us = Sort(Sigma;,U);
  3. 基于奇异值累积能量的主成分选择:EBtimes;L = Select(Sigma;s,Us);
  4. 输入数据到新向量空间的投影:Y = Xtimes;E

为了选择主成分的数量,使用以下步骤。

首先,计算排序后的奇异值的总能量TE1:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。