主成分分析(PCA)是一种以统计分析手段简化数据集的技术,其核心在于通过降维,将多个变量转化为几个主要成分,这些成分能反映原始数据的绝大多数信息,并通常表现为原始变量的线性组合。

主成分分析:揭秘16种常用数据分析方法的核心应用

PCA广泛应用于降低数据维度,同时维持数据集中对方差贡献最大的特征。这一过程是通过保留较低阶的主成分,而忽略较高阶的主成分来实现的,因为较低阶的成分往往包含了数据最关键的信息。

卡尔皮尔逊在1901年发明了主成分分析,用于数据分析及构建数理模型。该方法通过对协方差矩阵进行特征分解,以确定数据的主成分(特征向量)及其权值(特征值)。

主成分分析的目的在于:

1. 降低变量维度;

2. 对主成分进行解释(在主成分具有明确意义的情况下)。

此方法从众多特征中提炼出主要成分,不仅减少了模型训练的计算量,同时在不显著降低模型质量的前提下提升了效率。

如图所示,样本点到红色向量的距离被称作投影误差。以从二维到一维的投影为例,PCA的目标是找到一条直线,使得所有特征向该直线的投影误差最小,从而保留原特征的信息。由于PCA仅保留了特征的主成分,它是一种有损压缩方式。

PCA分析的步骤一般包括:

1. 根据研究问题选择初始分析变量;

2. 判断是基于协方差矩阵还是相关矩阵来求解主成分;

3. 求解协方差矩阵或相关矩阵的特征值和相应的标准特征向量;

4. 判断是否存在多重共线性,若存在,则重新选择变量;

5. 确定主成分的表达式和数量,并选择主成分;

6. 利用主成分对研究问题进行分析并深入探讨。

PCA旨在用少数几个不相关的变量替代大量相关的变量,同时最大限度地保留初始变量的信息,这些变量被称为主成分,是观测变量的线性组合。

主成分分析法有其优缺点:

优点:

- 消除评估指标间的相互影响;

- 减少指标选择的工作量;

- 主成分按方差大小排列,可舍弃部分主成分以减少计算量。

缺点:

- 需要保证提取的前几个主成分的累计贡献率达到较高水平,且这些主成分必须有实际意义;

- 主成分的含义可能不如原始变量明确;

- 当主成分因子负荷的符号既有正又有负时,综合评价函数可能意义不明确。

以下是一个主成分分析的案例:

某公司经理计划招聘一名员工,要求该员工具备高度的工作积极性、自主性、热情和责任感。为此,设计了一份包含25个问题的测试问卷,用以从315名应聘者中筛选出最佳候选人。这些问题分别测量工作积极性、自主性、热情和责任感。问卷结果经过汇总整理后,分析者希望将多个变量归纳为几项信息进行分析,即降低数据维度。进行主成分提取前,需要满足两项假设:观测变量是连续变量或有序分类变量,且变量之间存在线性相关关系。

接下来,介绍了如何使用SPSS软件进行主成分分析的步骤,包括数据输入、统计选项选择、提取方法、旋转方法、得分保存和选项设置等。

通过SPSS输出的相关矩阵表,可以判断变量间的线性相关关系。研究结果显示,各变量间的相关系数均大于0.3,表明变量间具有线性相关关系,满足假设2。KMO检验系数为0.833,表明数据结构良好,满足主成分提取的要求。单独对各变量的KMO检验结果显示,各变量的KMO值均大于0.7,满足假设2。

Bartlett's检验的P值小于0.001,拒绝零假设,表明研究数据适合进行主成分提取。

在结果解释部分,公因子方差、提取的主成分和强制提取的主成分三个方面被进行分析。通过SPSS输出的公因子方差结果,可以看到每个变量对应的成分数。提取的主成分结果显示,第一主成分包含最多的数据变异,第二主成分次之,以此类推。根据特征值的大小,保留前五个主成分,因为第六个主成分的特征值小于1。

最终结论是,通过主成分分析,研究了315名应聘者在25个问题上的工作能力。研究变量间存在线性相关关系,数据结构合理,适合进行主成分提取。提取的前四个主成分累计解释了59.9%的数据变异,反映了应聘者的工作积极性、自主性、热情和责任感。