Python主成分分析（PCA）使用scikit-learn库

作者：搬砖的石头2024.02.17 00:47浏览量：11

简介：本文将介绍如何使用Python的scikit-learn库进行主成分分析（PCA），并通过实例展示如何输出主成分。

在Python中，主成分分析（PCA）是一种常用的降维技术，它可以用于数据分析和特征提取。scikit-learn库提供了PCA的实现，使得我们可以方便地进行PCA操作。

首先，我们需要导入所需的库和模块：

import numpy as np
from sklearn.decomposition import PCA

接下来，我们可以使用PCA类来创建PCA对象，并设置所需的参数。在scikit-learn中，PCA类的参数包括n_components（要保留的主成分数量）和whiten（是否对数据进行白化处理）。

pca = PCA(n_components=2, whiten=True)

现在，我们可以使用fit_transform方法对数据进行PCA处理。假设我们有一个名为X的数据集，它是一个形状为(n_samples, n_features)的NumPy数组。

X_pca = pca.fit_transform(X)

fit_transform方法将返回一个形状为(n_samples, n_components)的NumPy数组，其中包含PCA处理后的数据。

如果我们需要了解PCA处理后的数据的主成分，我们可以使用components属性。components属性返回一个形状为(n_components, n_features)的NumPy数组，其中包含每个主成分的系数。这些系数表示原始特征对主成分的贡献程度。

components = pca.components_

我们可以将components数组绘制成图形，以便更好地理解主成分。例如，我们可以使用matplotlib库绘制一个散点图，其中x轴表示原始特征的系数，y轴表示相应的主成分。在散点图中，我们可以看到每个主成分的方向和解释的方差量。

import matplotlib.pyplot as plt
plt.scatter(X[:, 0], X[:, 1], c='r', marker='o')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Scatter plot of principal components')
plt.show()

此外，我们还可以使用explained_variance_ratio属性来了解每个主成分解释的方差比例。explained_variance_ratio属性返回一个形状为(n_components,)的NumPy数组，其中包含每个主成分解释的方差比例。这些比例可以帮助我们了解每个主成分的重要性。

explained_variance = pca.explained_variance_ratio_

最后，我们可以通过将原始数据投影到PCA处理后的数据来恢复数据的主成分。这可以通过使用inverse_transform方法来实现。假设我们有一个名为X_original的原始数据集，它是一个形状为(n_samples, n_features)的NumPy数组。

X_original = pca.inverse_transform(X_pca)

现在，X_original数组包含原始数据的主成分。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

Python主成分分析（PCA）使用scikit-learn库

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者