问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

通俗易懂的讲解奇异值分解(SVD)和主成分分析(PCA)

创作时间:

2025-01-22 01:09:38

作者:

@小白创作中心

通俗易懂的讲解奇异值分解(SVD)和主成分分析(PCA)

奇异值分解（SVD）和主成分分析（PCA）是机器学习和数据科学领域中非常重要的概念，它们在降维、推荐系统、自然语言处理等领域都有广泛的应用。本文将从特征分解开始，逐步介绍SVD和PCA的基本概念、数学原理及其应用，帮助读者深入理解这两个重要的数学工具。

特征分解

首先，我们简单回顾下特征值和特征向量的定义。在几何学中，矩阵可以看作是一种线性变换，而特征向量就是在这个变换下只发生伸缩，方向不变的非零向量，伸缩的比例就是特征值。

对称矩阵的特征分解

对称矩阵的特征分解具有特殊的意义，因为对称矩阵的特征向量是正交的，这使得对称矩阵的特征分解具有很多优良的性质。

奇异值分解（SVD）

定义

奇异值分解（Singular Value Decomposition，SVD）是线性代数中一种重要的矩阵分解方法，它可以将一个任意的m×n矩阵分解为三个矩阵的乘积：

A = UΣV^T

其中，U和V是正交矩阵，Σ是一个对角矩阵，其对角线上的元素称为奇异值。

奇异值求解

奇异值可以通过求解矩阵A的转置与A的乘积的特征值来获得，具体来说，矩阵A的奇异值是矩阵A^TA的特征值的平方根。

实际计算奇异值

在实际计算中，通常使用数值方法来求解SVD，例如QR算法、Lanczos算法等。

特征值分解和奇异值分解的区别

特征值只能作用在一个m×m的正方矩阵上，而奇异值分解则可以作用在一个m×n的长方矩阵上。
奇异值分解同时包含了旋转、缩放和投影三种作用，奇异值分解公式中U和V都起到了对A旋转的作用，而Σ起到了对A缩放的作用。特征值分解只有缩放。

主成分分析（PCA）

主成分分析（Principal Component Analysis，PCA）是一种常用的降维方法，它通过寻找数据的主成分（即数据方差最大的方向）来实现降维。PCA可以看作是SVD在数据特征提取上的应用。

SVD在机器学习中的应用

SVD在机器学习领域有广泛的应用，包括但不限于：

降维算法：通过保留最大的几个奇异值来实现降维。
推荐系统：通过矩阵分解来预测用户对物品的评分。
自然语言处理：在词向量表示、主题模型等领域都有应用。

数学基础

矩阵和正交向量

正交向量：若两向量，它们的点积为0，则它们互相称为正交向量，如（1，1，0）和（1，-1，0）。

正交矩阵

正交矩阵是一个方阵，其行向量和列向量都是单位正交向量。

SVD的实现

在Python中，可以使用numpy库的linalg.svd函数来实现SVD。该函数的参数含义如下：

a：待分解的矩阵。
full_matrices：是否返回完整的U和V矩阵，默认为True。
compute_uv：是否计算U和V矩阵，默认为True。

PCA与SVD的关系

PCA可以看作是SVD的一个特例。在对数据矩阵进行SVD分解后，通过保留最大的几个奇异值和对应的左奇异向量，就可以实现PCA的降维效果。

如上图所示，黑点是数据点，那么长的那个红箭头就是数据最主要的方向，也就是最显明/差异最明显的特征。求法就是对于所有数据，找出vi使得数据在vi方向上的方差最大，而且vi要满足与v1~v(i-1)张成的空间正交。

热门推荐

视觉冲击力：提升PPT档次的设计技巧

视觉冲击力：提升PPT档次的设计技巧

防摔蚊帐与普通蚊帐的区别？

防摔蚊帐与普通蚊帐的区别？

Windows蓝屏错误：IRQL_NOT_LESS_OR_EQUAL停止原因

Windows蓝屏错误：IRQL_NOT_LESS_OR_EQUAL停止原因

耳朵内壁结了一层白色的东西怎么办？

耳朵内壁结了一层白色的东西怎么办？

耳朵内壁结了一层白色的东西，可能是这些原因

耳朵内壁结了一层白色的东西，可能是这些原因

2024年电工杯赛后复盘总结

2024年电工杯赛后复盘总结

应急疏散示意图的编制与布置

应急疏散示意图的编制与布置

楼花是什么？

楼花是什么？

除了性和爱，这四样东西才是感情长久的关键

除了性和爱，这四样东西才是感情长久的关键

网红经济现象解析：四个维度的深度探讨

网红经济现象解析：四个维度的深度探讨

肠梗阻怎么检查出来

肠梗阻怎么检查出来

误工费要怎么认定

误工费要怎么认定

土耳其签证有效期和停留时长背后的那些事儿

土耳其签证有效期和停留时长背后的那些事儿

【深度科普】史上最复杂的探测器嫦娥六号，如何采取人类首份月背样品？

【深度科普】史上最复杂的探测器嫦娥六号，如何采取人类首份月背样品？

职场新人必看！如何巧妙化解尴尬的误会

职场新人必看！如何巧妙化解尴尬的误会

全网最全深度还原：马航MH370号航班和飞机上239人的失踪之谜

全网最全深度还原：马航MH370号航班和飞机上239人的失踪之谜

大掃除丨5個簡單環保清潔法！讓你輕鬆告別頑固油煙漬還原靚廚房

大掃除丨5個簡單環保清潔法！讓你輕鬆告別頑固油煙漬還原靚廚房

网购假中药案件：法律适用与市场监管的深度剖析

网购假中药案件：法律适用与市场监管的深度剖析

苹果电脑什么配置能带动pr pe这类软件

苹果电脑什么配置能带动pr pe这类软件

如何建立有效公司团队协作机制

如何建立有效公司团队协作机制

浅谈租借法案对二战东线影响

浅谈租借法案对二战东线影响

315打假晚会事件中的消费者权益保护与企业责任探讨

315打假晚会事件中的消费者权益保护与企业责任探讨

“科技股七巨头”盈利增速料放缓美股或将出现剧烈波动

“科技股七巨头”盈利增速料放缓美股或将出现剧烈波动

自制蒸肉米粉：美味粉蒸排骨的关键

自制蒸肉米粉：美味粉蒸排骨的关键

今天起，洗澡请调整一下！

今天起，洗澡请调整一下！

初中化学实验的意义

初中化学实验的意义

怎么看基金走势图

怎么看基金走势图

后脑勺疼痛要警惕的三种病症有哪些

后脑勺疼痛要警惕的三种病症有哪些

服务器硬盘采用RAID技术有哪些优势和潜在风险？

服务器硬盘采用RAID技术有哪些优势和潜在风险？

WiFi的频段、信道与宽带：无线网络配置的关键参数

WiFi的频段、信道与宽带：无线网络配置的关键参数

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号