问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

使用可视化进行探索性数据分析

创作时间:
作者:
@小白创作中心

使用可视化进行探索性数据分析

引用
1
来源
1.
https://www.atyun.com/65753.html

在数据科学项目中,探索性数据分析(EDA)是一个不可或缺的环节。通过可视化手段,我们可以更直观地理解数据的分布、关系和异常情况。本文将介绍五种常用的EDA可视化方法,并推荐一些实用的工具和技巧。

什么是 EDA?

EDA 是数据科学工作流程的一部分,其全部目的是了解你的数据。这是深入挖掘以发现模式、发现异常、检验假设和发现模式的步骤,如下图所示。

这一切都在你做出任何假设或构建模型之前完成。

为什么可视化在 EDA 中至关重要?

俗话说,“一图胜千言”。不管是不是陈词滥调,视觉效果确实能帮助我们一目了然地了解数据所讲述的故事。它们使我们更容易识别趋势、异常值和变量之间的关系。相信我,盯着一排排的数字是不一样的。

EDA 可视化类型

让我们探索一下你的 EDA 工具包中应该具备的一些主要可视化类型。

1.散点图

散点图非常适合用于检查两个连续变量之间的关系。例如,如果你正在分析学习时间与考试成绩之间的关系,散点图可以帮助你了解学习时间越长是否与考试成绩越高相关。

它是一款出色的工具,可以轻松确定数据中是否存在异常值;只需画一条趋势线即可。在此示例中,你会看到一个异常值被标记为红点。

2.直方图

直方图显示单个变量的分布情况。它们非常适合了解数据的分布和集中趋势。例如,如果你正在查看调查对象的年龄,直方图可以显示年龄分布。

当想要查看分布的尾部时,直方图会很有帮助,这使得截断数据或重新分割数据变得更加容易。在该示例中,上限为 58.50。

3.箱线图

箱线图或箱须图非常适合总结数据集的分布情况并识别异常值。它们显示数据中的中位数、四分位数和潜在异常值。与直方图不同,它们在并排比较多个组的分布时特别有用。

从例子中我们可以看出,每个组都有一个异常值;他们的年龄分别为 60 岁、70 岁和 80 岁。

4. 条形图

对于分类数据比较,条形图是清理和准备数据时的首选。想要比较不同产品类别的销售额?条形图就可以了。这也是识别缺失数据的最佳图表。看一眼这张图表,你就会发现“家居和厨房产品类别”和“玩具”类别中没有数据,因此你可以调查一下。

5.热图

热图非常适合以矩阵形式可视化数据。它们对于显示数据集中变量之间的相关性特别有用。颜色强度可帮助你快速发现强关系。

在这个例子中,能见度和湿度是高度相关的。另一方面,温度-能见度、风速降水量和风速-能见度变量之间没有相关性。此外,你可以看到也存在一些负相关性,例如,湿度和温度之间。

创建可视化的工具

有许多工具可以创建这些可视化效果,每个工具都有自己的优势。一些流行的包括:

  • Python 数据可视化库(Matplotlib、seaborn、Plotly) ——非常适合绘制详细且定制的图表
  • ggplot2 for R — 非常适合创建复杂的多层图形
  • BI 工具(Tableau和Power BI) ——适用于交互式和可共享的仪表板
  • Excel — 简单但有效的基本可视化

有效可视化的实用技巧

  1. 保持简洁:避免杂乱。图表越清晰,越容易理解。
  2. 标记清晰:确保轴、标题和图例标记清晰。
  3. 使用合适的颜色:颜色应该增强效果,而不是分散注意力。使用适合数据的调色板。
  4. 保持一致:在视觉效果中使用相同的样式和配色方案,以保持专业外观。

结论

可视化是 EDA 工具库中的一个强大工具。最常见的是:

  • 散点图
  • 直方图
  • 箱线图
  • 条形图
  • 热图

它们不仅能帮助你更好地理解数据,还能更有效地传达你的发现。

文章来源:https://medium.com/@nathanrosidi/using-visualizations-for-your-exploratory-data-analysis-d111aa422954

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号