资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

pandas之DataFrame使用

创作时间:

作者:

@小白创作中心

pandas之DataFrame使用

引用

CSDN

https://m.blog.csdn.net/lixiao2112924629/article/details/137570002

DataFrame是pandas中常用的数据结构，用于处理表格型数据。本文将详细介绍DataFrame的创建方法、属性、索引方式以及一些常用函数，帮助读者快速掌握其使用技巧。

1. 介绍DataFrame

DataFrame是pandas中的表格型数据结构，可以理解为xlsx中的表格；它含N个有序的列，每一列可以是不同的值类型（数值、字符串、布尔型值），也可以理解为由Series组成的字典（Series是padas中一种基础数据结构，理解为表格中的一列）；此外DataFrame是一个二维的数据结构，也可以看成是二维的数据，结构如图所示（图片来源菜鸟教程）：

其中

Index:表示索引值，就是行标签，默认值为0,1,2....；
Column-i；表示列标签，默认值为0,1,2...

2. 如何创建DataFrame

首先需要了解pd.DataFrame( data, index, columns, dtype, copy)构造方法

data：一组数据(list, dict, ndarray, series等类型)。
index：用于指定行标签。
columns：用于指定列标签。
dtype：数据类型。
copy：拷贝数据，默认为 False。

1）通过列表创建

指定行标签

import pandas as pd
def main():
    data = [[1, 2, 3], ['Google', 'Meta', 'Apple']]
    index = ['idx', 'name']
    df = pd.DataFrame(data, index=index)
    print(df)

指定列标签

import pandas as pd
def main():
    data = [['Google', 1], ['Meta', 2], ['Apple', 3]]
    col = ['name', 'id']
    df = pd.DataFrame(data, columns=col)
    print(df)

2）通过字典创建

字典的key对应表格的列名，value对应每个列中存在的值。

import pandas as pd
def main():
    data = {'name': ['Google', 'Meta'], 'idx': [1, 2]}
    df = pd.DataFrame(data)
    print(df)

3）使用numpy中数组来创建

numpy中数组就是类似的二维数组，可以使用行标签指定，也可以使用列标签指定

import pandas as pd
import numpy as np
def main():    
    ndarray_data = np.array([
        ['Google', 1],
        ['Meta', 2],
        ['Apple', 3]
    ])
    idx = [0, 1, 2]
    df = pd.DataFrame(ndarray_data, index=idx)
    print(df)

3. DataFrame的属性

df.shape
用于返回 DataFrame对象的维度信息（形状），即行数和列数。返回包含行数和列数的元组。

import pandas as pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 使用 df.shape 获取 DataFrame 的维度信息
shape = df.shape
# 打印结果
print("DataFrame 的维度信息：", shape) # （3,3）

df.columns
用于获取列名
df.index
用于获取索引

4. DataFrame索引元素方式

Pandas 使用 loc 属性返回指定行和列的数据，从0开始计数

指定行号和列号访问元素

import pandas as pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 选择第二行第三列的元素
element = df.iloc[1, 2]
# 打印结果
print(element)

使用切片，选择连续的多行或多列数据

import pandas as pd
def main():
    data = {'A': [1, 2, 3],
            'B': [4, 5, 6],
            'C': [7, 8, 9]}
    df = pd.DataFrame(data)
    target = df.iloc[:2, :2]
    print(target)

使用列表，选择多行或多列数据

import pandas as pd
def main():
    data = {'A': [1, 2, 3],
            'B': [4, 5, 6],
            'C': [7, 8, 9]}
    df = pd.DataFrame(data)
    target = df.iloc[[0, 2], [1, 2]]
    print(target)
main()

使用列索引名称来，获取数据

import pandas as pd
def main():
    data = {'A': [1, 2, 3],
            'B': [4, 5, 6],
            'C': [7, 8, 9]}
    df = pd.DataFrame(data)
    target = df.iloc[0]['A']
    print(target)

5. 常用的一些函数

df.dropna()
用于删除表格中包含缺失值的行
df.dropna(axis=1)
用于删除表格中指定列中包含缺失值的行
df.fillna(value=0, inplace=True)
对于DataFrame中缺失的值，还可以根据值进行填充
df.sort_values(by='column_name', ascending=True)
根据指定的列名排序表格,默认为升序排序

import pandas as pd
def main():
    data = {'A': [1, 2, 3],
            'B': [7, 3, 1],
            'C': [7, 8, 9]}
    df = pd.DataFrame(data)
    target = df.sort_values(by='B')
    print(target)
main()

df.sample()
用于从DataFrame中随机抽取样本。默认情况，可以返回指定数量的随机样本的DataFrame。

import pandas as pd
# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)
# 从 DataFrame 中随机抽取两个样本
sample = df.sample(n=2)
# 打印结果
print(sample)

df.sample()
方法还支持其他参数，例如
frac
（指定要抽取的样本占原始数据的比例）、
replace
（是否允许重复抽样）。

pd.concat()
Pandas中用于合并数据的函数，可以沿着指定的轴将多个DataFrame或者Series对象连接起来。
沿着行进行数据合并，因此合并的两个对象在Series上一致。

import pandas as pd
# 创建两个示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9],
                    'B': [10, 11, 12]})
# 使用 pd.concat() 连接两个 DataFrame，并为每个 DataFrame 添加一个层次化索引
result = pd.concat([df1, df2], keys=['df1', 'df2'])
# 打印结果
print(result)

沿着列进行合并，因此合并的两个对象在行数上一致。

import pandas as pd
# 创建两个示例 DataFrame
df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})
df2 = pd.DataFrame({'C': [7, 8, 9],
                    'D': [10, 11, 12]})
# 使用 pd.concat() 沿列轴连接两个 DataFrame
result = pd.concat([df1, df2], axis=1)
# 打印结果
print(result)

df.Series_name.value_counts()
计算DataFrame中某个Series中每个唯一值的出现次数

import pandas as pd
import numpy as np
def main():
    data = {'A': [1, 2, 3],
            'B': [7, 3, 1],
            'C': [7, 8, 9]}
    df = pd.DataFrame(data)
    target = df.B.value_counts()
    print(target)

实际应用中，DataFrame中还有很多方法没有介绍，根据需要边用边查。

热门推荐

情绪状态的分类：今天，你微笑了吗？