利用差分法优化非平稳时间序列

创作时间:

作者:

@小白创作中心

利用差分法优化非平稳时间序列

引用

来源

https://www.atyun.com/65569.html

有些时间序列数据遵循明确的趋势或模式，这使得准确建模变得困难。大多数统计方法都假设数据是平稳的，即序列的平均水平和波动性随时间保持不变。但现实世界的数据很少如此配合。温度上升、经济增长、需求周期上下波动。如果不调整这些趋势，模型就会出现偏差。

解决这个问题的最简单方法之一是差分。我们不是使用原始值，而是将每个观测值减去它之前的那个观测值。这样可以消除趋势，使数据更加稳定。

观察差分的效果

为了说明这一点，考虑一个具有明显上升趋势的时间序列。它持续攀升，显然需要进行某种转换。第一步是一阶差分，即将每个值减去它之前的那个值。这将线性趋势拉平，形成一个更稳定的序列。如果趋势更复杂——是弯曲的而不是直线的——那么一次差分就不够了。可能需要对一次差分后的序列再次应用相同的操作，即进行二次差分。

继续这个过程，最终数据将不再呈现趋势，而是在一个恒定水平附近波动。这时你就知道已经达到了平稳序列。

需要多少次差分？

差分的步数取决于原始趋势的形状。

稳定的线性趋势需要一次差分。
弯曲的二次趋势需要两次差分。
更复杂的趋势可能需要三次或更多次差分。

一旦序列变得平稳，你就可以应用诸如ARIMA等统计模型。这些模型在处理趋势数据时效果不佳，但处理平稳序列则完全没问题。

一个现实世界的例子：全球温度异常

让我们将差分应用于一个真实的数据——1880年至2020年的全球地表温度异常。这个数据集由美国宇航局戈达德太空研究所收集，测量的是地球温度偏离历史基线的程度。

步骤：

绘制原始数据图——原始时间序列显示出一个明显的变暖趋势。
应用一次差分——这可以消除线性趋势，但可能仍保留一些结构。
应用二次差分——如果需要，这可以消除任何剩余的模式，留下一个平稳序列。

import pandas as pd  
import matplotlib.pyplot as plt  

# Load the dataset  
url = 'https://data.giss.nasa.gov/gistemp/tabledata_v4/GLB.Ts+dSST.csv'  

# Read the dataset and skip the first row to ensure correct formatting  
df = pd.read_csv(url, skiprows=1)  

# Rename columns for convenience  
df.rename(columns={'Year': 'Year', 'J-D': 'Temperature Anomaly'}, inplace=True)  

# Convert temperature anomaly column to numeric, forcing errors to NaN  
df['Temperature Anomaly'] = pd.to_numeric(df['Temperature Anomaly'], errors='coerce')  

# Drop rows with missing values  
df.dropna(inplace=True)  

# Ensure the Year column is also numeric  
df['Year'] = pd.to_numeric(df['Year'], errors='coerce')  

# First differencing  
df['First Difference'] = df['Temperature Anomaly'].diff()  

# Second differencing  
df['Second Difference'] = df['First Difference'].diff()  

# Create figure and subplots  
fig, axes = plt.subplots(3, 1, figsize=(10, 12), sharex=True)  

# Original time series  
axes[0].plot(df['Year'], df['Temperature Anomaly'], color='black')  
axes[0].set_title('Global Surface Temperature Anomalies (1880-2020)', fontsize=12)  
axes[0].set_ylabel('Temperature Anomaly (°C)', fontsize=10)  

# First differencing plot  
axes[1].plot(df['Year'], df['First Difference'], color='black')  
axes[1].set_title('First Difference of Global Temperature Anomalies', fontsize=12)  
axes[1].set_ylabel('First Difference (°C)', fontsize=10)  

# Second differencing plot  
axes[2].plot(df['Year'], df['Second Difference'], color='black')  
axes[2].set_title('Second Difference of Global Temperature Anomalies', fontsize=12)  
axes[2].set_xlabel('Year', fontsize=10)  
axes[2].set_ylabel('Second Difference (°C)', fontsize=10)  

for ax in axes:  
    ax.spines['top'].set_visible(False)  
    ax.spines['right'].set_visible(False)  
    ax.grid(False)  

plt.tight_layout()  
plt.savefig("global_temp_anomalies_analysis.png")  
plt.show()