波士顿房价预测：线性回归模型实战指南

创作时间:

2025-01-22 01:32:06

作者:

@小白创作中心

波士顿房价预测：线性回归模型实战指南

引言

在数据科学领域，波士顿房价数据集是一个广为人知的经典案例。它不仅被广泛应用于机器学习算法的教学和实践，还是检验新算法效果的重要基准。本文将通过波士顿房价数据集，详细讲解如何使用线性回归模型进行房价预测。

数据准备

波士顿房价数据集包含了506个样本，每个样本包含13个特征和1个目标变量（房价中位数）。这些特征包括：

CRIM：城镇人均犯罪率
ZN：住宅用地超过25,000平方英尺的比例
INDUS：城镇非零售商业用地比例
CHAS：查尔斯河虚拟变量（如果靠近河流则为1，否则为0）
NOX：一氧化氮浓度
RM：住宅平均房间数
AGE：1940年之前建造的自用房屋比例
DIS：到波士顿五个就业中心的加权距离
RAD：放射性高速公路可达性指数
TAX：每10,000美元的全值财产税率
PTRATIO：城镇师生比例
B：1000(Bk - 0.63)^2，其中Bk是城镇中黑人比例
LSTAT：人口中地位低下者的比例

目标变量是MEDV，即自住房的中位数价格（以千美元计）。

在Python中，我们可以使用sklearn库轻松加载这个数据集：

from sklearn.datasets import load_boston

boston = load_boston()
print(boston.DESCR)  # 查看数据集描述

模型构建

数据预处理

在构建模型之前，我们需要对数据进行预处理。这包括将数据集分为训练集和测试集，以及对特征进行标准化处理。

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

特征选择

虽然数据集中有13个特征，但并非所有特征都对房价有显著影响。我们可以使用特征选择方法来挑选最重要的特征。这里我们使用递归特征消除（RFE）方法：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

model = LinearRegression()
rfe = RFE(model, n_features_to_select=5)
fit = rfe.fit(X_train, y_train)

print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

假设RFE选择了以下5个特征：RM、LSTAT、DIS、CRIM和AGE。

模型训练

现在我们可以使用选定的特征来训练线性回归模型：

X_train_selected = X_train[:, fit.support_]
X_test_selected = X_test[:, fit.support_]

model = LinearRegression()
model.fit(X_train_selected, y_train)

模型评估

模型训练完成后，我们需要评估其预测效果。常用的评估指标包括均方误差（MSE）、均方根误差（RMSE）和决定系数（R²）。

from sklearn.metrics import mean_squared_error, r2_score

y_pred = model.predict(X_test_selected)

mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error (MSE): {mse:.2f}')
print(f'Root Mean Squared Error (RMSE): {rmse:.2f}')
print(f'R-squared (R²): {r2:.2f}')