问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

R语言数据分析案例:北京酒店市场多元线性回归分析

创作时间:
作者:
@小白创作中心

R语言数据分析案例:北京酒店市场多元线性回归分析

引用
CSDN
1.
https://blog.csdn.net/m0_62638421/article/details/139928830

本文通过R语言对北京酒店数据进行多元线性回归分析,探讨了影响房价的关键因素。研究发现,卫生评分、服务评分等变量对房价有显著影响,为酒店经营者和消费者提供了有价值的参考。

一、研究背景和意义

随着旅游业的快速发展和人们生活水平的提高,酒店行业作为旅游业的重要组成部分,也得到了迅猛的发展。北京作为中国的首都和国际化大都市,拥有众多的酒店,酒店市场竞争激烈。因此,对北京酒店市场进行数据分析,了解市场现状和趋势,对于酒店经营者和消费者都具有重要的意义。

二、实证分析

首先我们读取了数据集并且查看了前五行的数据,数据如下:

# 读取数据集
hoteldata <- read.csv("hoteldata.csv")
head(hoteldata,5)

这是一个关于多家酒店的数据集,包含了酒店名称、地区、地址、卫生评分、服务评分、设施评分、位置评分、评价数、装修时间、房间类型、房价、经度、纬度、公司、出行住宿、校园生活等信息。

接下来查看数据具体结构

通过对这些数据的分析,我们可以得到数据主要包括字符串型和数值型数据。

接下来查看数据集的描述性统计量

summary(hoteldata)

数据集中的酒店分布在北京市的不同地区,卫生评分、服务评分、设施评分和位置评分的平均值都在 4.5 左右,评价数的中位数为 209.5。

接下来对特征值进行可视化,首先绘制房价的直方图:

# 绘制房价的直方图
hist(hoteldata$房价, main = "房价分布", xlab = "房价", ylab = "频数", col = "lightblue")
# 绘制卫生评分、服务评分、设施评分、位置评分的箱线图
boxplot(hoteldata$卫生评分, hoteldata$服务评分, hoteldata$设施评分, hoteldata$位置评分, main = "评分分布", xlab = "评分类型", ylab = "评分", col = c("red", "green", "blue", "yellow"))

从上面呈现的直方图中可以清晰地看出,房价的分布主要集中在 2000 元左右,这一价格区间的频数最高。随着房价的逐渐升高,其对应的频数呈现出逐渐降低的趋势。

接下来绘制的箱线图则进一步展示了房价的分布情况:

这个评分箱线图主要用于展示卫生评分、服务评分、设施评分和位置评分的情况。从图中可以看出,卫生评分最高,约为 4.6 左右,其次是服务评分,最后是设施评分。

接下来绘制不同地区酒店数量的柱状图:

从上面同地区酒店数量的柱状图可以看出,其中朝阳区的酒店分布是最多的,接近200,其次是其他城区

接下来绘制不同房间类型酒店数量的柱状图:

下来分析不同公司附近酒店数量的柱状图:

从图中可以清晰地看到,大部分酒店周边都分布着众多的公司。这种布局无疑为人们的需求提供了极大的便利。

相关系数热力图:

cor_matrix <- cor(numeric_vars)
# 绘制热力图
heatmap(cor_matrix, main = "数值型变量热力图", xlab = "变量", ylab = "变量")

接下来对数值型变量建立线性回归模型来研究:

# 建立线性回归模型
model <- lm(房价 ~., data = numeric_vars)

其中Residuals给出了残差的最小值、第一四分位数、中位数、第三四分位数和最大值。残差是实际房价与模型预测房价之间的差异。

Coefficients列出了模型的系数估计值、标准误差、t 值和 p 值。例如,卫生评分的系数为 1647,意味着卫生评分每增加 1 个单位,房价预计会增加 1647 元。

接下来对模型进行检验:

# 进行模型诊断,检查模型的假设是否满足
plot(model)

从上面残差图可以看出,模型的假设基本满足。接下来进行拟合优度检验


r_squared <- summary(model)$r.squared
adjusted_r_squared <- summary(model)$adj.r.squared
cat("R-squared:", r_squared, "\n")
cat("Adjusted R-squared:", adjusted_r_squared, "\n")

拟合优度结果为R-squared: 0.2218918,有点低。

三、结论

本研究通过对北京酒店数据的分析,了解了北京酒店市场的现状和趋势。研究结果表明,北京酒店市场竞争激烈,酒店数量众多,价格水平较高,服务质量参差不齐。同时,研究还发现,卫生评分、服务评分、出行住宿等变量对房价有显著影响。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号