随机森林模型在预测大一新生智能手机成瘾中的应用
随机森林模型在预测大一新生智能手机成瘾中的应用
随着智能手机的普及,智能手机成瘾已成为一个日益严重的社会问题,特别是在大学生群体中。本文采用随机森林算法,对大一新生的智能手机使用情况进行三分类预测,分析了各种心理学特征对智能手机成瘾的影响,为预防和干预智能手机成瘾提供了科学依据。
研究背景
智能手机成瘾被定义为由于对智能手机的滥用而导致手机使用者出现问题心理或行为。根据中国互联网络信息中心发布的第51次《中国移动互联网发展报告》,截至2022年12月底,中国网民规模已达10.67亿人,其中手机网民占据10.65亿。大学新生由于自由支配的时间增多,手机使用的频率和时间会增加,容易滋生使用智能手机的心理与行为问题。
相比于传统的心理学研究,机器学习的优势在于同时综合多种特征,并对数据中潜在的规律进行挖掘,从而达到预测目标变量的目的。目前,机器学习已被广泛应用于心理学领域中,但将机器学习方法应用于对成瘾行为进行分类预测的研究尚处于起步阶段。
研究方法
本研究通过线上问卷招募的方式收集到某高校大一新生2530人,排除不认真作答的被试后剩余2482人,平均年龄17.94岁,标准差0.657。其中无智能手机成瘾的被试有2053人,有智能手机成瘾倾向的被试有366人,智能手机成瘾的被试有63人。
研究采用了多种心理学量表作为特征变量,包括大学生智能手机成瘾量表、拖延行为问卷、大学生学习倦怠量表、自我控制量表、错失焦虑量表、社交焦虑量表、领悟社会支持量表、生活满意度量表和自尊量表。
在数据处理方面,研究采用了特征筛选、数据归一化处理、独热编码、过采样等技术。最终,采用Python3.9建立随机森林模型,经过参数调整后最优模型的学习器数量设置为500,单个学习器选择的最大特征数目为8,结点最小分裂样本数为80,叶子结点最小样本数为20,最大深度设置为25。
研究结果
相关分析结果显示,智能手机成瘾得分与领悟社会支持、生活满意度、自尊呈显著负相关,与其他变量均呈显著正相关。方差分析结果显示,问卷测得的心理学变量在不同分组之间均有显著差异。
对被试的人口学信息进行卡方检验后发现,性别和是否是独生子女在智能手机成瘾分类中的差异有统计学意义,而生源地是农村还是城市对分类的影响差异不显著。
使用随机森林算法自带的feature importance对预测因素进行排序,所有特征的排序见表3。在随机森林中,得分最高的前五个因素是学业倦怠、错失焦虑、自我控制、拖延行为和社交焦虑。
随机森林算法的各项评价指标均高于80%,同时为了更清楚地看出不同模型在不同组上分类的准确性,采用绘制ROC曲线的方式进行对比评价,见图2。结果发现,健康对照组和智能手机成瘾组的AUC值均超过0.9。
图2. 不同类别下随机森林的ROC曲线
讨论
本研究通过特征重要性排序筛选出了5个高风险因素,对智能手机成瘾具有重要的影响作用。在所筛选的因素中,学业倦怠被发现是影响智能手机成瘾最为重要的因素,这一点支持网络使用的补偿理论,即在消极的生活下,个体利用互联网来缓解负面情绪,补偿在现实生活中遇到的问题。
错失焦虑在重要性排序中排名第二,Elhai等人(2020)使用机器学习中的回归算法对问题性手机使用进行建模,探索影响问题性手机使用的重要影响因素,结果与本研究一致。而在另一项结构方程的研究中,作者使用错失焦虑和反刍作为问题性社交网站使用的预测因素,同样也发现错失焦虑是其中最为稳健的预测因素。
自我控制在随机森林中排第三,说明是预测智能手机成瘾的关键因素,这一观点在前人的研究中同样得到证明。与此同时,我们发现拖延行为是预测智能手机成瘾的重要影响因子。然而大部分研究集中于手机成瘾如何导致拖延行为,这可能说明拖延行为与智能手机成瘾二者间存在相互强化的作用。
使用手机社交可以帮助一些社交焦虑个体减轻被评价的恐惧,这使得他们更倾向于使用手机等网络工具弥补线下人际交往的缺失。虽然这种行为为社交焦虑个体提供了一种社交交往的途径,但是过度依赖手机也会导致更高的手机成瘾风险。
本研究也存在以下缺点。首先,机器学习算法在分析大数据集时往往表现得更好,而本研究中的受试者数量可能有点不足。其次,本研究主要基于自我报告,而当前的智能手机设备已经提供了完备的行为记录功能,后续研究可以采用客观行为指标和主观心理指标相结合的方式,以提高模型的可推广性和准确性。此外,本研究仅针对大一新生进行探究,对于不同年龄段和人群的适用性尚未得到充分考察,未来的研究应拓宽被试年龄范围以获得更全面的结论。
本文原文来自hanspub.org