多股价指标下集成机器学习的股价操纵检测
多股价指标下集成机器学习的股价操纵检测
股价操纵行为严重威胁着资本市场的公平性和透明度,给投资者带来巨大风险。本文基于中国证监会2008-2023年股价操纵案例数据,构建了一个基于集成学习的股价操纵检测模型。研究通过对比实验和消融实验验证了模型的有效性,为金融市场监管提供了新的技术手段。
引言
股价操纵行为往往涉及散布虚假信息、囤积资产等复杂且隐蔽的交易手段。这些行为不仅对市场的公平性和透明度造成了严重破坏,也给投资者带来了不小的风险。众多学者对此问题进行了深入探讨,从不同角度剖析了股价操纵的影响与识别方法。
近年来,机器学习在股价操纵识别中发挥了越来越重要的作用。李博等(2023)基于支持向量机提出了时态数据的粒度变换概念,有效识别了不同程度操纵股票的模式。张颖和李路(2024)构建了基于随机森林特征选择的RF-MIP-LSTM模型,并通过推导前向与反向传播算法证明了其可行性。
在集成学习领域,Wang等(2019)集成了多个循环神经网络(RNN),显著增强了日内股票价格操纵的检测效果。随后,Liu等(2024)运用堆叠泛化技术,将多个RNN子模块进行有效集成,进一步提升了检测效果。
数据和特征工程
研究系统地收集了2008年至2023年的股价操纵案例,对于股票部分数据缺失的案例,进行整行删除并对其余数据Z-score标准化。最后共计获取了196只被操纵股票数据。考虑到操纵时间长短对研究分析至关重要,研究筛选出操纵时间较短的,特别是3天以内的股票案例,并将这些时间段标记为异常时段。
此外,采用控制样本的方法进行对比分析。依据市值、股价及所属行业等关键指标,在同花顺财经、东方财富网等股票网站中,为每个被操纵的股票找到了一个最为相近的未受操纵的股票作为控制样本。对于控制样本,要求没有报告出任何不良消息且从未出现在中国证监会行政处罚决定书中。
在特征工程方面,研究引入了换手率、收益率、振幅等股票特征,并特别设计了四个关键指标:申万收益率差、交易所收益率差、申万振幅差和交易所振幅差。这些指标能够帮助识别股票与市场整体或行业平均水平的偏离程度,是股价被人为干预的重要特征。
模型配置
研究采用了集成学习中的堆叠(stacking)模型结构,选取了一系列性能优异的基学习器,包括支持向量机(SVM)、随机森林(RF)、K-近邻算法(KNN)、逻辑回归(LR)以及人工神经网络(ANN)。这些基学习器独立对输入特征数据进行处理,通过五折交叉验证以及网格搜索来选择最佳超参数并训练模型,并输出受操纵的可能性预测。
基学习器的预测值被合并成一个综合向量,作为集成学习器的输入。研究选择了逻辑回归作为元学习器,它可以整合各基学习器的预测结果,并通过其概率输出进行判断,其输出的预测概率将作为最终的判断依据,同样通过交叉验证来调整超参数。
实验与评估
研究选取了五个指标,即准确率、召回率、精确度、F1分数以及AUC值,来对分类器的性能进行全面评估。实验结果显示,所提出的集成学习模型在准确率上展现出了显著的优势,其准确率高达84%,远超过其他所有单一机器学习模型。在衡量模型检测效能的其他指标上,该模型同样表现出了优越的性能。
研究还进行了一项消融实验,移除了四个关键特征指标后,模型性能出现了明显的下滑趋势,这进一步证实了这些特征在提升股价操纵检测准确性方面的重要作用。
结论
本研究提出了一种基于集成学习的股价操纵检测模型,通过实证分析验证了其有效性。未来研究将进一步扩大数据集范围,探索更先进的模型架构和算法,结合实时监测和异常检测技术,有效地检测和响应市场操纵行为。