问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

量化投资中,数据是驱动一切的最底层、最核心的要素。

创作时间:
作者:
@小白创作中心

量化投资中,数据是驱动一切的最底层、最核心的要素。

引用
1
来源
1.
https://xueqiu.com/1347292196/313208492

量化投资的核心在于数据驱动,从数据的获取、处理到应用,每一步都至关重要。本文将深入探讨量化投资中数据的重要性及其处理流程,帮助读者更好地理解这一复杂而精细的投资方式。

量化投资中,数据是驱动一切的最底层、最核心的要素。数据输入转化为输出数据的过程,是量化交易最核心的“黑箱”部分。数据特征决定了模型的细节,数据的质量和准确性直接决定了策略的表现和可持续性。

对宽客来说,对数据的获取、处理、分析和应用贯穿于整个投研工作。随着金融科技的不断发展,数据的类型、复杂度和规模也不断增加,如何挖掘到高质量的数据,科学严谨地分析市场、预见趋势、优化收益、有效规避风险,是一项非常重要的工作。

量化投资中的数据分类

量化投资中的数据分类有很多,常见的有按频率、按数据来源、按照数据本身类型等几种。

按频率分类

在量化投资中,根据频率,数据可分为高频、中频、低频、中低频四类。不同频率的数据适用于不同的投资策略,每种类型的数据有其特征和应用场景。通过这种分类,宽客可以精准选择合适的数据,应用到不同频率的策略中,实现更高效的数据驱动决策。需要注意的是,这些不同频率的数据,宽客在处理时也需要针对数据特点,差异化对待。

按数据来源分类

在《打开量化投资的黑箱》一书中,作者将量化投资中的数据按来源分为:

  • 交易所与市场数据供应商:交易所提供实时和历史的市场数据,如股票价格、成交量、开盘价、收盘价等。金融数据供应商提供广泛的市场数据和行业分析数据
  • 政府和公共机构:包括国家统计局、世界银行、IMF等发布的宏观经济和行业数据
  • 公司财报:上市公司定期发布的财报,提供财务数据、经营状况和行业信息,帮助投资者评估公司价值
  • 第三方数据供应商:量化基金还可以通过AI平台获取另类数据,例如新闻、社交媒体数据
  • 数据采集与数据挖掘:部分量化基金会自行开发数据爬虫或购买数据挖掘工具,从社交平台、电子商务平台等抓取数据,形成独特的分析数据源

量化交易诞生初期,宽客经常会遇到这种情况:同一只股票,数据供应商提供价格相关数据,有供应商提供基本面数据,这些数据在股票标注方面采用不同的方式或符号。为了提升效率,宽客需要用数据组来构建一套完整的数据库,将多种数据供应商股票的方式汇总成统一的标志模式,实现数据的自主可控。

第三方数据供应商嗅到了商机,与原始数据、二手数据供应商建立联系,组件数据库,这受到了宽客们的欢迎。但这种方式也有明显弊端——增加了获取数据的延迟,减弱了宽客对数据和获取数据方式的控制。

按数据本身特点分类

根据数据本身特点对数据进行分类,也是一种常见方式:

  • 通用数据,含股票数据、财务数据、指数数据、行业板块、期货期权、基金数据、债券数据、节假日数据等
  • 风险因子数据,如barra,axoima等业内常用风险模型因子
  • 大模型数据,USG(用户分享数据)等
  • 另类数据

这些数据从不同维度描述了个股和整体市场的情况。数据的多样性是量化投资的核心驱动力之一。数据的质量直接影响到模型的可靠性和策略的收益表现。获得数据后,宽客需要对数据进行处理。

数据清洗与预处理

《Data Science for Economists》中提到,数据清洗和预处理的工作占据了数据科学家约80%的时间。这一比例同样适用于宽客。原始数据往往包含大量的噪音、缺失值和异常值,如何处理这些问题决定了后续策略开发的效果。

缺失值处理

由于网络问题、交易所数据传输的滞后等原因,低延迟数据中缺失数据的情况较为常见。遇到这种情况,宽客一般采用前向填充(Forward Filling)或后向填充(Backward Filling)的方法,利用前后时间点的有效数据填补空缺。如果有其他的可靠数据来源或者数据备份,缺失数据可以用其他来源或者备份数据来进行填充。

如在某次市场动荡中,一家证券公司的数据系统由于压力过大,丢失了部分股票的中频数据。为了保证策略连续运行,宽客通过前向填充技术,将前一时间点的价格填入当前缺失值位置。这种方法在短时间跨度内的效果较好,但需要警惕填充后的数据是否引入了偏差。

常见的一种偏差是,后向填充不小心引入未来数据,导致策略产生前视偏差(look-ahead bias)。这种偏差会使策略在模拟测试时表现过于理想,但在实际应用中效果大打折扣,因为它利用了在实际操作中不可能预先知道的信息。为了避免这种情况,宽客会用仅使用前向填充、滞后处理、减少填充依赖等方式谨慎处理数据填充。

异常值处理

异常值(Outliers)可能是由于数据记录错误、市场剧烈波动等原因造成的。这类数据往往会严重干扰模型的训练与预测。因此,宽客通常会通过3倍标准差法或箱线图法来检测异常值,看情况进行删除或截尾。

此前美股的某次“闪电崩盘”事件(Flash Crash)中,标普500指数在数分钟内剧烈下跌,随后又迅速反弹。此类极端波动会对策略回测产生重大影响,因此宽客在建模时通常会将此类数据视为异常值进行剔除。

数据归一化与标准化

数据归一化与标准化是模型训练前的重要步骤,特别是在多维数据分析中,不同数据维度可能有不同的量级,直接使用会导致模型偏向某些大数值变量。常见的归一化方法有Min-Max归一化,将所有数据缩放到0和1之间;而Z-score标准化则将数据转换为均值为0,方差为1的标准正态分布,以消除数据量纲的不一致性。

在多因子模型中,宽客使用了市盈率(P/E)、波动率和换手率等不同维度的数据。这些因子量级差异较大,宽客对所有因子进行了Z-score标准化,使得模型在训练过程中不会因为某个因子数值较大而对其过度敏感。

需要注意的是,数据本身非常庞大繁杂。宽客在处理数据时,需要再三对数据进行确认和验证,筛选出有效的信息。同时,在清洗和处理时,不同类型的数据有着不同的陷阱。

总结

宽客的日常投研工作高度依赖数据的获取、清洗、分析与验证。从数据收集到策略上线,每一个环节都要求精细化处理;从时间序列分析到机器学习,每种工具和方法都要结合市场情况灵活运用。通过对数据的深入分析,宽客得以在复杂行情中捕捉到市场动态以及可能存在的错误定价,进而为接下来获得超额收益打下铺垫。这一过程的复杂性和精细度,使得宽客的投研工作既充满了挑战,更有着无限可能。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号