机器学习包括三个要素:输入变量、输出变量,以及连接它们的模型。
一般人会分成训练集、验证集和测试集。
传统上机器学习担心的是过度拟合,但也有一些机器学习方法不大害怕过度拟合。
比如有理论是谁如果模型复杂度(包括变量、数目、变量结构等)远超数据量,反而不会出现过度拟合的问题,因为冗余的变量或结构的权重会逐渐降低,导致测试误差先升后降(double descent)。这也是很多深度学习敢于大力出奇迹的原因,因为有这个双下降作为保证。否则,传统那种验证集的方法,中间找一个最优,之前欠拟合,之后过度拟合,这个过于玄学。如果你说大胆加,越多越好,那么人们反而放心。
如果是强化学习那一套,本质上也不怕什么过度拟合,因为样本基本上采用一定的机制蒙特卡洛生成,不存在什么太离谱的噪音;而且没有什么训练集、测试集这些概念,更多是打游戏,越高分越好,每次的场景都是固定模式生成的。
有了以上的这些基本概念,回到金融,回答一些基本问题:
1、样本分布改变的问题。
之前说双下降不怕过度拟合,那前提是默认了测试集和训练集是同分布的,如果这个分布改变了,那么双下降也没用。至于判断样本分布是否改变,这是一个玄学。
当然,这也取决于你对样本的定义。如果你把样本定义为一条路径,那么历史上只有一个样本;或者你把一年的路径定义为一个样本,那你一年也只有一个样本;但如果你是把1分钟的价格变化定义为一个样本,那么你的样本可以多得多;或者你把一次交易定义为一个样本,那么你也可以有非常多的样本。
一般情况下,样本越多,一般来说拟合模型越好;另外,在越短的时间内,样本稳定性越高;所以做高频交易不需要太多天的数据来训练也可以有比较好的效果,而且样本分布变化不大,策略失效风险不大。
还有就是,如果品种多,每个品种的交易都是独立样本,也可以增加样本数目,但拟合出来的是各个品种的共性,未必每个都能做好,因为评价标准是整体不错。不同品种的分布可能也会有所差异,或许需要调整,使得分布更为接近。
2、时间序列与横截面的问题。
这本质上是高频和低频的思路,时间序列本质上是高频思路,横截面其实是低频思路。所谓横截面就是固定时间做决策,比如每5分钟、10分钟固定时刻做决策,这个可以方便各个品种对齐,因此可以方便调用其它品种的数据,方便做对冲,都是同一个时间决策;而且可以把决策和交易执行独立开开,有人专门负责算法交易。
但如果是高频交易则不能,时机稍瞬即逝,一定要一出信号就买。另外不大适合做对冲,因为每个品种的价格序列是独立的,难以对齐,因此更适合单品种,比如期货类的高频策略。
机器学习对这两种都可以,横截面或许可以采用更大量的数据,多品种混合建模。
3、个人发展的问题。
确实有人工智能界业界顶级的大牛做量化投资失败了,而且是几乎全美国最牛的公司最好的资源,原因很难说清楚,但毕竟少数。
有的人虽然厉害,但需要找工作;有的人看起来不怎么厉害,但其实不需要找工作。
公司打工的问题在于你只能靠增量存活,没有增量,你就拜拜了;你不能说我之前积累了这么多策略这么多客户这么多资源,这些也能继续赚钱;但问题是没有你公司也能用这些赚钱,那要你何用?但自己干的话自己是可以利用存量赚钱的,这是最大的区别,但很多人没想过这点。一些大券商考核甚至用今年比去年多赚多少钱,或者今年新增了多少客户,存量客户交易佣金降低权重。这样对个人会很坑,因为这些钱公司还是赚的,不管存量还是增量公司都是赚的,只是没有给个人。
公司的压力来自于股东,因为如果收益没有增长,股民抛售,股价下降,公司会有压力。或者说公司估值很大一部分来自于未来潜在增值的折现,如果人们发现未来无法增值,那么可能会造成股价雪崩。但个人做没有这方面的压力。
所以,对于做量化这种最最不需要公司平台的(我指的是法律规定的牌照类资质),应该是最适合个人做的。或者说得更直接一些,如果量化交易都没法个人做,那么全世界几乎不存在可以个人创业的领域。开个互联网公司还要网站,量化可以啥都没有。
本文内容来源自网络,如有侵权请联系删除。
以上便是《股票能不能通过机器学习来预测?CQF量化要怎么做?》的全部内容,部分内容来源自网络,如有版权问题请联系2355960815@qq.com删除。