Skip to main content

让AI炒股四个月,Claude赢了但这个结论没什么用 | 帖子标普500从去年11月实验开始至今跌了7%

  1. 让AI炒股四个月,Claude赢了但这个结论没什么用 | 帖子

    标普500从去年11月实验开始至今跌了7%。在这个背景下,五个模型跑赢了大盘,但只有两个实现正收益。Claude和Gemini排在前面,GPT全线落后,Grok一度领先最后吐回了涨幅,Qwen把十万美元全押一只股票,亏了35%才出场。

    实验的设置是相同的提示词、相同的工具集,超过50个研究工具调用加上社交媒体数据,每个模型用的是当时最新版本。运营成本大概每月500美元的API费用。

    有观点认为这个数据从统计上几乎没有意义,一个模型表现好,完全可能只是运气,样本量太小无法区分能力和随机性。OP对此完全同意,并计划运行100个相同模型的并行实例来摊薄方差。有统计学背景的网友进一步指出,真正有价值的是让少量稳定模型在足够长的时间内做大量交易,而不是横向比较更多不同模型。

    为什么Claude领先?OP的解释是一部分运气,一部分来自模型“性格”的差异。Claude表现得像一个主动型摆动交易者,每周管理仓位,持续跟踪市场动量;其他模型更倾向于持仓不动,风险偏好也差异明显。

    有网友提到一个更有意思的问题:回测几乎不可能做到干净,因为这些模型已经见过历史数据,你没法假装它们不知道2020年发生了什么。这意味着这类实验天然只能跑前向测试,而且要等足够长的时间。

    有观点认为,如果AI炒股真的有稳定的超额收益,量化基金早就把这条路堵死了。这个逻辑当然成立,但有网友指出,大型机构在乎的是能否把策略规模化,散户级别的摆动交易根本不在他们的关注范围内,Medallion基金不无限扩大规模就是同一道理。

    还有一个更深的风险被提出来:不是某一个模型亏钱,而是当数千个模型同时读取相同信号、在相同时刻执行相同操作,系统性的相关性会造成什么。这个问题目前没有答案,但它比“Claude赢没赢”更值得想。

    四个月,两个正收益,一个统计上还什么都说明不了的实验。下一步要跑多久,才算够?