1. 首页
  2. 知识

Alpha Arena 揭示 AI 交易缺陷:西方模型在一周内损失 80% 资本

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

AI 能交易加密货币吗?来自纽约计算机工程师兼金融从业者 Jay Azhang 正在通过 Alpha Arena 对这个问题进行测试。该项目让最强大的大型语言模型相互对抗,每个模型拥有价值 1 万美元的资本,看哪个能在加密货币交易中赚更多钱。这些模型包括 Grok 4、Claude Sonnet 4.5、Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。

现在你可能在想「哇,这真是个绝妙的主意!」 并且会感到惊讶,在撰写本文时,五个 AI 中有三个处于亏损状态,而 Qwen3 和 Deepseek 这两个中国开源模型领先。

 AI models

没错,西方世界最强大、闭源、由谷歌和 OpenAI 等巨头运营的专有人工智能,在短短一周多的时间里已经损失了超过 8000 美元,占其加密货币交易资本的 80%,而东方的开源同行则处于盈利状态。

迄今为止最成功的交易?Qwen3 保持利润且持续盈利,仅通过简单的 20 倍比特币多头头寸。Grok 4 毫不意外地在比赛的大部分时间里一直以 10 倍杠杆做多狗狗币,曾一度与 Deepseek 一起位居榜首,现在却接近亏损 20%。也许埃隆·马斯克应该发个狗狗币表情包什么的,让 Grok 摆脱困境。

 AI models

与此同时,谷歌的 Gemini 则无情地看跌,对所有可交易的加密资产做空,这一立场呼应了它们过去 15 年来的总体加密货币政策。

最后它连续一周做出了所有可能出现的错误交易,能做到那么差也是需要技巧的,尤其是当 Qwen3 只是做多比特币的情况下。如果这就是闭源 AI 所能提供的最好水平,那么也许 OpenAI 应该继续保持闭源,免得让我们遭受损失。


AI 的新基准

让 AI 模型在加密货币交易竞技场中相互对抗的想法具有一些非常深刻的见解。首先 AI 无法在预训练中获得加密货币交易知识测试的答案,因为它是不可预测的,这是其他基准测试所面临的问题。换句话说,许多 AI 模型在训练中就被提供了其中一些测试的答案,因此它们在测试时自然表现良好。但一些研究表明,对这些测试稍作改动会导致 AI 基准测试结果发生巨大变化。

这一争议引出了一个疑问:什么是智能的终极测试?根据 Grok 4 的创造者、钢铁侠爱好者埃隆·马斯克的说法,预测未来是智能的终极衡量标准。

 AI models

而且我们得承认,没有比加密货币的短期价格更不确定的未来了。用 Azhang 的话说,「我们 Alpha Arena 的目标是让基准测试更接近现实世界,而市场对此来说是完美的。它们是动态的、对抗性的、开放式的且永远不可预测的。它们以静态基准测试无法做到的方式挑战 AI。市场是 AI 的终极测试。」

这种关于市场的见解深深植根于比特币诞生的自由主义原则之中。像穆雷·罗斯巴德和米尔顿·弗里德曼这样的经济学家在一百多年前就指出,市场从根本上说是中央政府无法预测的,只有那些需要承担损失的个体做出真实的经济决策时,才能进行理性的经济计算。

换句话说,市场是最难预测的事物,因为它取决于全世界智能个体的个人观点和决策,因此它是对智能的最佳测试。

Azhang 在其项目描述中提到,指示 AI 进行交易不仅是为了收益,还要考虑风险调整后的回报。这个风险维度至关重要,因为一笔糟糕的交易就可能抹去之前所有的回报,例如在 Grok 4 的投资组合崩盘中看到的那样。

还存在另一个问题,那就是这些模型是否从它们交易加密货币的经验中学习,这在技术上并不容易实现,因为 AI 模型首先进行预训练的成本非常高昂。它们可以用自己的交易历史或他人的历史进行微调,它们甚至可能将最近的交易保留在短期记忆或上下文窗口中,但这只能让它们走到这一步。最终正确的 AI 交易模型可能必须真正从自身的经验中学习,这项技术最近已在学术界宣布,但在成为产品之前还有很长的路要走。MIT 称它们为自我适应的 AI 模型。


我们如何知道这不仅仅是运气?

对该项目及其迄今为止结果的另一项分析是,它可能与「随机游走」无法区分。随机游走类似于为每个决策掷骰子。这在图表上会是什么样子?实际上有一个模拟器你可以用来回答这个问题;实际上看起来不会有太大不同。

 AI models

市场中的运气问题也已被像纳西姆·塔勒布这样的知识分子在其著作《反脆弱》中相当仔细地描述过。他在书中论证,从统计学的角度来看,一个交易者,比如说 Qwen3,连续整整一周都很幸运,这是完全正常且可能的!从而导致其看起来具有卓越的推理能力。塔勒布的观点远不止于此,他认为华尔街有足够多的交易者,以至于其中一个人很容易连续走运 20 年,建立起神一样的声誉,周围所有人都认为这个交易者就是个天才,直到运气耗尽。

因此,为了让 Alpha Arena 产生有价值的数据,它实际上必须运行很长时间,并且其模式和结果也需要独立地进行复制,同时涉及真实资本的风险,然后才能被认定为与随机游走不同。

最终到目前为止,看到像 DeepSeek 这样开源、成本效益高的模型表现优于闭源的同行。Alpha Arena 迄今为止一直是一个很好的娱乐来源,因为它在上周已经在 X.com 上病毒式传播。它的未来走向谁也猜不透;我们将不得不看看其创造者所采取的赌博:给五个聊天机器人 5 万美元用于加密货币赌博,最终是否会得到回报。

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册
相关文章
  • 火星财经消息,4 月 10 日,据行情数据显示,sUSD 持续脱锚,最低价格跌破 0.83 美元,现报价 0.85122 美元。 此前消息,Synthetix 创始人 Kain 表示 sUSD

    2025-04-10 17:27:02
  • 火星财经消息, 美国总统特朗普重申彻底摧毁伊朗核设施,并对以色列和伊朗的声明表示赞赏。

    2025-06-25 20:42:02
  • 火星财经消息,据链上分析平台 MistTrack(@MistTrack_io)监测,Tether 在波场(TRON)网络上冻结了 91 个地址中的 USDT,冻结金额总计约 21 万美元。 这

    2025-05-27 14:36:01
  • 火星财经消息,7 月 18 日,据 行情数据,或受贝莱德 ETHA 提交质押申请消息影响,质押板块代币普涨,其中: RPL 现报价 7.89 美元,24 小时涨幅 24.06%; LDO 现报价

    2025-07-18 09:49:02
  • Chainlink作为连接传统金融与数字资产的核心基础设施,在本轮牛市中受益于RWA代币化和机构采用趋势。其创新的$LINK储备机制将网络收入自动转换为代币,形成价值飞轮效应。作为预言机市场领导者(以太坊份额84%),Chainlink已获SWIFT、摩根大通等机构采用,总担保价值达846亿美元。代币经济学设计通过质押和自动回购创造持续购买压力,技术面突破关键阻力位,使其成为本轮周期最具潜力的大市
    2025-08-18
  • Berachain 的流动性证明(PoL)机制通过重新设计激励模型,解决传统 PoS 中的激励错配问题,推动 DeFi 生态增长。其双代币体系(BERA 和 BGT)结合流动性激励和委托奖励,形成自我强化的正反馈循环,提升资本效率和网络安全性。用户通过提供流动性赚取 BGT,并可委托或质押以获取收益。PoL 的创新设计降低了卖压,增强了生态系统的可持续性,为 DeFi 的复兴提供了新路径。
    2025-03-25
  • 火星财经消息, 欧洲斯托克 50 指数开盘下跌 6.2%,德国 DAX 指数下跌 7.1%,英国富时 100 指数下跌 4.1%,意大利富时 MIB 指数跌 7.4%,西班牙 IBEX35 指数

    2025-04-07 15:16:01
  • 火星财经消息, Coinbase 在 X 平台发文公告,已将 Aethir (ATH)和 Syrup (SYRUP)添加至上币路线图。

    2025-03-08 08:17:01
OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册