分享一个大模型在polymarket上的预测数据
在模态框中查看主贴与评论的删除、修改和新增情况。
版本差异比较
按时间正序展示主贴与评论变化。
选择一个版本后加载差异。


好又咋样?好给你sonnet-4.6旗舰模型蹬嘛 ![]()

那又怎么样,用得起吗

主要用了封号 我也想充钱啊

不同情况下 或许有不同表现
一切按实际体验为准。
其次是有时候经常一个弄不出来 另一个配合着就没问题了。不是只能用一个的。 ![]()


codex免费,claude费用可贵太多了

不给用再好也不行捏

我支持 A 除,是我嫌被它封杀得不够嘛

这个”最好”如何定义?最后如何核实哪家公司确实最好?


你要不读读这个评判标准呢![]()
这三月不是还没过完吗,怎么就比arena要更权威了

老谭迷惑发言

笑死我了,我也是感觉这个佬友过来搞笑的,可能是被营销号影响了

何意味 ![]()

要是GPT 5.4 网页版能给xhigh一半的juice就好了,但凡他不思考我都觉得有点弱智。 ![]()

确定不是Google买榜了

笑飞了,刚进来想吐槽他的“得出”方法,就看到你这张图

何意味啊 ![]()


哥们,起码要看编程的benchmark吧,你整这个何意味

佬,光看这个榜不用是吗 ![]()
突然觉得国产有救了
大家友善讨论啊,这个预测是参考的arena的,看这个也是一样的 Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models
2个回复 ⌃

你也没友善发帖啊,反手甩锅给回帖的人?

你确定你的标题很友善吗
![]()

贴吧遇到引战拉踩的举报无效,我试试L站有没有效果 ![]()

串子的真情流露

polymarket的数据。啥时候变成标准了


进来三天就学会引战带节奏可还行
想说claude比gpt强就说
试图攻击佬友带节奏还是抬走吧



你也没友善发帖啊,反手甩锅给回帖的人?

你确定你的标题很友善吗
![]()

从llama4造假开始,我就拉黑arena这个野榜了

一进来就带引战和节奏吗,这边可不是和其他国内网站一样随便引战的 ![]()
新号被举报有被封号的风险哦




