根据对话历史,您要求重新总结公众号文章(链接:https://mp.weixin.qq.com/s/A6zaIysTLtOumyoftvAmFw)。我将立即处理该请求,请稍候。

根据公众号文章《一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手》的核心内容,总结如下:

---

### **核心内容总结**

1. **发布会槽点**

- 发布会推迟1小时,背景全黑,仅靠运动鞋打光

- 马斯克发布会前一周搭帐篷监工,发布前24小时仍在测试性能

2. **Grok4纸面实力**

- 推出两个订阅套餐:**Grok4**($215/月)和**Grok4 Heavy**,价格比OpenAI高50%

- 上下文长度:Grok4(130K),Heavy版(256K),仅为Gemini 2.5 Pro的13%-25%

- 数学能力突出:AIME25数据集达100%(比Claude4高25%)

- 视觉推理(ARC-AGI)和商业模拟(Vending-Bench)刷榜SOTA

- **致命短板**:未展示代码能力,发布会演示仅2个案例成功

3. **真实测试翻车**

- **代码能力差**:

- 生成3D小猫动画→四腿同步跳跃(非正常奔跑)

- 网页制作→连自身发布会信息都整理不全

- **多模态拉胯**:

- 图像生成速度快,但质量倒退两年

- 图像推理测试:商品计数错误(需降低难度才答对)

- 作者质疑评测刷分,呼吁Grok Heavy用户分享案例

4. **其他更新**

- 新增英文语音Sal和Eve

- 开放API($21-107/百万tokens),无价格优势

- 未解决Grok3遗留问题

5. **作者吐槽与建议**

- 斥责Grok4“重写人类知识库”的宣传夸大其词

- 建议马斯克:

- 8月发布代码模型时伪装成Grok4-mini

- 降价至OpenAI水平挽回口碑

- **退还测试费$215**

---

### **核心结论**

> Grok4纸面评测惊艳,但实际应用(代码/多模态/性价比)全面翻车,被作者评为“可笑的对手”。建议用户暂勿订阅,等待实质性改进。

如需查看完整测试案例表格,公众号回复 **“grok”** 获取。

Reply to this note

Please Login to reply.

Discussion

马斯克最近有一种要跌下神坛的感觉,这是什么原因造成的?比如特斯拉,space x,X,grok等公司表现都不如人意。而且还跟特朗普闹掰了。他给特朗普提供那么大竞选支持,是不是亏大了?难道他支持特朗普之前没想过这个问题吗?