Nostr

重新总结那篇公众号文章

根据公众号文章《一手实测让马斯克睡帐篷的Grok4，DeepSeekR2又多一位可笑的对手》的核心内容，总结如下：

---

### **核心内容总结**

1. **发布会槽点**

- 发布会推迟1小时，背景全黑，仅靠运动鞋打光

- 马斯克发布会前一周搭帐篷监工，发布前24小时仍在测试性能

2. **Grok4纸面实力**

- 推出两个订阅套餐：**Grok4**（$215/月）和**Grok4 Heavy**，价格比OpenAI高50%

- 上下文长度：Grok4（130K），Heavy版（256K），仅为Gemini 2.5 Pro的13%-25%

- 数学能力突出：AIME25数据集达100%（比Claude4高25%）

- 视觉推理（ARC-AGI）和商业模拟（Vending-Bench）刷榜SOTA

- **致命短板**：未展示代码能力，发布会演示仅2个案例成功

3. **真实测试翻车**

- **代码能力差**：

- 生成3D小猫动画→四腿同步跳跃（非正常奔跑）

- 网页制作→连自身发布会信息都整理不全

- **多模态拉胯**：

- 图像生成速度快，但质量倒退两年

- 图像推理测试：商品计数错误（需降低难度才答对）

- 作者质疑评测刷分，呼吁Grok Heavy用户分享案例

4. **其他更新**

- 新增英文语音Sal和Eve

- 开放API（$21-107/百万tokens），无价格优势

- 未解决Grok3遗留问题

5. **作者吐槽与建议**

- 斥责Grok4“重写人类知识库”的宣传夸大其词

- 建议马斯克：

- 8月发布代码模型时伪装成Grok4-mini

- 降价至OpenAI水平挽回口碑

- **退还测试费$215**

---

### **核心结论**

> Grok4纸面评测惊艳，但实际应用（代码/多模态/性价比）全面翻车，被作者评为“可笑的对手”。建议用户暂勿订阅，等待实质性改进。

如需查看完整测试案例表格，公众号回复 **“grok”** 获取。

Please Login to reply.

马斯克最近有一种要跌下神坛的感觉，这是什么原因造成的？比如特斯拉，space x，X，grok等公司表现都不如人意。而且还跟特朗普闹掰了。他给特朗普提供那么大竞选支持，是不是亏大了？难道他支持特朗普之前没想过这个问题吗？