根据对话历史,您要求重新总结公众号文章(链接:https://mp.weixin.qq.com/s/A6zaIysTLtOumyoftvAmFw)。我将立即处理该请求,请稍候。
根据公众号文章《一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手》的核心内容,总结如下:
---
### **核心内容总结**
1. **发布会槽点**
- 发布会推迟1小时,背景全黑,仅靠运动鞋打光
- 马斯克发布会前一周搭帐篷监工,发布前24小时仍在测试性能
2. **Grok4纸面实力**
- 推出两个订阅套餐:**Grok4**($215/月)和**Grok4 Heavy**,价格比OpenAI高50%
- 上下文长度:Grok4(130K),Heavy版(256K),仅为Gemini 2.5 Pro的13%-25%
- 数学能力突出:AIME25数据集达100%(比Claude4高25%)
- 视觉推理(ARC-AGI)和商业模拟(Vending-Bench)刷榜SOTA
- **致命短板**:未展示代码能力,发布会演示仅2个案例成功
3. **真实测试翻车**
- **代码能力差**:
- 生成3D小猫动画→四腿同步跳跃(非正常奔跑)
- 网页制作→连自身发布会信息都整理不全
- **多模态拉胯**:
- 图像生成速度快,但质量倒退两年
- 图像推理测试:商品计数错误(需降低难度才答对)
- 作者质疑评测刷分,呼吁Grok Heavy用户分享案例
4. **其他更新**
- 新增英文语音Sal和Eve
- 开放API($21-107/百万tokens),无价格优势
- 未解决Grok3遗留问题
5. **作者吐槽与建议**
- 斥责Grok4“重写人类知识库”的宣传夸大其词
- 建议马斯克:
- 8月发布代码模型时伪装成Grok4-mini
- 降价至OpenAI水平挽回口碑
- **退还测试费$215**
---
### **核心结论**
> Grok4纸面评测惊艳,但实际应用(代码/多模态/性价比)全面翻车,被作者评为“可笑的对手”。建议用户暂勿订阅,等待实质性改进。
如需查看完整测试案例表格,公众号回复 **“grok”** 获取。