Subnostr

这则推特对苹果公司发布的基础模型（Foundation Models）基准测试提出了批评，并对其方法和结果表示质疑。以下是详细解读：

核心内容

1. 基准测试的争议：

- 苹果没有使用行业内常用的标准基准测试（如MMLU或MT-bench）。

- 他们选择了自己定义的基准测试，并且挑选了特定的模型进行比较，这种做法引发了质疑。

2. 未比较顶级模型：

- 苹果跳过了一些知名的顶级模型，如Claude Opus、4o、Llama或Gemini，没有进行比较。

- 推文作者认为，苹果忽略这些顶级模型显得不够专业，甚至有点轻视这些优秀模型的意思。

3. 对苹果模型的怀疑：

- 虽然苹果声称拥有不错的本地和服务器端模型，但推文作者对其大规模模型的性能持怀疑态度。

- 认为苹果的基准测试结果并不能让人信服。

建议与期望

1. 使用标准基准测试：

- 推文作者建议，苹果应采用行业标准的基准测试来评估其模型性能。

2. 开放验证：

- 希望苹果能够开源其模型或者提供API，以便独立研究人员和开发者可以自行验证这些基准测试结果。

推文主要表达了对苹果公司发布的基础模型基准测试的不满和质疑，认为其自定义基准测试缺乏公正性和可信度。作者建议苹果采用标准化的方法进行评估，并开放其模型以供独立验证。通过这样的方式，才能更好地建立起业界对其技术能力的信任。

Please Login to reply.

No replies yet.