Mistral AI发布了有史以来第一个开源MoE模型。
有趣的事实:
- 以87GB的种子文件形式发布
- 似乎是GPT-4的缩小版
- 在X平台发布,没有新闻发布会也拒绝详细说明
谷歌以一段排练过度的演示视频震惊了AI社区,现在这段视频正受到过度的批评。
而开源AI初创公司Mistral AI发布了一个由8个7B专家组成的MoE模型。
什么是专家混合模型(MoE)?
专家混合模型(MoE)是一种在大型语言模型(LLM)中用来提高效率和准确性的技术。这种方法通过将复杂任务分解为更小、更易管理的子任务,每个子任务由一个专门的小型模型或“专家”来处理。
简要概述如下:
1. 专家层:这些是训练有素、在特定领域高度熟练的小型神经网络。每个专家处理相同的输入,但按照其独特的专长来进行。
2. 门控网络:这是MoE架构的决策者。它评估哪个专家最适合处理给定的输入数据。网络计算输入与每个专家之间的兼容性得分,然后使用这些得分来确定每个专家在任务中的参与程度。
这些组件共同确保正确的任务由正确的专家处理。门控网络有效地将每个输入路由到最合适的专家,而专家则专注于他们特定的强项领域。这种协作训练导致了一个更加多才多艺且能力更强的整体模型。
关于Mistral新MoE的详情(来自Reddit)
对每个令牌进行推断时,只使用2个专家。这些信息可以从模型元数据中得出:
{"dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": {"num_experts_per_tok": 2, "num_experts": 8}
与GPT-4的比较
Mistral 8x7B使用了与GPT-4非常相似的架构,但进行了缩减:
- 总共8个专家而不是16个(减少了2倍)
- 每个专家7B参数而不是166B(减少了24倍)
- 总共42B参数(估算)而不是1.8T(减少了42倍)
- 与原始GPT-4相同的32K上下文
解读:
Mistral AI的这一举措表明开源社区正在积极参与到最新人工智能技术的发展中。他们发布的MoE模型虽然在规模上比GPT-4小很多,但它采用了相似的架构,表明这个模型仍然拥有强大的处理能力。这种模型的发布方式也很有意思——通过种子文件而不是标准的新闻发布,这反映出这个领域的一种非传统、更去中心化的传播方式。此外,谷歌的演示视频虽然引起了轰动,但也面临批评,这可能说明AI社区对于这类演示的期待正在变化,他们可能更倾向于实际可用、能够实际部署的技术,而不仅仅是吸引眼球的展示