什么是混合专家模型 (MoE)？

混合专家模型 (Mixture of Experts, MoE) 是一种神经网络架构，旨在使模型（特别是大规模 Transformer 模型）更加高效和可扩展。与使用其所有参数处理每个输入的单一、庞大的网络（“密集”模型）不同，MoE 模型由许多较小的“专家”子网络组成。一个轻量级的“门控网络”或“路由器”决定哪个或哪几个专家最适合处理给定的输入令牌。这意味着对于任何单个输入，只有模型总参数的一小部分被激活，这个概念被称为稀疏激活。这使得 MoE 模型可以拥有巨大的参数数量（在某些情况下达到万亿级别），而推理或训练的计算成本不会成比例增加。

主要特点

稀疏激活： 每个输入令牌只使用模型参数的一小部分（被选中的专家），与同样大小的密集模型相比，极大地减少了计算负载（FLOPs）。
大规模可扩展性： MoE 使得创建拥有数千亿甚至数万亿参数的模型成为可能，远远超出了密集模型的实际能力。巨大的参数数量增加了模型存储知识的能力。
计算效率： 与具有相同参数数量的密集模型相比，训练和推理速度明显更快，资源消耗更少，因为每个令牌的计算与总参数数量解耦。
专家专门化： 在训练过程中，每个专家网络学会专门处理特定类型的数据、模式或概念。门控网络学会将输入路由到最相关的专家，从而提高整体模型性能。

应用场景

大型语言模型 (LLM)： MoE 是包括 GPT-4 和像 Mixtral 8x7B 这样的开源模型在内的一些最强大 LLM 的关键架构。它使它们能够在管理计算成本的同时实现最先进的性能。
多任务学习： 在单个模型必须执行多种不同任务的场景中，不同的专家可以专门负责每项任务，从而在没有干扰的情况下获得更好的整体性能。
计算机视觉： MoE 的概念也正被应用于视觉 Transformer (ViT)，以更有效地处理大规模图像和视频分析。
成本效益高的部署： 对于开发者来说，使用像 Mixtral 这样的 MoE 模型意味着以接近较小模型的推理速度和成本，获得更大模型的性能。

入门指南

使用像 Hugging Face Transformers 这样的库，上手 MoE 模型非常简单。您可以像加载和使用任何其他 Transformer 模型一样，加载和使用一个预训练的 MoE 模型，比如 Mistral AI 的 Mixtral 8x7B。专家路由的复杂性在内部已经处理好了。

这是一个使用 Python 的“Hello World”示例：

```python from transformers import AutoModelForCausalLM, AutoTokenizer

加载 Mixtral 8x7B Instruct 模型和分词器

这是一个强大的开源 MoE 模型

model_id = “mistralai/Mixtral-8x7B-Instruct-v0.1” tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id)

定义提示

text = “你好，我是一个混合专家模型。请用几句话解释一下你的特别之处。” inputs = tokenizer(text, return_tensors=”pt”)

生成回应

outputs = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

定价

混合专家模型是一种架构模式，而不是一个产品，因此它本质上是开源的。其“成本”与训练或运行使用此架构的模型所需的计算资源（GPU、TPU）相关。然而，MoE 的主要好处是相对于同等参数规模的密集模型降低了这些成本，使得大规模人工智能更加普及。

Mixture of Experts (MoE)

什么是混合专家模型 (MoE)？

主要特点

应用场景

入门指南

加载 Mixtral 8x7B Instruct 模型和分词器

这是一个强大的开源 MoE 模型

定义提示

生成回应

定价

System Specs

Classifications

Tags

Alternative Systems