MoE 重新火热的背景:

1991年还处在BP算法刚刚提出来的阶段,最优的模型也就是多层感知机。当模型本身的容量较低的时候,在复杂的场景下,用一个网络去拟合所有的数据,会因为数据的多样性,所以拟合的过程会比较慢。所以MoE被提出用来增加模型在复杂场景下学习的效果,虽然在LLM时代,只要有足够的算力和数据,模型规模扩大一定能带来更好的效果。但在当时的算力稀缺并且缺少模型scaleup需要的技术时,这种方法还是可以提高参数利用率的。

而当LLM发展到GPT3的规模,推理和训练对应的优化方法也趋近于完善,继续scale up更多依赖于硬件的提升。那么当算力发展变缓或者获取成本变高的时候,就需要另外一种可以继续scale up但不那么依赖于硬件的方式,MoE开始进入人们的视野。

MoE(Mixture of Experts)的相关问题 - 掘金

1. MoE (Mixture-of-Experts)

1.1 MoE 是什么?

Untitled

MoE基于Transformer架构,主要由两部分组成:

MoE(Mixture-of-Experts)大模型架构的优势是什么?为什么? - 知乎

Mixture of Experts Explained

1.2 MoE 模型的优势是什么?