Support for MoE models (see Switch Tranformer, NLLB) #109

fiqas · 2023-04-18T13:48:37Z

Hi, have you guys considered adding a support for Mixture-of-Experts models?
They're usually quite hefty in terms of size and would be a great opportunity to have them offload parameters to CPU.

Examples:
Switch Transformers (https://huggingface.co/google/switch-base-256)
NLLB (https://github.com/facebookresearch/fairseq/tree/nllb/)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Support for MoE models (see Switch Tranformer, NLLB) #109

Support for MoE models (see Switch Tranformer, NLLB) #109

fiqas commented Apr 18, 2023

Support for MoE models (see Switch Tranformer, NLLB) #109

Support for MoE models (see Switch Tranformer, NLLB) #109

Comments

fiqas commented Apr 18, 2023