Ativação Esparsa Dinâmica em Mistas de Especialistas: A Engenharia por Trás dos 2% de Parâmetros Eficazes em LLMs

Um dos insights mais impactantes na engenharia de grandes modelos de linguagem recentes é que a maioria dos seus parâmetros está "adormecida" durante a inferência de um único token. Em arquiteturas de Mistas de Especialistas (MoE), tipicamente apenas uma fração minúscula — muitas vezes em torno de 2% — dos parâmetros totais é realment ...

Publicado em 6-2 02:41 por Thomas