et-optimizer - L'optimiseur Aurora améliore l'efficacité de l'entra?nement et réduit les neurones morts dans Muon

Tilde Research a dévoilé Aurora,éliorelefficacitédelentra?nementetré un nouvel optimiseur qui améliore considérablement l'efficacité de l'entra?nement en corrigeant une faille critique de Muon, un optimiseur largement utilisé dans des modèles tels que DeepSeek V4 et GLM-5. Il a été constaté que Muon provoquait l'inactivation de plus de 25 % des neurones dans les couches MLP lors des premières phases d'entra?nement. Aurora réduit ce problème en assurant des mises à jour uniformes et en maintenant l'orthogonalité, ce qui conduit à une augmentation de l'efficacité de l'entra?nement d'un facteur 100.L'approche innovante d'Aurora lui permet de remplacer Muon avec seulement une augmentation de 6 % de la charge computationnelle, sans nécessiter de réglages. Lors des tests de référence, Aurora a établi un nouveau record de pointe, démontrant son efficacité à améliorer les performances des modèles. L'optimiseur ainsi qu'un modèle pré-entra?né de 1,1 milliard de paramètres ont été rendus open source, offrant à la communauté un accès à ces avancées.
This detailed match analysis covers key moments, player performances, and tactical insights.
TAGS:
#Analysis
#MatchRecap