L’introduction par Meta des modèles Llama 4 marque une avancée significative dans le domaine de l’intelligence artificielle. Cette nouvelle famille de modèles, comprenant Scout, Maverick et Behemoth, est conçue pour surmonter les limites des précédents modèles en intégrant une approche multimodale. Inspirée par les travaux sur la cognition distribuée de chercheurs comme Edwin Hutchins, cette approche permet aux modèles de traiter simultanément du texte, des images et des vidéos, renforçant ainsi leur capacité de compréhension visuelle étendue.
La philosophie de l’architecture à « mélange d’experts » (MoE) de Llama 4 reflète des principes similaires à ceux de la théorie des réseaux de neurones spiking, où chaque « expert » peut être activé sélectivement pour maximiser l’efficacité. Cela illustre le concept de « division cognitive du travail » soutenu par des chercheurs comme Simon Head, où differentes unités traitent des aspects spécifiques d’une tâche complexe. Cette approche rend Llama 4 capable de traiter simultanément plusieurs requêtes sans compromettre la rapidité ou la qualité des réponses. Enfin, l’accent mis par Meta sur la balance et la neutralité des réponses renvoie aux idées de Habermas sur la communication éthique et rationnelle.