Apple Intelligence : la révolution des modèles IA avec AFM 3 et ADM 3 dévoilée

Apple dévoile ses nouveaux modèles d'intelligence artificielle AFM 3 et ADM 3. Des Outils plus puissants, plus rapides et ultra-sécurisés pour transformer l'expérience utilisateur.

Apple Intelligence entre dans une nouvelle ère avec sa troisième génération de modèles d'IA. Ces outils, profondément intégrés aux systèmes d'exploitation d'Apple, promettent de révolutionner la façon dont les utilisateurs interagissent avec leurs appareils. Au cœur de cette avancée se trouve une architecture audacieuse, où la confidentialité des données est la priorité absolue.

LES MODÈLES AFM 3 : CINQ OUTILS POUR TOUTES LES TAILLES

Apple présente sa troisième génération de Apple Foundation Models (AFM), une famille de cinq modèles conçus en collaboration avec Google. Ces modèles couvrent un large éventail d'usages, des solutions embarquées sur les appareils aux modèles serveurs fonctionnant sur Private Cloud Compute.

Parmi eux, deux modèles sont conçus pour tourner directement sur les appareils Apple :

AFM 3 Core : le modèle de base pour les tâches courantes.
AFM 3 Core Advanced : une version optimisée pour des performances supérieures.

Les trois autres modèles sont des solutions serveurs :

AFM 3 Cloud : conçu pour des tâches complexes nécessitant une grande puissance de calcul.
AFM 3 Cloud Pro : une version avancée d'AFM 3 Cloud, optimisée pour les GPU NVIDIA.
ADM 3 Cloud : spécialement dédié au traitement des images.

Tous ces modèles sont optimisés pour fonctionner sur Apple silicon, sauf AFM 3 Cloud Pro qui utilise les GPU NVIDIA dans le cloud Google. Apple garantit que les données des utilisateurs ne sont jamais stockées ni partagées, y compris avec Apple elle-même.

AFM 3 CORE ADVANCED : UNE ARCHITECTURE RÉVOLUTIONNAIRE POUR LES APPAREILS

Le modèle AFM 3 Core Advanced marque une avancée majeure dans l'IA embarquée. Contrairement aux grands modèles de langage traditionnels, qui nécessitent que tous les poids (paramètres) soient chargés en mémoire vive (DRAM), AFM 3 Core Advanced utilise une architecture sparsely activated (activation parcimonieuse).

Cette approche repose sur une technique appelée Instruction-Following Pruning (IFP), développée par les chercheurs d'Apple. Au lieu de charger l'intégralité du modèle en DRAM, celui-ci est stocké en mémoire flash (NAND). Les poids ne sont chargés en DRAM que lorsque c'est nécessaire, réduisant ainsi la consommation de mémoire et permettant une meilleure scalabilité sur du matériel grand public.

Le modèle utilise un système de routage intelligent : un bloc dense et léger sélectionne un ensemble fixe d'experts pendant le traitement initial. Ces experts sont ensuite rechargés périodiquement pendant la génération de texte. Une grande partie des experts, appelés shared experts, restent toujours actifs, tandis que d'autres, les routed experts, ne sont chargés que lorsque nécessaire. Cette conception permet de réduire au maximum les transferts de données et d'optimiser les performances.

AFM 3 Core Advanced introduit également une élasticité au moment de l'inférence. Au lieu d'utiliser un seul modèle pour toutes les tâches ou de gérer un ensemble de petits modèles, le système ajuste dynamiquement le nombre de paramètres actifs en fonction de la complexité de la requête. Cela permet de charger les poids de manière incrémentale, d'augmenter la taille du modèle bien au-delà des limites traditionnelles de la DRAM, tout en minimisant la latence.

AFM 3 CLOUD : DES PERFORMANCES MULTIMODALES RECORD

AFM 3 Cloud représente une avancée majeure dans le raisonnement multimodal, rendu possible grâce à Private Cloud Compute. Ce modèle s'appuie sur une version améliorée de l'architecture Parallel-Track Mixture-of-Experts (PT-MoE), introduite l'année dernière. Les raffinements apportés stabilisent l'entraînement et améliorent la capacité du modèle à raisonner et à rappeler des informations précises dans sa fenêtre de contexte pour des requêtes complexes.

Apple a également amélioré son modèle d'images, ADM 3 Cloud, pour offrir des performances de haut niveau en génération, édition et création de Genmoji. Ce modèle se distingue par sa contrôlabilité et son efficacité paramétrique. Il gère différentes proportions d'images et résolutions, et s'appuie sur la famille des Apple Foundation Models pour guider à la fois la création et l'édition d'images. Bien que le modèle de base gère nativement la création, l'édition et les Genmoji, des adapters spécialisés sont utilisés pour des fonctionnalités spécifiques comme le Spatial Reframing dans Photos ou les modifications d'images basées sur le toucher dans Image Playground.

UN ENTRAÎNEMENT BASÉ SUR DES DONNÉES DIVERSES ET DE QUALITÉ

Pour entraîner ses modèles, Apple utilise un mélange de données variées : informations publiques, données sous licence ou achetées auprès de tiers, données open source, données issues d'études dédiées et données synthétiques. Aucune donnée personnelle ou interaction utilisateur n'est utilisée pour l'entraînement des modèles. Apple respecte également le droit des éditeurs web à refuser l'utilisation de leurs contenus pour l'entraînement des modèles.

Le pré-entraînement des modèles a été considérablement accéléré grâce à l'utilisation des dernières générations d'accélérateurs TPU dans le cloud. Tous les modèles partagent une base commune avant d'être spécialisés pour leurs architectures et cas d'usage respectifs. Cela inclut des capacités multimodales comme la compréhension audio, la compréhension d'images, le raisonnement sur de longs contextes et la génération visuelle de haute qualité. Ensuite, Apple a étendu son processus de post-entraînement en combinant un fine-tuning supervisé avec un apprentissage par renforcement multi-étapes.

Enfin, chaque modèle a été optimisé pour son matériel cible. AFM 3 Core, AFM 3 Core Advanced, AFM 3 Cloud et ADM 3 Cloud (Image) sont optimisés pour fonctionner efficacement sur Apple silicon, tandis qu'AFM 3 Cloud Pro est optimisé pour les GPU NVIDIA. Grâce à la Quantization Aware Training, Apple a compressé ses modèles tout en maintenant une haute précision, offrant ainsi des expériences réactives et de haute qualité.

DES ÉVALUATIONS QUI CONFIRMENT LES PROGRÈS

Apple a mené des évaluations rigoureuses de ses modèles à deux niveaux : au niveau du modèle lui-même et au niveau des fonctionnalités qu'ils alimentent. Ces évaluations reflètent l'état actuel des modèles, qui continueront d'être améliorés pendant la période bêta pour offrir la meilleure expérience utilisateur possible.

Pour garantir une qualité exceptionnelle, des évaluateurs humains internes notent les réponses des modèles selon plusieurs critères clés : respect des instructions, véridicité et présentation. Pour les requêtes basées sur des images, une évaluation supplémentaire de la compréhension d'images est réalisée, mesurant la capacité du modèle à identifier, extraire et raisonner sur le contenu visuel.

Les modèles embarqués d'Apple montrent des progrès générationnels substantiels. Pour les capacités textuelles générales, le modèle AFM 3 Core amélioré est préféré sur 45,6 % des requêtes, contre 23,3 % pour la référence 2025.

Ces avancées s'étendent également aux entrées visuelles. Pour la compréhension d'images, les utilisateurs préfèrent AFM 3 Core à la génération précédente dans plus de 61 % des cas.

Côté serveur, AFM 3 Cloud a également progressé de manière significative. Dans des évaluations humaines en face-à-face pour les capacités textuelles générales, il est préféré sur 64,7 % des requêtes, contre seulement 8,7 % pour le modèle serveur AFM 2025. Cette amélioration est cohérente dans toutes les régions linguistiques supportées. AFM 3 Cloud montre également des gains constants dans les évaluations unilatérales, avec une amélioration relative d'environ 36 % de la satisfaction globale des réponses et de 21 % du respect des instructions par rapport au modèle serveur AFM 2025.

Pour la compréhension d'images, AFM 3 Cloud a progressé de manière significative par rapport à son prédécesseur de l'année dernière, étant préféré sur 37,8 % des requêtes, contre seulement 9,6 % pour la référence 2025.

AFM 3 Cloud Pro offre une amélioration supplémentaire par rapport à AFM 3 Cloud, avec un gain relatif d'environ 10 % pour les réponses textuelles et de 14 % pour la compréhension d'images. AFM 3 Cloud Pro excelle particulièrement dans des catégories de tâches spécifiques comme les mathématiques, avec un gain relatif de 14 % par rapport à AFM 3 Cloud.

DES VOIX PLUS EXPRESSIVES ET UNE DICTÉE PLUS PRÉCISE

Apple a évalué la qualité des nouvelles voix expressives d'AFM 3 Core Advanced en les comparant au système de Text-to-Speech (TTS) de production actuel, en utilisant une échelle de notation MOS à 5 points. À une taille d'activation efficace de 1 milliard de paramètres, AFM 3 Core Advanced a obtenu un score global de 4,15, soit une amélioration de 0,28 par rapport au système actuel. Une augmentation de 0,1 sur l'échelle MOS représente une amélioration très perceptible pour l'expérience utilisateur.

Cette différence de qualité est encore plus marquée dans les scénarios conversationnels, comme la lecture à voix haute de messages informels. Dans ces cas, AFM 3 Core Advanced a obtenu un score de 4,24 contre 3,82 pour le système de production, une différence de 0,42 qui démontre une expérience audio bien plus naturelle et expressive.

En complément de ces améliorations en synthèse vocale, AFM 3 Core Advanced montre des progrès significatifs dans ses capacités de speech-to-text. Pour des fonctionnalités spécifiques comme la dictée, des jugements de préférence en face-à-face ont été recueillis sur sept dimensions : qualité globale, ponctuation, majuscules, mise en page, capture du sens, gestion des disfluences et style.

À une taille d'activation de 1 milliard de paramètres, AFM 3 Core Advanced est préféré pour la qualité globale dans une proportion de 44,7 % contre 17,6 % pour le système précédent. Cette préférence s'étend de manière cohérente à chacune des six autres dimensions évaluées.

UNE IA RESPONSABLE : SÉCURITÉ ET ÉTHIQUE AU CŒUR DU PROJET

Apple a conçu ses nouveaux modèles en s'appuyant sur des principes d'IA responsable. Une taxonomie de sécurité permet d'identifier les contenus sensibles qui nécessitent une attention particulière. Pour garantir que les modèles respectent ces limites dans différents contextes linguistiques et culturels, Apple utilise un alignement post-entraînement multilingue, des modèles de garde-fous spécifiques à chaque langue et des tests de sécurité réalisés par des équipes locales.

Ces efforts constants pour améliorer l'alignement des modèles avec les principes d'IA responsable portent leurs fruits. Les nouveaux modèles montrent des progrès significatifs dans ce domaine.

DES FONCTIONNALITÉS QUI TRANSFORMENT L'EXPÉRIENCE UTILISATEUR

La troisième génération des Apple Foundation Models alimente de nouvelles expériences sous Apple Intelligence, rendant les systèmes d'exploitation encore plus utiles et intuitifs. Parmi les nouveautés figurent :

Une toute nouvelle version de Siri, plus intelligente et plus réactive.
Des outils avancés d'édition photo intégrés directement dans l'application Photos.
Des mises à jour puissantes pour Image Playground, permettant de créer et modifier des images de manière intuitive.
Des voix incroyablement expressives pour les interactions vocales.

Pour protéger la vie privée des utilisateurs, tous ces modèles fonctionnent exclusivement sur l'appareil ou sur Private Cloud Compute, une infrastructure cloud privée conçue par Apple pour garantir la confidentialité des données.

PRIVATE CLOUD COMPUTE : L'INFRASTRUCTURE ULTRA-SÉCURISÉE D'APPLE

Private Cloud Compute est au cœur de la stratégie de confidentialité d'Apple. Contrairement aux services cloud traditionnels, cette infrastructure garantit que les données des utilisateurs ne quittent jamais les serveurs dédiés d'Apple. Même Apple ne peut pas accéder aux données traitées par ces serveurs. AFM 3 Cloud Pro étend cette infrastructure aux GPU NVIDIA dans le cloud Google, tout en maintenant les mêmes garanties de protection de la vie privée.

LES LANGUES SUPPORTÉES : UNE IA POUR LE MONDE

Apple Intelligence prend en charge un large éventail de langues pour répondre aux besoins d'un public mondial. Voici les groupes de langues supportées :

Anglais (États-Unis, Grande-Bretagne, Australie, Inde, etc.).
PFIGSCJK : Portugais, Français, Italien, Allemand, Espagnol, Chinois, Japonais et Coréen.
AFIHHMPRTU : Arabe, Finnois, Indonésien, Hébreu, Hindi, Malais, Polonais, Russe, Thaï et Ukrainien.

L'HISTORIQUE : APPLE INTELLIGENCE DANS LES SYSTÈMES D'EXPLOITATION

Apple Intelligence a été introduit lors de la WWDC 2024 comme un système d'intelligence personnelle intégré profondément dans iOS 18, iPadOS 18 et macOS Sequoia. Ce système repose sur plusieurs modèles génératifs spécialisés pour les tâches quotidiennes des utilisateurs, capables de s'adapter en temps réel à leurs activités.

Les modèles de base intégrés à Apple Intelligence ont été affinés pour des expériences utilisateur spécifiques, comme la rédaction et l'amélioration de texte, la priorisation et la synthèse des notifications, la création d'images ludiques pour les conversations avec la famille et les amis, et la simplification des interactions entre applications.

DES MODÈLES OPTIMISÉS POUR LE MATÉRIEL APPLE

Tous les modèles AFM 3 Core, AFM 3 Core Advanced, AFM 3 Cloud et ADM 3 Cloud (Image) sont optimisés pour fonctionner efficacement sur Apple silicon. AFM 3 Cloud Pro, quant à lui, est optimisé pour les GPU NVIDIA dans le cloud Google. Grâce à la Quantization Aware Training, Apple a compressé ses modèles tout en maintenant une haute précision, offrant ainsi des expériences réactives et de haute qualité sur le matériel cible.

UNE IA EMBARQUÉE : PUISSANCE SANS COMPROMIS SUR LA CONFIDENTIALITÉ

Les modèles embarqués comme AFM 3 Core et AFM 3 Core Advanced permettent à Apple Intelligence de fonctionner localement sur les appareils des utilisateurs, sans nécessiter de connexion internet. Cela garantit une latence minimale et une confidentialité totale, car les données ne quittent jamais l'appareil.

Ces modèles embarqués sont conçus pour être légers et efficaces, tout en offrant des performances comparables à des modèles serveurs plus lourds. Leur architecture sparsely activated permet de charger uniquement les parties nécessaires du modèle en mémoire vive, réduisant ainsi la consommation d'énergie et prolongeant l'autonomie des appareils.

DES PERFORMANCES MULTIMODALES : COMPRENDRE LE TEXTE, LES IMAGES ET L'AUDIO

AFM 3 Cloud et ADM 3 Cloud sont des modèles multimodaux capables de traiter et de comprendre plusieurs types de données simultanément. Par exemple, ils peuvent analyser une image et en extraire le texte, ou comprendre une requête vocale et générer une réponse textuelle ou visuelle.

Cette capacité multimodale est rendue possible grâce à des architectures avancées comme le Parallel-Track Mixture-of-Experts (PT-MoE), qui permet au modèle de traiter différentes modalités de données en parallèle tout en partageant des ressources communes. Cela améliore l'efficacité et la précision des réponses générées par le modèle.

UNE ARCHITECTURE MODULAIRE POUR UNE ÉVOLUTION FUTURE

Les modèles AFM 3 sont conçus avec une architecture modulaire, ce qui permet à Apple d'ajouter facilement de nouvelles fonctionnalités ou d'améliorer les existantes sans avoir à tout réentraîner. Cette approche facilite les mises à jour régulières et garantit que les utilisateurs bénéficient toujours des dernières avancées technologiques.

Par exemple, l'utilisation d'adapters spécialisés pour des fonctionnalités comme le Spatial Reframing ou les modifications d'images basées sur le toucher permet d'ajouter de nouvelles capacités sans modifier le modèle de base. Cela réduit les coûts de développement et accélère le déploiement de nouvelles fonctionnalités.

DES OUTILS POUR LES DÉVELOPPEURS : LE FRAMEWORK APPLE FOUNDATION MODELS

Apple a introduit un nouveau Foundation Models framework lors de la WWDC 2025. Ce framework permet aux développeurs d'applications d'intégrer facilement les capacités des Apple Foundation Models dans leurs propres applications. Cela ouvre la porte à une nouvelle génération d'applications intelligentes et innovantes sur les plateformes Apple.

Grâce à ce framework, les développeurs peuvent tirer parti des modèles AFM 3 pour créer des expériences utilisateur uniques, comme des assistants vocaux personnalisés, des outils d'édition d'images avancés ou des systèmes de recommandation intelligents. Le framework est conçu pour être simple à utiliser, tout en offrant des performances optimales.

UNE IA RESPONSABLE : PROTÉGER LES UTILISATEURS À CHAQUE ÉTAPE

Apple a mis en place plusieurs mesures pour garantir que ses modèles d'IA sont sûrs et éthiques. Une taxonomie de sécurité permet d'identifier les contenus sensibles, et des garde-fous linguistiques spécifiques sont utilisés pour chaque langue supportée. De plus, des tests de sécurité sont réalisés par des équipes locales pour s'assurer que les modèles respectent les normes culturelles et linguistiques de chaque région.

Apple utilise également des techniques d'alignement post-entraînement pour améliorer la précision et la fiabilité des modèles. Ces techniques permettent de réduire les biais et d'améliorer la qualité des réponses générées par les modèles.

DES PROGRÈS MESURABLES DANS TOUS LES DOMAINES

Les évaluations menées par Apple montrent des progrès significatifs dans tous les domaines évalués. Que ce soit pour les capacités textuelles, la compréhension d'images ou les interactions vocales, les nouveaux modèles AFM 3 et ADM 3 surpassent leurs prédécesseurs de manière constante et mesurable.

Ces améliorations se traduisent par une expérience utilisateur plus fluide, plus intuitive et plus agréable. Les utilisateurs peuvent s'attendre à des réponses plus précises, plus rapides et plus adaptées à leurs besoins spécifiques.

UNE VISION POUR L'AVENIR : APPLE INTELLIGENCE AU CŒUR DE L'EXPÉRIENCE UTILISATEUR

Avec cette troisième génération de modèles, Apple Intelligence devient encore plus intégré aux systèmes d'exploitation et aux applications des utilisateurs. L'objectif est de rendre chaque interaction avec un appareil Apple plus intelligente, plus utile et plus personnelle.

Les nouveaux modèles AFM 3 et ADM 3 sont conçus pour s'adapter en temps réel aux activités des utilisateurs, en comprenant le contexte et en fournissant des réponses pertinentes et précises. Cette approche vise à transformer la façon dont les utilisateurs interagissent avec leurs appareils, en rendant chaque expérience plus intuitive et plus agréable.

DES MODÈLES POUR TOUS LES CAS D'USAGE : DE L'APPAREIL AU CLOUD

Apple propose une gamme complète de modèles pour répondre à tous les besoins, des tâches simples sur appareil aux requêtes complexes nécessitant une puissance de calcul importante. Que ce soit pour la rédaction de texte, la compréhension d'images, la génération de voix ou l'édition de photos, il existe un modèle AFM ou ADM adapté à chaque usage.

Cette diversité de modèles permet à Apple Intelligence de s'adapter à chaque situation, en offrant la meilleure expérience possible tout en garantissant la confidentialité des données des utilisateurs.

UNE TECHNOLOGIE AU SERVICE DE LA CRÉATIVITÉ

Les nouveaux modèles d'IA d'Apple ouvrent la porte à une créativité sans limites. Que ce soit pour créer des images uniques avec Image Playground, éditer des photos de manière intuitive ou générer des voix expressives, les outils alimentés par AFM 3 et ADM 3 permettent aux utilisateurs d'exprimer leur créativité comme jamais auparavant.

Ces avancées technologiques rendent les applications créatives plus accessibles et plus puissantes, permettant à chacun de réaliser des projets ambitieux sans avoir besoin de compétences techniques avancées.

UN ENGAGEMENT POUR LA CONFIDENTIALITÉ : AUCUNE DONNÉE UTILISATEUR N'EST UTILISÉE POUR L'ENTRAÎNEMENT

Apple réaffirme son engagement envers la confidentialité des utilisateurs. Aucune donnée personnelle ou interaction utilisateur n'est utilisée pour entraîner les modèles AFM 3 et ADM 3. Toutes les données utilisées pour l'entraînement proviennent de sources publiques, sous licence ou synthétiques, et respectent les droits des éditeurs web.

Cette approche garantit que les utilisateurs peuvent bénéficier des avantages de l'IA sans compromettre leur vie privée. Les données restent sur l'appareil ou sont traitées de manière sécurisée dans Private Cloud Compute, sans jamais être partagées avec des tiers.

DES PERFORMANCES QUI PARLENT D'ELLES-MÊMES

Les chiffres parlent d'eux-mêmes : AFM 3 Core est préféré sur 45,6 % des requêtes textuelles par rapport à 23,3 % pour la référence 2025. AFM 3 Cloud est préféré sur 64,7 % des requêtes par rapport à seulement 8,7 % pour le modèle serveur 2025. AFM 3 Cloud Pro offre une amélioration supplémentaire de 10 % pour les réponses textuelles et de 14 % pour la compréhension d'images.

Ces résultats démontrent clairement que les nouveaux modèles d'Apple représentent une avancée majeure dans le domaine de l'IA, tout en respectant les principes de confidentialité et d'éthique qui sont au cœur de la philosophie de l'entreprise.

Sources :

Apple ML Research

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO