Timer-XL : le modèle qui lit l'avenir comme un livre ouvert

Timer-XL, un modèle d'IA basé sur un décodeur Transformer, repousse les limites de la prévision de séries temporelles en gérant de très longues séquences grâce à une technique d'attention inédite : TimeAttention.

LE GRAND BASCULEMENT

Récemment, un changement s'est opéré dans le fonctionnement des modèles de fondation. Après avoir établi que le pré-entraînement d'un grand modèle d'apprentissage profond sur un vaste corpus de données temporelles confère des propriétés généralisables, les modèles de séries temporelles pré-entraînés cherchent désormais à être encore plus polyvalents. Pour les séries temporelles, cela signifie prendre en charge des variables exogènes et autoriser des longueurs de contexte et de prédiction variables.

Cet article présente Timer-XL, un modèle de série temporelle amélioré basé sur Timer. Timer-XL est conçu pour la généralisation, avec un accent sur la prévision à long contexte. Timer-XL est un modèle de fondation Transformer à décodeur uniquement pour la prévision. Il met l'accent sur la généralisabilité et les prédictions à long contexte, offrant ainsi une prévision unifiée et à longue portée. Timer-XL améliore la précision des prévisions grâce à TimeAttention, un mécanisme d'attention élégant que nous examinerons en détail plus loin.

L'équipe à l'origine de Timer-XL (laboratoire THUML de l'université Tsinghua) possède une expertise approfondie en modélisation de séries temporelles. Elle a publié des modèles marquants comme iTransformer, TimesNet et Timer, le prédécesseur de Timer-XL.

Avant d'aborder Timer-XL, explorons les travaux connexes et l'état des modèles de fondation pour les séries temporelles, afin de comprendre les origines de cette percée.

POURQUOI UN DÉCODEUR SEUL ?

Aux débuts du Transformer, un débat agitait les chercheurs sur l'architecture la plus efficace. Le Transformer original était un modèle encodeur-décodeur. Par la suite, la recherche s'est scindée en deux branches : les modèles à encodeur seul, comme BERT (lancé par Google), et les modèles à décodeur seul, comme GPT (lancé par OpenAI). En traitement du langage, les modèles à décodeur seul dominent les tâches de Génération, tandis que les modèles à encodeur seul sont utilisés pour la classification, la régression ou la reconnaissance d'entités nommées.

Fin 2024 et début 2025, de nombreux modèles de fondation ont été publiés, apportant des preuves solides sur ce qui fonctionne le mieux. Tous ces modèles se déclinent en plusieurs variantes. Jusqu'à présent, les modèles à décodeur ou à encodeur-décodeur surpassent les encodeurs seuls pour la prévision. Les auteurs de Timer-XL étayent cette conclusion par des expériences approfondies.

Il existe aussi une catégorie de modèles polyvalents, capables de prévision, classification, imputation, etc. C'est le cas de MOMENT et UNITS, qui sont des modèles à encodeur seul. Timer, lui aussi polyvalent, est un modèle à décodeur seul. Son successeur, Timer-XL, le surpasse en prévision mais se spécialise uniquement dans cette tâche. C'est pourquoi les auteurs sont passés de la conception généraliste de Timer à la spécialisation de Timer-XL dans la prévision. Les deux modèles utilisent un décodeur, une architecture qui favorise la tâche de prévision .

LONG CONTEXTE : LE NOUVEAU DÉFI

L'avantage principal des modèles Transformer réside dans leur capacité à gérer un long contexte. Les grands modèles de langage modernes comme Gemini acceptent jusqu'à un million de tokens. Même s'ils ne sont pas parfaits à cette échelle, ils restent fiables jusqu'à 100 000 tokens. Les modèles de séries temporelles, eux, sont loin derrière : les modèles Transformer et d'apprentissage profond peinent souvent au-delà de 1 000 tokens. Des modèles de fondation récents comme MOIRAI montent jusqu'à 4 000.

Timer-XL gère l'allongement du contexte mieux que tous les autres modèles.

Pour des jeux de données quotidiens comme le trafic, on peut utiliser jusqu'à un an de données (environ 8 760 points). Timer-XL est donc idéal pour la prévision à haute fréquence, une configuration où les modèles de fondation échouent souvent.

Les auteurs ont aussi exploré l'impact de l'architecture sur l'efficacité de la prévision à long contexte. En analysant les cartes d'attention, ils ont observé que :

L'encodeur montre une attention large et diffuse sur l'ensemble de la séquence, chaque token prêtant attention à beaucoup d'autres, ce qui indique un manque de focalisation. Parfois, il se concentre sur des parties non pertinentes et rate les données les plus récentes.
Le décodeur présente une structure clairsemée et triangulaire, une attention d'abord locale et causale, avec des pics occasionnels qui indiquent qu'il va chercher plus loin dans le passé quand c'est utile.

Bref, les modèles à encodeur dispersent leur attention, tandis que les décodeurs se focalisent sur les tokens récents tout en zoomant de façon adaptative sur les données antérieures utiles.

TIMEATTENTION : LA CLÉ DE VOÛTE

L'attention est le moteur du Transformer, une révolution en traitement du langage, mais elle est à double tranchant pour les séries temporelles. Voyons comment les modèles d'apprentissage profond abordent ces données.

En séries temporelles, un point de donnée ou un patch (un groupe de points consécutifs) est appelé un token. Imaginons un jeu de données de 3 séries, avec y la cible et x, z des covariables observées. Pour une taille d'entrée T, les séquences sont formatées en ligne.

Les premiers modèles comme PatchTST appliquaient l'attention le long de la dimension temporelle, par exemple entre les triplets (y1, x1, z1), (y2, x2, z2), etc. Cette approche a des inconvénients, comme rater les décalages inter-variables. Des modèles plus récents comme iTransformer ont résolu cela en appliquant l'attention sur la dimension des variables, entre y1.yN, x1.xN, z1.zN. On peut même combiner les deux : CARD, un modèle à encodeur seul, utilise une attention séquentielle en deux étapes, d'abord inter-temporelle puis inter-variables. Mais cette méthode est lente.

MOIRAI a franchi un cap en introduisant l'Any-Variate Attention, une technique d'attention adaptée aux modèles pré-entraînés. Elle capture les relations temporelles tout en préservant une invariance par permutation entre les variables. Cependant, MOIRAI étant un modèle à encodeur masqué, cette attention ne peut pas être reprise telle quelle dans un modèle à décodeur seul, qui utilise une auto-attention causale (ne regardant que les tokens précédents), contrairement à l'attention bidirectionnelle.

C'est là que Timer-XL innove avec TimeAttention, une variante causale de l'attention de MOIRAI. Le score d'attention entre la requête en position (m,i) et la clé en position (n,j) (i,j indices temporels, m,n indices de variable) est calculé en tenant compte de la similarité temporelle et de la dépendance entre variables, avec une contrainte de causalité. Cette formule distingue les différentes séries et préserve une propriété d'équivariance par permutation.

Attention : quand on parle de tokens, il s'agit de patches, pas de points individuels. Ainsi, les scores d'attention sont calculés entre patches.

Timer-XL profite aussi des optimisations des grands modèles de langage, comme FlashAttention, qui accélère le calcul de l'attention et réduit la mémoire en optimisant les opérations matricielles. En revanche, Timer-XL ne bénéficie pas de la normalisation par instance réversible (RevIN), une technique courante pour gérer les glissements de distribution. Les auteurs attribuent cela à la structure fenêtrée du modèle, qui opère sur plusieurs variables.

DES RÉSULTATS QUI PARLENT D'EUX-MÊMES

Timer-XL est avant tout un modèle de fondation zero-shot, mais il peut aussi être entraîné de zéro sur un jeu de données spécifique. Dans le tableau 1, Timer-XL est comparé aux grands modèles d'apprentissage profond sur des datasets bien connus. Pour chaque dataset, on rapporte l'erreur absolue moyenne (MAE) et l'erreur quadratique moyenne (MSE) moyennées via une évaluation en prévision glissante sur l'ensemble de test. Cette approche consiste à entraîner le modèle avec 672 pas d'entrée pour produire N pas de sortie (96, 192, 336 ou 720), puis à réinjecter la fenêtre précédente de valeurs réelles comme entrée jusqu'à atteindre la longueur de prévision cible. Le tableau 1 montre le score moyen sur toutes les longueurs de prédiction.

Timer-XL surpasse les modèles classiques sur tous les horizons de prévision testés.

Les tests sont étendus à des modèles d'autres domaines, comme le montre le dataset GTWSF (un défi de prévision de la vitesse du vent). En prévision multivariée, chaque série temporelle est traitée comme un canal distinct ; le modèle capture leurs interdépendances et prédit toutes les séries conjointement. En prévision avec covariables, on prédit une série cible en utilisant les autres comme covariables, qu'elles soient passées observées, futures connues ou statiques. Un exemple pratique est montré dans la figure 7 (à droite), où la variable A est prédite en fonction de sa dépendance (flèche verte) à B.

Le tableau 2 présente les résultats sur le dataset EPF (prévision des prix de l'électricité). Les auteurs incluent à la fois le Timer-XL standard et une variante avec encodeur (sans la causalité).

Enfin, Timer-XL est évalué comme modèle de fondation, comparé à d'autres modèles de séries temporelles de premier plan. Un pré-entraînement univarié est effectué sur le dataset LOTSA (utilisé pour MOIRAI) et sur UTSD, un ensemble de données constitué par le groupe THUML et qui contient un milliard de points. Les mêmes métriques que précédemment sont utilisées (scores moyennés sur les longueurs de prédiction 96, 192, 336 et 720). Aucun des modèles n'a été entraîné sur ces datasets : il s'agit de prévision zero-shot. Les résultats complets sont dans le tableau 13 de l'article, et on y constate que Timer-XL est légèrement meilleur pour les longues prédictions.

L'ATTENTION QUI DÉVOILE TOUT

Peu de modèles de séries temporelles explorent l'interprétabilité. Les auteurs de Timer-XL montrent comment l'attention capture les interdépendances entre variables. La figure 11 présente la matrice d'attention moyenne, de taille 10x10 correspondant aux paires de 10 variables. On y voit que les paires de variables ayant un score d'attention élevé sont aussi fortement corrélées. Par exemple, la paire (6,7) possède un score plus élevé que la paire (6,2), ce qui correspond à une corrélation réelle plus forte.

L'attention de Timer-XL apprend toute seule les dépendances entre variables.

Ce n'est pas une nouveauté : de nombreux modèles de prévision exploitent cette propriété. Mais cela confirme que le mécanisme d'attention de Timer-XL fonctionne comme prévu, en capturant correctement les dépendances multi-variées.

PRISE EN MAIN : DU ZERO-SHOT EN PRATIQUE

Au moment de la rédaction, les auteurs ont publié la version univariée pré-entraînée de Timer-XL. Nous l'avons donc évaluée sur le dataset ETTh2 et sur le dernier mois de l'indice S&P 500. Les résultats sont prometteurs. La figure 12 montre les prédictions sur ETTh2 : la courbe prédite suit fidèlement les données réelles.

Sources :

Towards Data Science

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO