Transfer Learning : comment l'IA apprend à ne pas tout réapprendre de zéro

Stéphane Guy
22 févr.
9 min de lecture

Vous avez peut-être remarqué que ChatGPT comprend le français alors qu'il a été conçu par une entreprise américaine. Ou que des IA médicales détectent des tumeurs sans avoir été entraînées pendant des années sur des milliers de scanners. Derrière ces exploits, il y a souvent un même mécanisme : le Transfer Learning. Une technique aussi élégante qu'efficace, qui permet à une intelligence artificielle de réutiliser ce qu'elle a déjà appris pour résoudre de nouveaux problèmes. Mais comment ça marche vraiment ? Et pourquoi c'est l'une des avancées les plus importantes de ces dernières années ?

Une IA en forme de cerveau — Photo de Steve Johnson sur Unsplash

En bref

Le Transfer Learning, ou apprentissage par transfert, consiste à réutiliser les connaissances d'un modèle d'IA déjà entraîné pour l'adapter à une nouvelle tâche similaire, sans repartir de zéro.
C'est la technique qui est à la base de modèles comme GPT ou BERT, les grands modèles de langage qui alimentent ChatGPT et bien d'autres outils.
Il existe plusieurs stratégies de transfert, du simple « gel » des premières couches d'un réseau jusqu'au fine-tuning complet, selon les ressources disponibles et l'objectif visé.
Les avantages sont concrets : moins de données nécessaires, moins de puissance de calcul, et des résultats souvent meilleurs que ceux obtenus en entraînant un modèle from scratch sur un petit jeu de données.
Le Transfer Learning a aussi ses limites, notamment le risque de « transfert négatif » quand les tâches source et cible sont trop éloignées l'une de l'autre.

C'est quoi le Transfer Learning ?

Une idée simple, inspirée des humains

Imaginez que vous sachiez jouer de la guitare. Le jour où vous décidez d'apprendre le piano, vous ne recommencez pas depuis le début. Vous maîtrisez déjà la notion de rythme, vous lisez la musique, vous comprenez les gammes. Il vous reste à apprivoiser un nouvel instrument, certes, mais une base solide est là.

Le Transfer Learning applique exactement ce principe aux intelligences artificielles. Comme le définit Wikipedia, l'apprentissage par transfert est "l'un des champs de recherche de l'apprentissage automatique qui vise à transférer des connaissances d'une ou plusieurs tâches sources vers une ou plusieurs tâches cibles."*

*Wikipédia, Apprentissage par transfert

Concrètement : au lieu d'entraîner un nouveau modèle d'IA sur des millions de données, depuis le début, on part d'un modèle qui a déjà appris des choses (parfois beaucoup de choses) et on lui enseigne une nouvelle compétence plus ciblée.

La différence avec l'apprentissage classique

Dans l'apprentissage automatique traditionnel, chaque nouveau problème nécessite un nouveau modèle entraîné sur de nouvelles données. C'est efficace, mais terriblement coûteux. Comme le souligne IBM, "l'entraînement d'un nouveau modèle de ML est un processus chronophage et intensif qui nécessite d'importants volumes de données, de la puissance de calcul et plusieurs itérations."*

*AWS, Qu'est-ce que l'apprentissage par transfert ?

Le Transfer Learning rompt avec cette logique. L'idée centrale, c'est que les connaissances ne sont pas jetables. Un modèle qui a appris à reconnaître des formes dans des images a acquis une compréhension générale des contours, des textures, des couleurs — des compétences qui serviront pour reconnaître des tumeurs sur un scanner, même si personne n'avait prévu cette application au départ.

Comment ça fonctionne, techniquement ?

Les couches d'un réseau de neurones, une hiérarchie de connaissances

Pour comprendre le Transfer Learning, il faut rappeler brièvement comment fonctionne un réseau de neurones profond (on en parle en détail dans notre article sur les réseaux de neurones artificiels). Ces réseaux sont organisés en couches successives. Les premières couches apprennent des caractéristiques génériques, comme des contours dans une image, des sons basiques dans un signal audio... Les couches plus profondes, elles, apprennent des choses très spécifiques à la tâche qu'on leur a confiée.

Cette organisation hiérarchique est précisément ce qui rend le Transfer Learning possible. Les premières couches d'un modèle entraîné à reconnaître des images de voitures savent déjà "voir". Elles peuvent donc être réutilisées telles quelles pour un tout autre problème visuel, parfois similaire, comme la détection d’autres véhicules.*

*DataSciencTest, Transfer Learning : qu'est-ce que c'est ?

Geler, affiner, ou tout réentraîner ?

Il existe en pratique trois grandes approches.

La première, c'est ce qu'on appelle le « feature extraction » ou extraction de caractéristiques. On prend un modèle pré-entraîné, on gèle l'ensemble de ses couches (on fixe leurs poids, c'est-à-dire qu'on les empêche de se modifier), et on ne remplace que la dernière couche par une nouvelle, adaptée à la nouvelle tâche. C'est l'approche la plus économique en ressources. Elle fonctionne très bien quand la tâche source et la tâche cible sont proches.

La deuxième approche est le fine-tuning, ou ajustement fin. On garde le modèle pré-entraîné comme point de départ, mais on autorise certaines couches (généralement les dernières, les plus spécifiques) à se modifier au cours d'un nouvel entraînement sur les nouvelles données. C'est plus coûteux, mais souvent plus performant.*

*Meritis, Les méthodes de Transfer Learning

La troisième, enfin, consiste à réentraîner l'intégralité du modèle, en partant des poids du modèle source comme initialisation. On bénéficie d'un "bon point de départ", mais on laisse le modèle tout réapprendre. C'est l'approche la plus gourmande en données et en calcul.

Quand les poids "voyagent" d'un modèle à l'autre

L'expression technique pour décrire ce processus, c'est le transfert de poids. Dans un réseau de neurones, les poids sont des valeurs numériques qui déterminent l'importance de chaque connexion entre neurones. Quand on fait du Transfer Learning, on copie littéralement ces poids d'un modèle à un autre.

C'est un peu comme si un chirurgien confirmé transmettait sa mémoire gestuelle à un interne. La main de l'interne n'est pas celle du maître, mais elle bénéficie d'un point de départ que des années d'apprentissage indépendant n'auraient pas pu produire.

Un cerveau IA — Photo de Growtika sur Unsplash

GPT, BERT, ResNet : le Transfer Learning derrière les grands modèles

Le NLP : le domaine qui a tout changé

C'est sans doute dans le traitement du langage naturel (NLP) que le Transfer Learning a eu son impact le plus spectaculaire. Les modèles comme BERT, développé par Google, ou la famille GPT d'OpenAI (celle qui alimente ChatGPT) reposent entièrement sur ce principe.

Ces modèles sont d'abord pré-entraînés sur des quantités astronomiques de texte : des milliards de pages web, de livres, d'articles. Ils apprennent ainsi à "comprendre" la langue, comme ses structures, ses nuances, ou encore ses associations sémantiques. Ensuite, ils sont affinés (fine-tuned) pour des tâches précises : répondre à des questions, traduire, résumer, classer des avis clients.

La vision par ordinateur : ResNet et ImageNet

Dans le domaine de la reconnaissance d'images, des modèles comme ResNet ou VGG16 ont été entraînés sur ImageNet, une base de données de 1.2 million d'images classées en mille catégories. Ces modèles sont devenus des ressources publiques, que n'importe quel développeur peut réutiliser. Vous voulez une IA qui détecte des défauts sur une chaîne de production industrielle ? Inutile de repartir de zéro. Prenez ResNet, gelez ses premières couches, ajoutez-en quelques nouvelles, et entraînez-les sur vos images de pièces défectueuses. En quelques jours, vous avez un système performant.*

*Meritis, Les méthodes de Transfer Learning

La médecine, cas d'usage emblématique

L'un des exemples les plus frappants reste l'imagerie médicale. Entraîner un modèle de zéro pour détecter des cancers de la peau demanderait des centaines de milliers de dermoscopies annotées par des dermatologues : une ressource rare et coûteuse… Grâce au Transfer Learning, on part d'un modèle déjà entraîné sur des millions d'images génériques, on l'adapte avec quelques milliers d'images médicales, et les résultats se rapprochent de ceux d'un expert humain.*

*Innovatiana, Transfer Learning : pour une IA rapide et performante

C'est là que réside la vraie promesse de cette technique : démocratiser l'IA performante en la rendant accessible, et ce même quand les données manquent ou que les budgets sont limités.

Les avantages concrets

Moins de données, moins de temps, moins d'argent

C'est l'argument numéro un. Entraîner un grand modèle de langage de zéro coûte plusieurs dizaines de millions d'euros, mobilise des infrastructures de calcul colossales et nécessite des mois de travail. Avec le Transfer Learning, une entreprise de taille moyenne peut affiner un modèle existant en quelques jours, avec un budget raisonnable et un jeu de données modeste.

Cette accessibilité a un impact réel sur l'écosystème. Des startups, des hôpitaux, des chercheurs en sciences humaines ont pu déployer des applications d'IA qui leur auraient été totalement inaccessibles il y a dix ans.

Une performance souvent meilleure

Contre-intuitivement, un modèle pré-entraîné et fine-tuné surpasse souvent un modèle entraîné entièrement sur les données cibles, surtout quand ces dernières sont en nombre limité. La raison est simple : le modèle source a développé des représentations générales très riches, qui constituent une base bien plus solide qu'un apprentissage improvisé sur peu d'exemples.

Une empreinte environnementale réduite

On parle souvent du coût environnemental de l'IA, un sujet que nous avons traité en détail sur 360°IA. Le Transfer Learning constitue, à ce titre, une avancée non négligeable. Réutiliser un modèle existant, c'est éviter des centaines d'heures de calcul sur des milliers de GPU. Ce n'est pas une solution miracle, mais c'est un pas dans la bonne direction.

Les limites et les risques

Le transfert négatif : quand ça se passe mal

Tout n'est pas rose. Lorsque la tâche source et la tâche cible sont trop éloignées l'une de l'autre, le transfert peut dégrader les performances plutôt que de les améliorer. On parle alors de transfert négatif. Un modèle entraîné à analyser des photos de paysages sera probablement un mauvais point de départ pour analyser des signaux électroencéphalographiques. Les structures apprises sont trop différentes, voire contre-productives.

La difficulté, c'est qu'il n'existe pas de règle universelle pour prédire si un transfert sera positif ou négatif. C'est encore largement affaire de jugement expert et d'expérimentation.

L'héritage des biais

Un modèle pré-entraîné n'est pas une ardoise vierge. Il a absorbé les biais présents dans ses données d'entraînement : biais de genre, de culture, de représentation… Quand on l'adapte à une nouvelle tâche, ces biais voyagent avec lui, souvent sans qu'on s'en aperçoive. C'est un problème sérieux, notamment dans des applications à fort enjeu humain comme le recrutement ou la justice prédictive.

La dépendance aux grands modèles

Le Transfer Learning a aussi une dimension géopolitique qu'il serait naïf d'ignorer. Les grands modèles pré-entraînés (ceux que tout le monde réutilise) sont produits par une poignée d'acteurs : Google, OpenAI, Meta, quelques laboratoires académiques américains ou britanniques. Réutiliser leur travail, c'est aussi dépendre de leurs choix, de leurs valeurs, de leurs politiques d'accès. La question de la souveraineté numérique se pose avec acuité.

Le risque de sur-spécialisation

Enfin, un modèle trop finement ajusté sur des données cibles en petit nombre peut tomber dans le piège du sur-apprentissage : il excelle sur les exemples connus, mais peine dès qu'on lui soumet quelque chose de légèrement différent. Trouver le bon équilibre entre généralisation et spécialisation reste l'un des défis techniques centraux du domaine.

Et demain ? Le Transfer Learning au cœur de l'IA générative

Le Transfer Learning n'est pas une tendance passagère. Il est littéralement au cœur de l'IA générative telle qu'on la connaît aujourd'hui. Chaque fois que vous posez une question à ChatGPT, que vous générez une image avec Midjourney, ou que vous utilisez un outil de traduction automatique, vous bénéficiez indirectement d'une chaîne de transferts de connaissances. Les modèles de base sont pré-entraînés à grande échelle, puis affinés pour des usages spécifiques, puis parfois affinés à nouveau pour des contextes encore plus précis.

Cette logique en cascade ouvre des perspectives fascinantes. Des chercheurs travaillent à des transferts encore plus ambitieux : entre des modalités différentes (texte vers image, image vers son), entre des langues peu dotées en données, entre des domaines scientifiques qui semblaient n'avoir rien en commun.

L'idée que les connaissances d'une IA puissent circuler, se réutiliser, s'accumuler plutôt que se perdre, c'est peut-être là l'intuition la plus prometteuse de toute l'histoire récente de l'intelligence artificielle. Pas tant parce qu'elle rend les machines plus intelligentes au sens humain du terme — mais parce qu'elle les rend enfin un peu moins amnésiques.

FAQ

Transfer Learning et fine-tuning, c'est la même chose ?
Pas tout à fait. Le fine-tuning est l'une des techniques du Transfer Learning, mais pas la seule. Le Transfer Learning désigne le principe général de réutilisation de connaissances d'un modèle source. Le fine-tuning est une méthode spécifique qui consiste à réentraîner tout ou partie d'un modèle pré-entraîné sur de nouvelles données. Il existe d'autres approches, comme le feature extraction (on gèle le modèle et on n'entraîne qu'une nouvelle couche finale).
Est-ce que le Transfer Learning s'applique uniquement aux réseaux de neurones ?
Non, même si c'est là qu'il est le plus souvent utilisé aujourd'hui. Le principe peut s'appliquer à d'autres algorithmes de machine learning. Mais c'est dans le deep learning, avec ses architectures en couches, que le Transfer Learning est le plus naturel et le plus efficace, car la séparation entre couches génériques et couches spécifiques s'y prête particulièrement bien.
Pourquoi ne pas toujours entraîner un modèle from scratch sur ses propres données ?
Pour plusieurs raisons : le coût en données (il en faut énormément), le coût en calcul (des semaines sur des infrastructures onéreuses), et le risque de résultats décevants si le jeu de données cible est trop petit. Un modèle pré-entraîné, même imparfait au départ, offre généralement un bien meilleur point de départ qu'un apprentissage sur peu d'exemples.
Le Transfer Learning peut-il transférer des biais d'un domaine à un autre ?
Oui, et c'est un vrai problème. Si le modèle source a été entraîné sur des données biaisées, par exemple des textes qui sous-représentent certaines cultures ou surestiment certains groupes, ces biais seront transférés au modèle cible. L'audit des modèles pré-entraînés est une étape essentielle, trop souvent négligée en pratique.
GPT et ChatGPT utilisent-ils vraiment le Transfer Learning ?
Absolument. Les modèles GPT sont d'abord pré-entraînés sur des quantités massives de texte (phase de pre-training), puis affinés sur des données plus spécifiques avec des retours humains (phase de fine-tuning et RLHF). C'est un exemple emblématique d'apprentissage par transfert appliqué à l'échelle industrielle.
Existe-t-il des outils pour faire du Transfer Learning sans être expert en IA ?
Oui. Des plateformes comme Hugging Face proposent des guides et tutoriels accessibles même aux développeurs non spécialistes. Des outils comme Google Vertex AI offrent également des interfaces qui simplifient grandement l'accès à ces techniques pour les entreprises.