L'intelligence artificielle (IA) est omniprésente aujourd'hui, que ce soit via des assistants virtuels sur nos téléphones, des recommandations personnalisées en ligne ou des outils avancés d'automatisation en entreprise. Vous avez probablement déjà utilisé des IA sans le savoir -- par exemple en posant des questions à ChatGPT ou Mistral.
Mais que se cache-t-il derrière ces technologies, et que signifie réellement « intelligence artificielle » ?
Dans ce premier cours d'initiation, nous allons poser les bases : définir clairement ce qu'est (et n'est pas) l'IA, parcourir son histoire depuis les débuts en 1956 jusqu'à l'essor du deep learning dans les années 2010, présenter les grandes approches du domaine, ainsi que ses principaux sous-domaines (des systèmes experts aux réseaux de neurones et modèles de langage).
Nous illustrerons aussi par des exemples concrets d'usage (assistants vocaux, véhicules autonomes, IA pour les réseaux informatiques, etc.), avant de terminer par une courte démonstration interactive en IA conversationnelle, afin de comparer des réponses de modèles comme ChatGPT ou DeepSeek et de réfléchir à ce qui se passe « sous le capot » lorsque ces IA conversent avec nous.
L'objectif est de fournir une introduction fluide et pédagogique, adaptée à un public technique (TSSR et AIS) débutant en IA. Nous alternerons explications théoriques simples, repères historiques et illustrations pratiques, afin de démystifier l'IA tout en donnant les connaissances essentielles pour aborder la suite de la formation.
Commençons par définir le terme !
L'intelligence artificielle désigne un domaine scientifique de l'informatique qui cherche à créer des machines ou des programmes capables de reproduire certaines capacités cognitives humaines.
En d'autres termes, une IA est un système informatique qui imite des comportements « intelligents » liés aux humains, tels que le raisonnement, la planification ou la créativité. Cette notion recouvre en réalité un ensemble de techniques et de théories plutôt qu'une seule technologie précise. Un système sera généralement qualifié d'IA s'il met en œuvre des mécanismes se rapprochant du raisonnement humain pour accomplir une tâche donnée. Par exemple, un programme capable de diagnostiquer une panne réseau en analysant des symptômes comme le ferait un expert humain peut être vu comme une IA, de même qu'un algorithme qui apprend à reconnaître des visages sur des images.
Il est important de souligner qu'« intelligence artificielle » est un terme clairement imparfait, simplement trompeur.
Il ne s'agit pas d'une intelligence au sens humain du terme -- en réalité, « l'IA n'a rien d'intelligent » pris littéralement, note Luc Julia (cocréateur de Siri) : ce que l'on appelle IA repose sur des concepts mathématiques et informatiques connus et programmés par l'homme, sans conscience ni volonté propres.
Par convention, on parle d'intelligence « artificielle » pour toute machine capable d'accomplir de manière autonome des tâches qui requièrent typiquement de l'intelligence humaine. Cela va du fait de comprendre le langage naturel, à jouer aux échecs, conduire une voiture ou proposer un contenu en fonction de nos préférences.
Parce que le terme suscite beaucoup de fantasmes, clarifions aussi ce que l'IA n'est pas :
En résumé, l'IA est un champ scientifique visant à automatiser des comportements intelligents.
Ce n'est ni une entité consciente, ni un simple programme figé, ni une baguette magique infaillible.
Maintenant que le cadre est posé, explorons comment l'IA a vu le jour et évolué au fil du temps.
L'histoire de l'IA en tant que discipline démarre officiellement au milieu des années 1950.
Bien sûr, l'idée de machines « pensantes » existait dans la littérature et les travaux de pionniers bien avant, notamment avec Alan Turing qui proposa dès 1950 un test pour évaluer si une machine peut se faire passer pour humaine dans une conversation (le Test de Turing).
Mais c'est en 1956 que le terme « Artificial Intelligence » (intelligence artificielle) a été formulé pour la première fois lors d'une conférence fondatrice. Cet événement, l'atelier de Dartmouth (organisé au Dartmouth College aux USA par John McCarthy, Marvin Minsky et leurs collègues), est généralement considéré comme l'acte de naissance du domaine de l'IA. Les chercheurs présents ambitionnaient ni plus ni moins que de créer des ordinateurs capables de simuler des fonctions cognitives humaines comme l'apprentissage, la mémoire ou la résolution de problèmes. Cet optimisme initial lance une première vague de recherche et d'enthousiasme.
Suite à Dartmouth, les laboratoires se multiplient. On développe des systèmes capables de démontrer des théorèmes mathématiques, de jouer aux dames ou aux échecs, etc. Un exemple marquant est ELIZA (1966), souvent considéré comme le premier chatbot de l'histoire. ELIZA, conçu au MIT par Joseph Weizenbaum, simulait un psychothérapeute rogérien en reformulant les phrases de l'utilisateur. Le procédé était simple (rechercher certains mots-clés dans les phrases de l'utilisateur et retourner des réponses pré-écrites), pourtant de nombreux utilisateurs se sont pris au jeu et attribuaient à la machine une compréhension quasi-humaine. ELIZA a ainsi démontré à la fois le potentiel et les limites de l'IA naissante : un programme pouvait donner l'illusion d'une conversation intelligente, tout en étant dépourvu de réelle compréhension. Ce prototype a en tout cas inauguré le vaste domaine du Traitement Automatique du Langage Naturel (TALN), qui cherche à faire dialoguer humains et machines.
Après les débuts prometteurs, l'IA a connu des périodes de désillusion, qu'on appelle les « hivers de l'IA ».
Le premier choc survient au début des années 1970 : la recherche n'atteint pas les résultats spectaculaires escomptés. En 1973, un rapport très critique de James Lighthill en Grande-Bretagne souligne l'absence de progrès réels et entraîne une réduction drastique des financements. Durant cet hiver de l'IA, l'intérêt retombe et plusieurs projets sont stoppés. Néanmoins, certaines branches continuent d'avancer, notamment les systèmes experts. Dans les années 1980, ceux-ci connaissent même un essor commercial : un système expert est un programme qui encode les connaissances d'un expert humain sous forme de règles logiques (une base de connaissances + un moteur d'inférence) afin de répondre à des questions ou résoudre des problèmes dans un domaine précis. Par exemple, le système expert MYCIN développé dans les années 1970 à Stanford aidait au diagnostic médical en identifiant des bactéries responsables d'infections sanguines et en recommandant des antibiotiques. De grandes entreprises investissent alors dans ces technologies symboliques. Cependant, les limites de ces approches purement à base de règles deviennent évidentes (difficulté à mettre à jour les connaissances, incapacité à apprendre par elles-mêmes, performances insuffisantes face à la complexité du monde réel). Vers la fin des années 1980, un deuxième hiver de l'IA se produit : l'enthousiasme pour les systèmes experts retombe, et des voix comme celles des chercheurs Roger Schank et Marvin Minsky avaient d'ailleurs mis en garde dès 1984 contre un excès d'attentes menant inévitablement à une nouvelle déception. Effectivement, à la fin des années 80, de nombreuses startups d'IA font faillite et les financements se tarissent à nouveau.
Malgré ce climat morose de la fin 80, certaines approches plus automatiques et statistiques de l'IA poursuivent leur chemin. On voit réapparaître l'intérêt pour les réseaux de neurones artificiels (mis de côté depuis les critiques du perceptron dans les années 60). En 1986, l'invention de l'algorithme de rétropropagation du gradient par Rumelhart, Hinton et Williams permet enfin d'entraîner des réseaux de neurones multicouches efficacement. Cette avancée jette les bases de l'apprentissage profond moderne en montrant qu'un réseau de neurones peut apprendre des représentations complexes. Parallèlement, dans les années 90, le domaine de l'apprentissage automatique (machine learning) développe d'autres algorithmes performants (arbres de décision, forêts aléatoires, machines à vecteurs de support SVM, etc.) grâce à l'augmentation de la puissance de calcul et à la disponibilité croissante de données numériques. Un moment symbolique de cette période est la victoire de Deep Blue en 1997. Deep Blue était un super-ordinateur d'IBM doté d'algorithmes combinant recherche arborescente et règles expertes pour le jeu d'échecs. En mai 1997, il réussit l'exploit de battre le champion du monde d'échecs Garry Kasparov lors d'un match en six parties. C'était la première fois qu'une machine dominait un humain de très haut niveau dans un jeu aussi complexe, demandant stratégie et intuition, pas seulement de la force brute. Cette victoire marque les esprits : elle prouve que les ordinateurs peuvent surpasser l'homme dans certaines tâches intellectuelles bien définies. Elle redonne aussi de la visibilité à l'IA après les « hivers ». En effet, après plusieurs années de passages à vide, le succès de Deep Blue a relancé l'intérêt pour l'IA et inspiré de nouvelles recherches.
À partir des années 2000, plusieurs facteurs convergent pour provoquer une véritable renaissance de l'IA. D'une part, l'arrivée du Web, des smartphones et des réseaux sociaux entraîne une explosion exponentielle des volumes de données numériques disponibles -- c'est l'ère du Big Data. D'autre part, la puissance de calcul continue de croître (loi de Moore, puis utilisation des processeurs graphiques GPU pour le calcul parallèle). Ces évolutions permettent enfin d'appliquer à grande échelle des techniques d'apprentissage automatique qui étaient théorisées de longue date mais impossibles à exploiter faute de données et de calcul. Un chercheur clé de ce renouveau est Geoffrey Hinton. En 2006, Hinton et ses collègues publient des résultats montrant qu'on peut efficacement entraîner des réseaux de neurones profonds (à de nombreuses couches) grâce à des méthodes d'initialisation par couche. Hinton remet ainsi au goût du jour le concept de deep learning (apprentissage profond), une approche consistant à empiler de multiples couches de neurones artificiels pour apprendre des représentations de haut niveau. Le timing est parfait, car les montagnes de données désormais disponibles couplées aux progrès matériels permettent de concrétiser ces idées restées en sommeil. Résultat : ce que l'on avait relégué aux tiroirs quelques années plus tôt devient la technologie vedette des années 2010. En 2012, une percée retentissante illustre la puissance du deep learning : lors du concours international ImageNet de reconnaissance d'images, un réseau de neurones géant appelé AlexNet (conçu par deux étudiants d'Hinton) pulvérise les records en identifiant des objets sur des photos avec un taux d'erreur bien inférieur aux méthodes classiques de l'époque (plus de 10 % d'erreurs en moins que le deuxième meilleur modèle). Ce succès spectaculaire a confirmé que les réseaux de neurones profonds sont redoutablement efficaces pour extraire des motifs complexes à partir de données brutes. À partir de ce moment, tout s'accélère : le deep learning s'invite partout, de la vision par ordinateur à la traduction automatique, en passant par la reconnaissance vocale, les véhicules autonomes, etc..
Milieu des années 2010 : les IA commencent à accomplir des exploits que l'on pensait réservés aux humains. Un exemple emblématique est AlphaGo (2016), programme de DeepMind (filiale de Google) qui bat le champion du monde de jeu de Go, Lee Sedol, par 4 parties à 1. Le jeu de Go, bien plus complexe que les échecs, était considéré comme une « dernière frontière » pour l'IA tant il requiert de finesse et d'intuition. AlphaGo y parvient grâce à une combinaison astucieuse de réseaux de neurones profonds (pour évaluer les positions de jeu) et d'algorithmes de recherche Monte Carlo (pour explorer les conséquences de chaque coup). Cette victoire a été un choc mondial et a montré que l'IA pouvait exceller dans des domaines jugés trop complexes. Elle a aussi illustré la puissance des approches hybrides combinant apprentissage profond et méthodes plus traditionnelles.
Fin des années 2010 -- début 2020 : l'IA atteint le grand public.
Les géants du web intègrent des IA un peu partout (classement des résultats de recherche, modération de contenu, assistants personnels...). En 2018, un progrès majeur en traitement du langage est réalisé avec BERT de Google, qui améliore notablement la compréhension du contexte des phrases et sera suivi de nombreux autres modèles de langage basés sur l'architecture dite des Transformers.
Puis en 2020, la société OpenAI dévoile GPT-3, un modèle de langage contenant 175 milliards de paramètres -- du jamais vu à l'époque. GPT-3 est capable de rédiger du texte assez cohérent, de traduire, de répondre à des questions, simplement à partir d'une instruction en langage naturel. Ce modèle va donner naissance l'année suivante à ChatGPT, l'agent conversationnel ouvert au grand public qui a fait découvrir l'IA générative à des millions d'utilisateurs. Pour la première fois, n'importe qui pouvait interagir avec une IA sophistiquée par de simples phrases et obtenir toutes sortes de contenus ou d'informations en retour.
L'IA devenait accessible au grand public, sans besoin d'être informaticien : il suffit de savoir formuler les bonnes requêtes. Cette popularisation a entraîné dès 2021-2022 une course effrénée aux modèles de langage de plus en plus grands et puissants, impliquant non seulement OpenAI mais aussi Google, Meta, Anthropic, ainsi que des acteurs chinois tels que DeepSeek ou des acteurs français comme Mistral. Nous vivons actuellement cette période d'essor des IA génératives capables de produire du texte, du code, des images, du son, etc., marquant une nouvelle étape dans l'histoire de l'IA.
Ainsi, en quelques décennies, l'IA est passée du statut de concept balbutiant à celui de technologie omniprésente. Retenez les grandes étapes : 1956 naissance du terme, années 1960 premiers programmes (ELIZA...), années 1970-80 période de doutes mais développement des systèmes experts, années 1990-2000 retour en force via le machine learning, et années 2010 explosion du deep learning qui propulse l'IA dans de nouveaux sommets jusqu'à nos outils conversationnels actuels. Cette évolution a été rendue possible par des approches successives de l'IA que nous allons maintenant distinguer.
Au fil du temps, l'IA a été abordée selon différentes approches conceptuelles et technologiques.
On peut en retenir trois grandes catégories, qui coexistent encore aujourd'hui :
C'est l'approche historique, parfois appelée « IA classique » ou GOFAI (Good Old-Fashioned AI). L'idée est de représenter explicitement des connaissances sous forme de symboles (faits, objets, règles logiques) et d'utiliser des moteurs d'inférence logiques pour effectuer un raisonnement. En IA symbolique, tous les comportements du système sont le fruit de règles écrites par des humains, par exemple des enchaînements si condition alors action. Cette approche a donné les systèmes experts (cf. plus bas) et d'autres applications comme les démonstrateurs de théorèmes, les planificateurs automatiques ou le raisonnement en langage naturel. Elle a dominé l'IA des années 1950 aux années 1980. Son avantage est la transparence (on peut expliquer le raisonnement via les règles), mais elle montre vite ses limites face à la complexité du monde réel : difficile de tout prévoir et coder à la main, et ces systèmes gèrent mal l'incertitude ou les données bruitées. Aujourd'hui, l'IA symbolique connaît un regain d'intérêt dans des approches hybrides où on l'assemble aux réseaux de neurones pour bénéficier du meilleur des deux mondes.
Plutôt que de tout coder manuellement, cette approche fait le pari de faire apprendre la machine par elle-même à partir des données. Le machine learning (ML) est un sous-domaine de l'IA qui regroupe des algorithmes capables de découvrir des patterns et à s'entraîner pour améliorer leurs performances. On fournit à ces algorithmes des jeux de données (parfois avec les réponses attendues), et ils ajustent automatiquement leurs paramètres pour accomplir la tâche (par exemple, classer des emails spam/pas spam, reconnaître un chiffre manuscrit, prédire la température de demain, etc.). Contrairement à l'IA symbolique, on n'établit pas de règles fixes à l'avance : le système apprend en optimisant un modèle mathématique. Le ML a réellement pris son essor dans les années 1990 lorsque les données et la puissance de calcul ont permis d'entraîner des modèles statistiques performants. Il existe de nombreuses techniques de ML (régressions, arbres de décision, k-means, SVM, réseaux bayésiens, etc.). L'apprentissage automatique a marqué un tournant parce qu'il a rendu l'IA beaucoup plus flexible et évolutive -- un même algorithme peut s'adapter à des contextes variés du moment qu'on lui donne des données appropriées. C'est grâce au ML que l'IA a commencé à réellement apprendre plutôt que d'être entièrement programmée, ouvrant la porte à une foule d'applications (reconnaissance vocale, recommandations, optimisation de réseaux électriques, etc.). Néanmoins, le ML « classique » (années 2000) reposait souvent sur des descripteurs conçus manuellement et n'atteignait pas les performances des humains dans les tâches complexes de perception.
Il s'agit en fait d'une sous-catégorie du machine learning qui s'est développée à partir des années 2010. Le deep learning utilise des réseaux de neurones artificiels comportant de nombreuses couches de neurones (d'où le terme profond). Ces réseaux complexes peuvent apprendre des représentations hiérarchiques des données : par exemple, un réseau profond de vision apprend automatiquement à détecter des contours simples dans les premières couches, puis des formes plus complexes, jusqu'à reconnaître des objets entiers dans les couches finales. L'apprentissage profond imite le cerveau humain dans son fonctionnement en ajustant les connexions (poids synaptiques) entre neurones artificiels en fonction des exemples qu'on lui présente. Cette approche a été rendue viable par le Big Data (beaucoup de données pour alimenter les réseaux) et les calculs massivement parallèles (pour entraîner des modèles avec des millions voire des milliards de paramètres). Le deep learning a permis des sauts de performance spectaculaires dans des domaines comme la vision (reconnaissance d'images), le langage (traduction, chatbots), la robotique ou les jeux, souvent surpassant toutes les autres méthodes. Des entreprises comme Google, OpenAI, Meta misent énormément dessus. L'inconvénient, c'est que ces modèles sont un peu des « boîtes noires » (on a du mal à expliquer précisément ce qu'ils font) et qu'ils exigent énormément de données et de puissance de calcul pour être entraînés. Mais à l'heure actuelle, l'apprentissage profond domine la scène de l'IA par son efficacité redoutable dès qu'on a suffisamment de données.
En résumé, l'IA symbolique repose sur des connaissances codées à la main, le machine learning sur des données dont on apprend les régularités, et le deep learning sur des grands réseaux de neurones qui apprennent des motifs complexes en profondeur. Ces approches ne sont pas mutuellement exclusives : au contraire, on voit émerger des solutions hybrides (IA neuro-symbolique par ex.) qui tentent de combiner la logique symbolique et la puissance du deep learning. En tant que futurs professionnels de l'IT, il est utile d'avoir ces distinctions en tête pour comprendre quels types de solutions d'IA existent et comment elles fonctionnent grosso modo.
Le domaine de l'IA est très vaste, nous allons tout de même tenter un tour d'horizon de quelques sous-domaines et concepts clés qu'il faut connaître, avec une courte définition de chacun :
Comme évoqué plus haut, ce sont des programmes qui reproduisent le raisonnement d'un expert humain dans un domaine spécifique, en s'appuyant sur une base de faits et de règles logiques. Un système expert comporte typiquement une base de connaissances (faits + règles if-then) et un moteur d'inférence capable de déduire de nouvelles informations en enchaînant les règles. Dans les années 1980, on les utilisait pour l'aide au diagnostic médical, la configuration de produits, le conseil financier, etc. Exemples célèbres : DENDRAL (analyse chimique), MYCIN (diagnostic médical) ou XCON (configuration de systèmes informatiques). Aujourd'hui, les systèmes experts purs sont moins à la mode (dépassés par le machine learning), mais on en retrouve des traces dans les moteurs de règles des systèmes industriels et dans l'IA symbolique moderne.
Ce sous-domaine désigne les techniques où l'IA sert à générer des comportements ou des contenus de manière algorithmique, souvent de façon aléatoire ou adaptative, plutôt que par apprentissage. Le terme « IA procédurale » est surtout employé dans le contexte des jeux vidéo : par exemple pour la génération procédurale de niveaux, de cartes ou de scénarios de jeu. L'IA peut créer à la volée des environnements ou des quêtes différents à chaque partie, offrant une rejouabilité accrue. De même, le comportement des ennemis ou des personnages non joueurs peut être géré par une IA procédurale via des algorithmes de pathfinding (recherche de chemin, ex. l'algorithme A* pour que l'ennemi vous poursuive efficacement), des automates à états finis (définissant des réactions prédéterminées selon l'état du jeu) ou des systèmes de règles évoluées. Contrairement au machine learning, ici il n'y a pas de phase d'apprentissage sur des données : les comportements sont programmés via des règles, des dés pipés, de la logique et éventuellement du hasard contrôlé. L'IA procédurale permet d'obtenir des jeux plus vastes et variés (ex. Minecraft génère des mondes infinis de façon procédurale, des jeux de rôle créent des missions aléatoires, etc.).
C'est la forme la plus répandue de machine learning. Dans l'apprentissage supervisé, on entraîne un modèle sur des exemples étiquetés -- c'est-à-dire que pour chaque donnée d'entrée on dispose de la réponse attendue. Par exemple, on fournit à un algorithme des milliers d'images de pièces détachées avec l'étiquette « défectueuse » ou « saine », afin qu'il apprenne à prédire si une nouvelle image correspond à une pièce défectueuse. De même, on peut entraîner un filtre antispam avec des emails marqués « spam » ou « non spam ». L'algorithme ajuste ses paramètres pour minimiser l'erreur entre ses prédictions et la vérité terrain. But : qu'ensuite, sur des données nouvelles, il généralise correctement. L'apprentissage supervisé est très efficace dès lors qu'on dispose de données annotées en quantité. Il englobe des tâches comme la classification (prédire une catégorie, ex. reconnaître un chiffre manuscrit de 0 à 9), la régression (prédire une valeur numérique, ex. le prix de l'immobilier) ou la détection (ex. détecter la présence d'un visage dans une photo). La plupart des applications industrielles de l'IA (vision industrielle, diagnostic automatique, prédiction de panne, reconnaissance vocale, etc.) utilisent des modèles supervisés. Le revers est qu'il faut constituer des datasets fiables avec les bonnes étiquettes, ce qui peut demander beaucoup de travail humain en amont.
Ici, l'algorithme apprend sans réponse connue à l'avance. On lui donne juste des données brutes et il doit en découvrir la structure sous-jacente par lui-même. L'exemple typique est le clustering (regroupement) : on peut demander à un algorithme non-supervisé de regrouper des clients en segments similaires selon leurs comportements d'achat, sans lui dire au préalable quels seraient les bons segments. Il va peut-être découvrir naturellement qu'il y a, disons, 3 groupes de clients avec des profils distincts (par exemple « acheteurs réguliers de produits bon marché », « acheteurs occasionnels de produits luxe », « acheteurs fidélisés milieu de gamme »). L'apprentissage non-supervisé excelle pour détecter des motifs cachés, des corrélations, ou réduire la dimension des données. D'autres techniques non-supervisées incluent l'analyse en composantes principales (PCA) pour trouver les axes les plus importants dans des données complexes, ou les réseaux de neurones auto-encodeurs qui apprennent à compresser puis reconstruire des données (utiles pour la détection d'anomalies, par exemple). Ce type d'IA est utile quand on n'a pas d'étiquettes fiables : il fait émerger du sens de la masse de données de façon exploratoire. Par contre, les résultats doivent souvent être interprétés par un humain et intégrés ensuite dans une solution (par exemple, décider que les clusters identifiés correspondent effectivement à des cibles marketing pertinentes).
C'est un autre paradigme d'apprentissage automatique inspiré de la façon dont un être vivant peut apprendre par essai-erreur via des récompenses et punitions. Dans l'apprentissage par renforcement, un agent (logiciel ou robot) interagit avec un environnement et prend des actions. Chaque action lui rapporte une récompense (positive ou négative) selon qu'elle rapproche d'un objectif. Au fil du temps, l'agent doit apprendre une stratégie (politique) optimale maximisant la récompense cumulée. Ce cadre est utilisé notamment pour entraîner des IA à jouer à des jeux (ex. AlphaGo a combiné du deep learning et du renforcement, DeepMind a aussi utilisé le renforcement pour que des IA apprennent à jouer à Atari toutes seules en 2013). C'est aussi applicable à la robotique (apprendre à un robot à marcher, à saisir un objet : on définit des récompenses liées à la stabilité de la marche ou à la réussite de la préhension), ou à des problèmes de décision séquentielle (gestion intelligente de la consommation d'énergie, optimisation du trafic routier, etc.). L'apprentissage par renforcement est puissant car l'agent découvre tout seul quelle action est bonne ou mauvaise sur le long terme, y compris dans des situations non prévues. Par contre, il nécessite de nombreuses interactions (parfois millions d'essais) pour converger, et il faut définir correctement la récompense pour orienter l'agent. Avec l'intégration du deep learning (Deep Reinforcement Learning), ce domaine a connu des avancées spectaculaires (AlphaGo, AlphaZero, agents maîtrisant Dota 2 ou StarCraft, etc.), mais reste complexe à mettre en œuvre.
C'est un concept central du deep learning, mais qu'on peut isoler comme technique en soi. Un réseau de neurones est un modèle d'IA s'inspirant du cerveau : il contient des neurones artificiels (unités de calcul sommaires) interconnectés par des poids. Ces neurones sont organisés en couches successives (une couche prend en entrée les sorties de la précédente). Le réseau reçoit en entrée des données (par ex. les pixels d'une image) et produit une sortie (par ex. la catégorie « chien » ou « chat »). Lors de l'entraînement, on ajuste progressivement les poids des connexions en comparant la sortie produite au résultat attendu (c'est le rôle de l'algorithme de rétropropagation de l'erreur, découvert dans les années 1980). Au fil des itérations, le réseau « apprend » ainsi à réaliser la tâche. Les réseaux de neurones peuvent être peu profonds (une ou deux couches cachées, on parlait alors de perceptron multicouche) ou profonds (des dizaines, centaines de couches dans les applications actuelles, rendus possibles par la puissance de calcul moderne). Il existe plusieurs architectures spécialisées : les réseaux de neurones convolutifs (CNN) pour le traitement d'images, les réseaux récurrents (RNN) et leurs évolutions (LSTM, GRU, etc.) pour les données séquentielles comme le texte ou les séries temporelles, et plus récemment les Transformers qui ont révolutionné le traitement du langage. Les réseaux de neurones sont la brique de base derrière la plupart des grandes avancées de l'IA moderne : sans eux pas de reconnaissance vocale efficace, pas de vision autonome pour les voitures, pas de ChatGPT. Ils excellent à approcher des fonctions très complexes, mais leur interprétabilité est faible (on a du mal à expliquer précisément ce qu'ils ont appris) et ils demandent beaucoup de données.
Également appelés LLM (Large Language Models) lorsqu'ils sont très grands, ce sont des IA spécialisées dans le traitement et la génération du langage naturel (texte, code). Un modèle de langage apprend à prédire la suite d'une séquence de mots grâce à une immersion dans d'énormes corpus de textes. Par exemple, on lui montre des millions de phrases et il doit deviner les mots manquants ou probables suivants. En apprenant cette tâche prédictive toute bête, le modèle finit par capturer des régularités linguistiques, du sens, des connaissances factuelles présentes dans les textes, etc. Les modèles de langage actuels, basés sur l'architecture Transformer, ont des capacités étonnantes : rédiger toutes sortes de textes cohérents, traduire entre langues, répondre à des questions, résumer des documents, ou même générer du code informatique dans différents langages. ChatGPT en est un exemple emblématique : il s'agit d'un modèle de langage (GPT-3.5 puis GPT-4) affiné pour la conversation. OpenAI a montré qu'en affinent un LLM avec des techniques d'apprentissage par renforcement avec feedback humain (RLHF), on obtenait un assistant conversationnel capable de suivre des instructions de manière fiable. Les modèles de langage font partie de la famille des IA génératives (car ils génèrent du contenu nouveau). GPT-3 a ainsi été décrit en 2020 comme le plus grand modèle de langage entraîné, avec 175 milliards de paramètres. Ces modèles sont au cœur de la révolution actuelle de l'IA grand public, en alimentant les chatbots (ChatGPT, DeepSeek, Bard de Google, etc.) et les assistants de codage. Le défi qu'ils posent inclut les fameuses hallucinations (ils peuvent inventer des réponses très convaincantes mais fausses), les biais (leurs réponses reflètent les biais des données d'entraînement), et leur opacité. Mais leurs performances pour comprendre et générer du langage ont bouleversé de nombreux secteurs (service client automatisé, rédaction assistée, analyse sémantique de documents...). Nous aurons l'occasion de pratiquer un modèle de langage dans la démonstration qui suit.
Ce panorama n'est pas exhaustif, mais vous donne un vocabulaire de base.
Retenez qu'« IA » recouvre de nombreuses techniques : des plus symboliques (systèmes experts, planification, algorithmes procéduraux) aux plus apprenantes (différents types d'apprentissage automatique), avec des spécialisations comme les réseaux de neurones et les modèles de langage qui dominent la scène actuelle. En pratique, les solutions industrielles combinent souvent plusieurs de ces composants. Par exemple, une voiture autonome utilise du deep learning pour interpréter les images de ses caméras, mais peut utiliser un algorithme déterministe pour calculer le plus court chemin sur la carte, et suivre des règles de décision codées par des ingénieurs pour certaines situations de sécurité.
Pour rendre tout cela plus concrêt, examinons quelques applications de l'IA dans différents domaines, y compris ceux reliés à l'infrastructure IT :
Nos smartphones et enceintes connectées hébergent des IA bien connues comme Siri (Apple), Alexa (Amazon), Google Assistant ou Cortana (Microsoft). Ces agents conversationnels vocaux utilisent l'IA à plusieurs niveaux. D'abord la reconnaissance vocale pour transformer votre voix en texte (grâce à des réseaux de neurones entraînés sur des milliers d'heures de paroles). Puis le traitement du langage naturel pour comprendre la demande formulée en français (découper la phrase, identifier l'intention : météo, alarme, recherche web...). Ensuite un module de dialogue élabore une réponse appropriée ou exécute une action (par exemple, consulter la base de connaissances pour la météo). Enfin, l'assistant peut utiliser la synthèse vocale (autre forme d'IA) pour vous répondre à voix haute. Ces assistants vocaux sont devenus possibles grâce aux progrès du machine learning et du deep learning en reconnaissance de la parole et en NLP. Ils nous aident au quotidien pour obtenir des informations instantanément, piloter des objets domotiques, ou réaliser des tâches mains-libres. Ils illustrent comment l'IA peut servir d'interface naturelle entre l'humain et la machine.
La voiture autonome est un concentré d'IA embarquée. Des entreprises comme Tesla (Autopilot), Waymo (Google) ou d'autres constructeurs équipent leurs véhicules de multiples capteurs (caméras, LIDAR, radars) dont les données sont interprétées en temps réel par des algorithmes d'IA. La vision par ordinateur à base de deep learning permet de reconnaître les objets autour du véhicule : autres voitures, piétons, panneaux de signalisation, marquages au sol... Par exemple, un réseau de neurones convolutifs détecte qu'il y a un piéton traversant à 30 mètres. En parallèle, des algorithmes d'estimation calculent la vitesse et la trajectoire probable des objets en mouvement. Sur la base de ces informations, une IA de décision (souvent un système hybride avec règles et apprentissage) va planifier les actions de conduite : ralentir, freiner, tourner, etc., en respectant le code de la route. Ces décisions se traduisent en commandes envoyées aux actuateurs (direction, accélération, freinage). Tout cela doit se passer en une fraction de seconde et de manière sûre. L'IA est donc cruciale pour remplacer le conducteur humain dans l'analyse de la route et la réaction aux événements. Si la conduite 100 % autonome généralisée n'est pas encore tout à fait au point (c'est un défi immense), beaucoup de voitures offrent déjà des aides à la conduite intelligentes : freinage automatique d'urgence après détection d'un obstacle, maintien dans la voie, régulateur de vitesse adaptatif (qui ajuste la vitesse en fonction du trafic)... Autant de fonctionnalités rendues possibles par des modèles de reconnaissance et de décision entraînés sur des milliards de kilomètres cumulés de données de conduite. Dans les prochaines années, on s'attend à voir l'IA progresser encore pour gérer des situations de conduite toujours plus complexes.
Dans le domaine de l'IT et des réseaux, l'IA est un allié de plus en plus précieux pour les administrateurs. Traditionnellement, la surveillance d'un réseau (serveurs, routeurs, trafic, etc.) reposait sur des règles statiques -- par exemple, générer une alerte si l'utilisation CPU dépasse 90 % ou si tel lien réseau est coupé. Ces approches à base de seuils sont limitées : elles requièrent de définir manuellement ce qui est « normal » ou pas, et peuvent produire beaucoup de faux positifs. L'IA permet d'aller plus loin en apprenant automatiquement le comportement normal du réseau pour mieux détecter les écarts. En pratique, on utilise des techniques de machine learning (souvent non-supervisées ou semi-supervisées) qui absorbent les données de logs, de métriques ou de flux réseau sur une longue période et construisent une sorte de modèle de la « ligne de base ». Dès lors, la moindre anomalie -- c'est-à-dire un schéma de données inhabituel -- peut être détectée et signalée. Par exemple, une IA va apprendre que le trafic vers un certain serveur tourne habituellement autour de 100 Mo/h la nuit ; si soudain ce trafic explose à 5 Go/h, cela déclenche une alerte d'anomalie sans qu'on ait eu besoin de fixer un seuil arbitraire. Ce genre de système peut identifier des pannes en préparation, des congestions, ou même des cyberattaques (par exemple une exfiltration de données ou un déni de service) plus finement que des règles fixes. Par ailleurs, l'IA peut corréler des indicateurs multiples (CPU, mémoire, latence, logs d'erreur...) pour comprendre la cause d'un incident, là où un humain se noierait dans la masse d'alertes. Des grandes plateformes de monitoring et d'APM (Application Performance Management) intègrent déjà des modules d'AIOps (AI for Operations) qui priorisent les alertes, suggèrent des diagnostics probables, ou anticipent des défaillances grâce à des modèles prédictifs. Pour vous, techniciens supérieurs en systèmes et réseaux, cela signifie que l'IA devient un outil pour automatiser la supervision et gagner en proactivité. Bien entendu, ces systèmes ne remplacent pas l'expertise humaine, mais ils l'augmentent : ils guettent en permanence les signaux faibles que nos yeux ne pourraient pas repérer sur des tableaux de bord classiques, et orientent les administrateurs vers les zones à problèmes véritables. En somme, on évolue d'une supervision réactive (on agit quand ça casse) vers une supervision prédictive et intelligente (on agit avant que ça casse, ou on laisse la machine ajuster les paramètres pour éviter la panne).
Un domaine voisin du précédent est la sécurité informatique, où l'IA joue un rôle croissant. Les systèmes de détection d'intrusion (IDS) modernes s'appuient sur du machine learning pour repérer des comportements anormaux traduisant une possible attaque. Par exemple, un utilisateur lambda qui se met soudain à télécharger des gigaoctets de données sensibles en pleine nuit : c'est un écart par rapport à son profil habituel, potentiellement le signe que son compte est compromis. De même, l'IA aide à identifier des malwares inconnus en analysant leur comportement ou leur code (on parle d'analyse statique ou dynamique assistée par ML pour surpasser les antivirus à base de signatures figées). En analyse de logs, des algorithmes peuvent trier automatiquement des millions de lignes de journal système pour extraire les événements vraiment inhabituels. On utilise souvent des modèles d'apprentissage non-supervisé (clustering des événements similaires, détection de points aberrants) couplés à des techniques de réseaux neuronaux (par exemple des autoencodeurs qui apprennent à reconstruire des séquences de logs normales et trouvent celles qu'ils n'arrivent pas à reconstruire). Une IA bien entraînée peut ainsi détecter plus vite des attaques furtives ou des problèmes de configuration, tout en réduisant le bruit d'alerte. Enfin, en réponse aux incidents, on voit apparaître des assistants intelligents qui proposent des mesures d'atténuation ou qui automatisent en partie la réaction (isoler une machine suspecte du réseau, par exemple). Bien entendu, les attaquants eux-mêmes commencent à utiliser l'IA (par exemple pour générer du phishing crédible en masse via des modèles de langage), ce qui ouvre une sorte de course IA vs IA en cybersécurité. Cela préfigure que les compétences en IA seront de plus en plus utiles même dans les métiers purement sécurité ou réseau, pour tirer parti des outils de défense de nouvelle génération.
Même l'activité des programmeurs est touchée par l'IA. Vous avez peut-être entendu parler de GitHub Copilot (lancé en 2021) ou des extensions comme Codeium, Tabnine, etc. Ce sont des assistants de programmation à base d'IA. Par exemple, GitHub Copilot utilise un modèle de langage (OpenAI Codex, dérivé de GPT-3) entraîné spécifiquement sur du code source. Intégré à votre éditeur, il est capable de suggérer la suite de code pendant que vous tapez, de générer une fonction entière à partir d'un simple commentaire en langage naturel, ou d'aider à trouver l'implémentation d'une fonctionnalité. Ces outils peuvent accélérer le développement en automatisant les tâches de boilerplate, en proposant des exemples d'utilisation d'une librairie, ou même en aidant à déboguer (on peut poser des questions en langage naturel sur pourquoi telle erreur survient, l'IA tente de l'expliquer et de proposer un correctif). ChatGPT lui-même est utilisé comme assistant de codage -- vous pouvez lui fournir un extrait de code et demander « corrige les bugs » ou « optimise ce code », et il va souvent réussir à le faire ou au moins donner des pistes. Bien sûr, tout code suggéré par l'IA doit être revu par un humain (pour éviter les erreurs ou les failles de sécurité potentiellement introduites), mais cela devient un véritable partenaire de pair programming. Pour un technicien ou un administrateur, ces outils peuvent servir à générer rapidement des scripts (bash, Python, PowerShell...), à comprendre un bout de code inconnu, ou à automatiser de petites tâches sans tout coder manuellement. C'est un gain de temps et cela abaisse parfois la barrière à l'entrée pour utiliser une nouvelle API ou langage.
Cette liste d'exemples pourrait continuer (santé, finance, industrie 4.0, etc.), mais l'essentiel est de constater que l'IA est déjà à l'œuvre dans des domaines très variés. En tant que spécialistes des systèmes, réseaux ou de la sécurité, vous serez amenés soit à utiliser ces IA (par exemple, intégrer un système de détection d'anomalies intelligent dans votre supervision), soit à collaborer avec des data scientists pour déployer des modèles IA sur vos infrastructures, soit tout simplement à être conscients des capacités et limites de ces outils pour en tirer parti dans vos projets.
Pour terminer cette introduction, réalisons une courte démonstration d'IA conversationnelle afin d'illustrer concrètement ce que nous avons appris. L'idée est de comparer comment deux IA -- par exemple ChatGPT (modèle d'OpenAI) et DeepSeek (modèle conversationnel open source chinois) -- répondent à une même question, puis de discuter de comment et pourquoi elles produisent ces réponses.
Supposons que nous demandions aux deux chatbots une question ouverte telle que « Peux-tu expliquer simplement ce qu'est l'intelligence artificielle ? ».
Imaginons les grandes lignes des réponses :
En comparant, on noterait sans doute que les deux réponses se ressemblent sur le fond (elles définissent correctement l'IA) mais diffèrent sur la forme et les détails.
Peut-être que ChatGPT fera 4 paragraphes bien organisés tandis que DeepSeek donnera 2 paragraphes plus factuels. Ce genre de variation s'explique par leur entraînement respectif : ChatGPT a été optimisé avec du feedback humain pour fournir des réponses développées et équilibrées, tandis que DeepSeek, concurrent plus récent, a peut-être moins de filtrage ou un style plus brut. D'ailleurs, on pourrait pousser la comparaison en posant une question sensible ou technique pour voir comment chacun réagit.
Par exemple, sur une question d'actualité politique délicate, ChatGPT aura tendance à être neutre ou à refuser si c'est trop polémique (OpenAI a "encore" quelques gardes-fous), alors que DeepSeek pourrait soit refuser pour des raisons de censure locale, soit répondre différemment.
On a lu dans la presse tech que DeepSeek-R1 avait des problèmes d'« hallucinations » plus prononcés que ChatGPT, c'est-à-dire qu'il inventait fréquemment des références fausses (titres de livres, noms d'auteurs inexistants...) de manière très convaincante.
Qu'est-ce qui se passe à l'intérieur de ces IA pour en arriver là ?
Ce sont toutes les deux des modèles de langage de large envergure, basés sur des réseaux de neurones profonds entraînés sur d'énormes corpus de texte. ChatGPT, dans sa version initiale, est adossé à GPT-3.5 puis GPT-4, des modèles contenant des dizaines voire des centaines de milliards de paramètres (poids du réseau) qui ont été ajustés en lisant une grande partie du web, des livres, Wikipédia, des forums.... DeepSeek repose probablement sur un modèle de la même famille (Transformers) entraîné sur des données multilingues avec un focus sur le chinois et l'anglais, possiblement de taille comparable (les rumeurs parlent de modèles de plusieurs centaines de milliards de paramètres également pour concurrencer GPT).
Lorsqu'on pose une question, celle-ci est convertie en vecteur de nombres et injectée dans le réseau neuronal. Le modèle génère alors une réponse mot par mot (ou plus exactement « token » par token, un token étant un morceau de mot) en calculant à chaque étape la probabilité de chaque mot possible suivant, et en échantillonnant un choix. Il n'y a pas de recherche sur internet en temps réel : toute la connaissance utilisée est celle emmagasinée durant l'entraînement dans les poids du modèle. En somme, le chatbot fait une forme de « complétion de texte » extrêmement sophistiquée, en s'appuyant sur tout ce qu'il a vu dans le passé.
Pourquoi les deux modèles répondent-ils un peu différemment alors ? Plusieurs raisons possibles :
En ouvrant la boîte noire (autant que possible), on comprend que les IA conversationnelles actuelles ne font qu'appliquer des modèles statistiques du langage. Elles n'ont pas de compréhension profonde au sens humain, ni de connexion directe à une base de faits structurés. Cela explique leurs erreurs parfois étranges : par exemple, elles peuvent affirmer quelque chose de factuellement faux mais avec beaucoup d'assurance, simplement parce que statistiquement la phrase avait l'air plausible d'après leurs paramètres.
C'est un point crucial à retenir : même si ces IA donnent l'illusion de réfléchir et d'expliquer comme un humain, en réalité elles ne font que générer du texte en optimisant une fonction mathématique (maximiser la probabilité de suite de texte entraînée). D'où la nécessité de garder un esprit critique face à leurs réponses, de les valider par d'autres sources lorsqu'il s'agit de données sensibles, etc.
Les modèles comme ChatGPT ou DeepSeek sont des exemples concrets de l'application du deep learning (réseaux de neurones, modèles de langage) à un problème pratique : la conversation en langage naturel. En les testant, on constate qu'ils sont capables de répondre à des questions variées, souvent de manière pertinente, ce qui aurait semblé de la science-fiction il y a 10 ans. Cependant, on remarque aussi leurs biais et limites : parfois des erreurs (hallucinations), une tendance à fournir une réponse même quand ils ne savent pas (alors qu'un humain avouerait son ignorance), et des différences de personnalité ou de censure selon qui les a entraînés. Cela nous ramène aux notions vues dans ce cours : l'IA n'est pas infaillible, elle reflète ce qu'elle a appris, et son fonctionnement interne (boîte noire statistique) explique en grande partie ses forces et faiblesses.