L'IA pour percevoir

La perception en intelligence artificielle désigne la capacité d’une machine à intégrer des données sensorielles en complément des méthodes informatiques conventionnelles. Cette jonction permet aux modèles d’IA de réagir en prenant en compte l’environnement dans lequel ils évoluent. En la dotant de processus de perception, l’IA est capable de traiter des informations provenant de différentes sources sensorielles (vue, ouïe, toucher ou même odorat).

L’IA qui « voit » et « entend »

La perception est l’un des défis majeurs de l’informatique car elle nécessite de modéliser les capacités sensorielles : vue, ouïe, toucher ou odorat.

Inspirées par la cognition humaine, les recherches en IA tentent de reproduire ces mécanismes pour analyser des images ou comprendre la parole.

Les premières approches, dites d’IA symbolique, tentent de copier le cerveau via des règles logiques strictes (ex. : “SI” … “ALORS”).

Le Perceptron, inventé en 1957 par Frank Rosenblatt pour imiter un neurone biologique, constitue une étape importante dans cette recherche mais reste limité.

La récente avancée a lieu avec les Réseaux de Neurones Convolutifs (CNN). Un CNN analyse une image à l’aide de filtres pour détecter des formes simples (lignes, courbes), puis les détaille en motifs de plus en plus complexes (oreilles, museaux). Le modèle d’IA donne ensuite la probabilité de correspondre à une catégorie.

Pour reconnaître des chats ou des chiens, on ne donne pas de règles explicites à la machine. On lui fournit des milliers d’exemples d’images étiquetées, c’est-à-dire annotées manuellement « chat » ou « chien ».

Grâce à l’algorithme dit « rétropropagation du gradient », le modèle s’ajuste progressivement pour isoler les caractéristiques propres à chaque catégorie.

Avant l’arrivée des CNN modernes en 2012, les meilleurs logiciels se trompaient 1 fois sur 4. En quelques années seulement, ce taux a chuté à moins de 3 %.

À noter : l’IA ne « comprend » pas ce qu’elle analyse : elle s’appuie uniquement sur des régularités.