Pour les humains, reconnaître si un élément d’une scène est un avocat ou un Aventador s’avère aussi simple que de les observer. Ce n’est pas le cas pour les systèmes d’IA et de vision par ordinateur. Ces derniers nécessitent beaucoup d’efforts afin de développer une compréhension haute-fidélité de leur environnement. Les chercheurs de MIT ont établi un algorithme permettant aux IA d’identifier les images de la même manière que les gens.
Le STEGO adopte une technique de segmentation sémantique
Les machines ont besoin de 800 h pour étiqueter manuellement les images d’entraînement. Pour les aider à mieux voir comme les humains, une équipe de chercheurs du MIT CSAIL a développé le STEGO. Ce dernier constitue un algorithme qui reconnaît les images jusqu’à leurs pixels.
La création de données d’entraînement implique généralement que les hommes dessinent des boîtes autour d’objets spécifiques dans une image. Prenons comme exemple une case autour d’un chien assis sur l’herbe. Les gens étiquettent ces boîtes avec ce qu’elles contiennent « chien ». Cela est dans le but que l’IA formée sur ces photos a pu faire la distinction entre les chiens et l’herbe.
Le STEGO, quant à lui exploite une technique appelée segmentation sémantique. Celle-ci met en application des étiquettes de classe à chaque pixel d’une image donnant à l’IA une vision plus précise du monde. Cet outil catalogue chaque pixel d’un objet, mais uniquement de ceux qui le composent. Vous n’obtenez que des pixels de chien, pas des pixels de chien plus de l’herbe. C’est un peu comme utiliser un lasso magnétique dans Photoshop.
Un algorithme permettant à l’IA de trouver des solutions bien avant les humains
Le problème avec cette technique est que chacun des 65 536 pixels doit être traité un par un. Cette tâche devient rapidement impossible si l’algorithme ne recherche pas des objets identiques dans la base de données pour compléter l’apprentissage. Dans le cas d’image complexe (telles que l’imagerie médicale ou spatiale), il est difficile de trouver un point précis sans une connaissance experte des éléments. Les professionnels peuvent tout de même rencontrer quelques difficultés à analyser des images.
« Dans ce type contexte, nous ne pouvons pas compter sur les humains pour trouver des solutions avant les machines » déclare Mark Hamilton, un doctorant de MIT. Le STEGO est formé sur une variété d’images, de l’intérieur des maisons aux plans à haute altitude. Ses performances de systèmes de segmentation semblent doublées. Cet algorithme a la capacité de distinguer les routes de la végétation ou les bâtiments d’une vue spatiale. Il peut même générer des images plus nettes de l’environnement à partir d’une capture prise à travers des voitures autonomes.
Conclusion
Aussi puissant soit-il, cet algorithme a ses limites. S’il peut identifier les flocons d’avoine ou les pâtes comme nourriture, il aura du mal à les distinguer. Le STEGO gère mal les images absurdes, telles qu’une banane posée sur un récepteur téléphonique. L’équipe travaille encore pour apporter plus de flexibilité à cet algorithme dans les futures versions.