Actualités

La nouvelle IA de Microsoft pour le sous-titrage des images est plus précise que les humains

Pinterest LinkedIn Tumblr

Les chercheurs en IA de Microsoft ont franchi une étape importante cette semaine : ils ont réussi à créer un nouveau “système d’intelligence artificielle” qui, dans de nombreux cas, est en fait meilleur qu’un humain pour décrire le contenu d’une photo. Cela pourrait être une aubaine pour les aveugles et les malvoyants qui utilisent des lecteurs d’écran et du “texte alternatif” pour visualiser des images en ligne.

Bien que cela puisse sembler être un élément de la préquelle de Skynet, le développement d’une meilleure IA pour le sous-titrage des images présente de nombreux avantages potentiels. Comme l’explique Microsoft sur son blog : “cette percée est une étape importante dans la volonté de Microsoft de rendre ses produits et services accessibles à tous les utilisateurs”.

C’est parce que le sous-titrage automatique précis des images est largement utilisé pour créer ce qu’on appelle un “texte alternatif” pour les images sur Internet – c’est le texte que les lecteurs d’écran utilisent pour décrire une image aux personnes malvoyantes qui comptent sur ces options d’accessibilité pour tirer le meilleur parti de leur temps en ligne ou lorsqu’elles utilisent certaines applications sur leur téléphone.

Bien sûr, Microsoft prend soin de souligner que le système “ne donnera pas des résultats parfaits à chaque fois”. Mais comme vous pouvez le voir dans les exemples de la vidéo ci-dessous, il est bien plus précis que l’itération précédente. Il y a un grand écart entre décrire une image comme “un gros plan d’un chat” et décrire cette même image comme “un chat gris avec les yeux fermés”.

“Idéalement, tout le monde devrait inclure un texte alternatif pour toutes les images dans les documents, sur le web, dans les médias sociaux – car cela permet aux personnes malvoyantes d’accéder au contenu et de participer à la conversation. Mais, hélas, ce n’est pas le cas”, explique Saqib Shaikh, responsable du génie logiciel du groupe d’IA de Microsoft. “Il existe donc plusieurs applications qui utilisent le sous-titrage des images comme moyen de remplir le texte alternatif lorsqu’il est manquant”.

Ces applications peuvent profiter du nouveau système pour générer des sous-titres précis qui “surpassent les performances humaines”, une affirmation basée sur le benchmark de sous-titrage d’images de nocaps qui compare les performances de l’IA par rapport au même ensemble de données sous-titrées par les humains.

Voici un autre exemple de l’amélioration de l’IA en action, tiré de la vidéo ci-dessus :

microsoft-outil-ia-de-sous-titrage-1

Avant : Une personne assise à une table et utilisant un ordinateur portable

Après : Une personne utilisant un microscope

Étant donné les avantages potentiels en termes d’accessibilité du système de sous-titrage amélioré, Microsoft a précipité la mise en production de ce modèle et l’a déjà intégré dans les services cognitifs d’Azure, permettant ainsi aux développeurs intéressés de commencer à utiliser la technologie immédiatement.

Pour en savoir plus sur ce système et son fonctionnement, rendez-vous sur le blog de Microsoft.