La détection et la reconnaissance d’objets relèvent toutes les deux des techniques de computer vision, mais il ne faut pas les confondre, car elles sont assez différentes en termes de complexité. Alors que pour la détection d’objets, des solutions de base telles que le template matching peuvent être appliquées, le processus est souvent plus complexe dans le cas de la reconnaissance d’objets et nécessite le recours au machine learning et au deep learning. En comparaison, la reconnaissance d’objets est un défi bien plus stimulant pour les développeurs spécialisés en computer vision.

Autrement dit, la détection d’objets permet simplement de compter des « objets » spécifiques présents dans des images (par exemple, des voitures), tandis que la reconnaissance d’objets s’utilise pour des tâches plus complexes telles que la reconnaissance des catégories (par exemple, un modèle de voiture bien spécifique).

Les développeurs spécialisés en computer vision ont un choix important à faire en fonction de la nature de chaque projet : utiliser le machine learning ou le deep learning pour la reconnaissance d’objets. Remarquez que le deep learning fait partie du machine learning, mais se caractérise par une plus grande complexité. Voici quelques particularités à prendre en considération au moment de lancer un nouveau projet de reconnaissance d’objets.

Machine learning

Le processus de reconnaissance d’objets commence par une extraction manuelle des caractéristiques : il s’agit d’une analyse des images et des vidéos pour déterminer les caractéristiques spécifiques des objets que vous souhaitez reconnaître. Les algorithmes de machine learning nécessitent plus de temps, mais aussi une intervention humaine, avant que la reconnaissance d’objets n’atteigne un niveau élevé de précision. Cette approche a pour avantage que les exigences en termes de taille des datasets et de puissance de calcul soient relativement faibles, ce qui la rend plus rentable.

Deep learning

Un réseau neuronal artificiel est entraîné sur des données brutes pour repérer automatiquement les ressemblances et les différences entre des objets. Les développeurs peuvent concevoir un modèle qui part de zéro et l’entraîner. Les résultats atteignent souvent un haut degré de précision grâce aux techniques de deep learning. Cependant, ce processus peut se révéler coûteux puisqu’entraîner des modèles de deep learning nécessite des millions d’images et que les traiter demande donc beaucoup d’énergie.

Use case : détection de logos dans des articles de presse

Récemment, notre aide a été sollicitée dans le cadre d’un projet ambitieux de reconnaissance d’objets dans un environnement complexe. Auxipress est un acteur majeur dans le secteur du média monitoring et qui travaille principalement pour de grandes entreprises et marques. La société était à la recherche d’un service de reconnaissance performant et puissant pour accélérer l’identification de logos des marques apparaissant dans des articles de presse et dans des émissions de télévision.
Pour ce projet, notre équipe de développeurs spécialisés en computer vision a procédé étape par étape en allant toujours plus loin dans les techniques de computer vision jusqu’à l’obtention d’un degré de précision satisfaisant pour la reconnaissance d’objets.

Ils ont commencé par appliquer des solutions simples de computer vision comme le template matching pour évaluer les résultats. Comme prévu, le taux de précision était trop bas. Les techniques telles que le template matching fonctionnent bien dans des environnements très restreints, par exemple, une chaîne de production où l’environnement reste inchangé (toujours le même éclairage, les caméras aux mêmes endroits…). Cette solution ne convenait donc pas pour ce projet. Les logos doivent être détectés dans des environnements complexes, par exemple, sur des personnes ou des objets réels (les logos sur les t-shirts, par exemple), et donc présentant une « déformation ».

Notre équipe de développeurs spécialisés en computer vision a ensuite essayé d’utiliser d’autres méthodes telles que le features matching. Comme dans le cas du template matching, les résultats n’étaient pas suffisamment satisfaisants.

Pour ce projet, nous devions recourir aux techniques de deep learning, car la reconnaissance d’objets dans l’environnement requis s’est révélée assez complexe. Notre équipe a annoté une quantité importante d’articles de presse pour mettre en évidence la présence ou l’absence de logos et les associer à des marques afin de constituer un dataset substantiel. Les algorithmes étaient constamment entraînés à l’aide de ce dataset jusqu’à l’obtention d’un degré de précision de reconnaissance de logos susceptible de répondre aux besoins de l’entreprise.

Actuellement, nos algorithmes continuent à être entraînés pour donner des résultats satisfaisants étant donné qu’Auxipress souhaite étendre ce projet aux vidéos (émissions de télévision, spot publicitaires…) en plus de l’appliquer déjà aux images statiques (articles de presse).

N’hésitez pas à nous contacter si vous avez un projet de reconnaissance d’objets dans un environnement complexe ou si vous souhaitez en savoir davantage sur notre expertise.