Gérer les risques
Aujourd'hui et demain

Risques industriels et environnementaux

L’analyse vidéo après événement

Trouver l’information pertinente parmi des heures et des heures d’enregistrement… Pour répondre à cette problématique de plus en plus cruciale, les solutions d’analyse vidéo assurent une meilleure rentabilité du temps investi dans la recherche sur enregistrements.

Recherche d’un événement d’intrusion sur un site protégé, d’une séquence d’un incident routier ou d’une agression en milieu urbain… Quelles que soient les situations, les enregistrements des systèmes de vidéoprotection constituent des bases précieuses de renseignements. Dans le cadre d’une requête, l’image enregistrée est devenue un recours incontournable pour attester d’un acte de malveillance, authentifier un événement jugé anormal. En bref, avoir la possibilité de revenir sur une situation donnée, à un instant donné et dans un lieu donné. Pour ce faire, les technologies d’analyse de l’image permettent d’accéder aujourd’hui à un arsenal de fonctionnalités de détection et de reconnaissance.


Mais qu’en est-il lorsqu’il s’agit de retrouver une séquence d’intérêt dans des volumes d’enregistrements d’autant plus importants que le nombre de caméras implantées est en augmentation constante ? Comment extraire de cette matière plus ou moins brute des éléments susceptibles de renseigner sur les circonstances d’un événement, même ceux qui ne sont pas donnés comme des alertes ? Et comment gagner du temps en effectuant ces démarches ? Les outils logiciels conçus pour répondre à ces enjeux développent les ressources des algorithmes dédiés à l’analyse d’image. Appliqués aux enregistrements en accéléré, ils filtrent les données des flux vidéo, en fonction de critères préalablement définis. Et soulagent ainsi l’opérateur des recherches fastidieuses qu’il peut être amené à conduire pour visionner l’intégralité d’un enregistrement, des heures durant.

Quelques secondes parmi des centaines d’heures

Aujourd’hui, avec l’explosion des moyens de capture d’image et d’enregistrement, le volume des données récoltées est devenu difficilement exploitable en l’absence de solutions adaptées. De plus, la tendance revient souvent à chercher des données de plus en plus précises. Si auparavant le visionnage des images d’un ou deux enregistreurs était certes fastidieux, mais réalisable, il n’est plus aujourd’hui envisageable de mobiliser toute l’attention humaine sur des enregistrements provenant de sources d’images multiples. Un nombre croissant de communes est équipé de plusieurs dizaines, voire de plusieurs centaines de caméras. Ce phénomène a pour conséquence de mobiliser une part importante des ressources humaines. « Les CSU estiment qu’ils consacrent au minimum 30 % de leur temps de travail à la recherche sur enregistrements vidéo », rappelle Jean-Marc Du Saillant du Luc (Ineo Engineering & Systems). Par ailleurs, il est bien connu qu’au bout d’un laps de temps relativement réduit, un opérateur voit sa vigilance décroître. Avant de parvenir à saturation, ce dernier doit donc pouvoir aboutir plus rapidement à un résultat, en se concentrant sur la part utile des événements recherchés. Les outils d’analyse de l’image et d’aide à la recherche apparaissent en somme comme la seule réponse possible à la montée en puissance des systèmes de vidéoprotection. 

Calibrer les besoins

La tâche est d’autant plus complexe que les besoins d’analyse varient d’un environnement à l’autre. La vidéosurveillance des espaces publics est souvent associée à la détection de bagage abandonné, de mouvement de foules. Tandis que sur un site sensible, c’est la détection d’intrusion qui est privilégiée, en périphérie du site ou en zone réservée, via des algorithmes de franchissement de zone. Dans les aéroports, la relecture d’enregistrements peut être associée à des algorithmes de comptage pour la mesure du temps d’attente. Les missions diffèrent donc beaucoup. « C’est une des raisons pour lesquelles les éditeurs de logiciels d’analyse d’image montent des offres spécifiques, de plus en plus orientées métier, analyse Laurent Pitek (Sinovia). C’est un phénomène qu’on n’observait pas avant. »

Recherche colorimétrique : limites et possibilités

Comme toute technologie, l’analyse vidéo a ses limites. Limites d’abord induites par la qualité des images elles-mêmes. Les conditions 

de prise de vue exercent de facto une influence sur les performances de recherche : pour effectuer une analyse cohérente, une caméra doit fournir des informations pertinentes. Les variations de luminosité et de traitement de l’image par des équipements de nature différente peuvent nuire à une qualification précise des éléments recherchés, notamment la couleur. « Il est possible d’exploiter ce type d’informations, estime Olivier Viné, mais il faut veiller à ce que la capture d’une couleur par la caméra corresponde à son interprétation sous forme de métadonnées. » Comme l’explique Jean-Marc Du Saillant du Luc, effectuer une recherche sur le critère de la couleur implique de calibrer les caméras d’une installation à l’identique, en fonction d’un référentiel de palettes de couleurs défini par le système : 

« Ainsi, Ineo Engineering & Systems a développé une solution capable de discriminer, sur la base de la couleur, les véhicules officiels des voitures non officielles dans les convois du dernier sommet du G20 à Cannes. »

Spécifier les requêtes

L’exploitation des enregistrements issus d’une installation de vidéosurveillance peut donc se faire sur la base de plusieurs types de critères : horaires, géographiques, directionnels, événementiels, comportementaux, etc. « C’est la détection de mouvement et de stationnarité qui intervient le plus souvent comme base de recherche et de préparamétrage, indique Olivier Viné (Open Wide). Ces éléments d’informations permettent d’opérer une distinction entre les séquences où quelque chose se produit et celles où il ne se passe rien. » Il s’agit de détecter, sur quelques images, le passage d’un individu ou d’un véhicule, de manière à tomber sur une tentative d’intrusion. Ou encore, à comptabiliser le trafic à l’entrée d’un site. Les algorithmes d’apparition-disparition d’objets sont sollicités pour revenir, par exemple, sur le vol d’une œuvre d’art dans un musée. La reconnaissance de forme intervient dans la distinction entre forme humaine et forme animale. Intégrés à un moteur de recherches, ces filtres de détection permettent de lancer des analyses sur des enregistrements vidéo. L’essentiel des démarches vise donc, en préparant le terrain de la manière la plus précise possible, à soutenir le travail de l’utilisateur dans l’exploitation de ces enregistrements. Sachant qu’au départ, la diversité actuelle des moyens d’accès aux images ne lui simplifie pas la tâche. 

« Beaucoup d’opérateurs attendent d’une solution d’analyse vidéo qu’elle soit un point d’accès unique aux enregistrements sauvegardés sur des équipements hétérogènes », ajoute Olivier Viné. Quand elles n’y sont pas directement intégrées, les applications de recherche contextuelle doivent donc pouvoir s’interfacer avec la plupart des solutions de vidéo management. Et offrir de bonnes performances de traitement automatique, la capacité à gérer des bases de données, tout en offrant à l’utilisateur une interface ergonomique et intuitive… 

Quelques solutions de recherche

Qu’elles soient l’œuvre d’éditeurs spécialisés ou de fabricants de systèmes de supervision vidéo, ces solutions fonctionnent sur la base d’un moteur de recherches multicritères, prenant en charge la plupart des formats vidéo et des formats de compression courants. C’est le cas de Sisell Search, solution conçue par l’éditeur de logiciels Open Wide. En deux étapes (sélection des fichiers à traiter et paramétrage de l’outil en mode test), l’application est paramétrée et fournit, au rythme d’1 heure d’enregistrement analysée en six minutes, de ressortir les séquences vidéo pertinentes. Avec une remarquable simplicité d’utilisation, le module de recherche d’images Search, développé par la société Kaolab, est capable de traiter n’importe quel format vidéo pour procéder à des analyses a posteriori sur des événements tels que vols, disparitions, dégradations, etc. Le logiciel de supervision de Sony, Real Shot Manager, intègre quant à lui deux modules spécifiques de recherche a posteriori : la fonction Post VMD (Video Motion Detection), qui permet de chercher des mouvements dans un enregistrement vidéo de manière classique en travaillant sur le flux vidéo enregistré.


La fonction VMF (Filtre de mouvements) offre quant à elle la possibilité de chercher des images dans un enregistrement vidéo en exploitant un flux de métadonnées prétraité par une caméra Sony : c’est la technologie d’analyse d’image DEPA (Distributed Enhanced Processing Architecture), embarquée dans les caméras du fabricant, qui permet à un serveur de filtrer vingt quatre heures d’enregistrement en moins de deux minutes sur des critères définis lors de la recherche. Le cas échéant, ces capacités d’analyse peuvent être enrichies : 

« Les algorithmes intégrés dans nos caméras sont capables de gérer une bonne part des besoins de nos clients, explique Luc Plaud. Pour des besoins plus spécifiques, nos algorithmes seront complétés par ceux de partenaires développeurs plus spécialisés dans l’analyse vidéo. »

Différencier un fusil d’un parapluie… pas si évident

Lancer une analyse sur la base de détails vestimentaires ou de silhouettes particulières (un individu portant une casquette, par exemple) est une démarche qui reste complexe. « Nous avons déjà eu affaire à des demandes portant sur l’identification de porteurs d’armes, raconte Laurent Saint-Yves. Seulement, l’analyse vidéo dans son état actuel ne permet pas encore de différencier un fusil d’un parapluie. Nous sommes capables de définir un élément long dans l’image, mais pour l’identifier à une arme, le logiciel doit pouvoir corréler cette information avec une base de données… Exploiter de telles ressources en temps réel est difficilement envisageable aujourd’hui, malgré les puissances de calcul dont on dispose. Gageons que d’ici trois à cinq ans, nous y parviendrons. » 

Quant à l’analyse des comportements, il est déjà possible d’identifier des « mouvements anormaux », notamment par l’analyse du mouvement moyen d’une séquence. Les algorithmes de détection d’attroupement permettent de repérer des scènes de mouvements de foule, des situations de saturation de quais, etc. Toutefois, s’il est possible de répertorier des scènes d’agitation, identifier formellement une agression relève encore de l’irréalisable.

Travailler en différé

Un vol a été constaté une nuit, dans un entrepôt sous vidéosurveillance. Problème : on ne sait pas quand ni comment. Pour y répondre, les enregistrements de la nuit passée sont passés au crible d’un logiciel de recherche d’événements, paramétré pour l’occasion avec un algorithme anti-intrusion. Pour affiner la recherche, un algorithme de reconnaissance capable de distinguer une forme humaine d’une forme animale sera également appliqué. Pratique, efficace et incomparablement plus rapide qu’un visionnage en temps réel. Suivant les produits, le balayage de vingt-quatre heures d’enregistrement s’effectue en quelques minutes, voire en quelques secondes.


Pour être efficaces, les solutions dédiées à la recherche sur enregistrements doivent être exploitables sur la base d’un paramétrage simple. Une interface ergonomique et intuitive permettra à l’opérateur d’effectuer ses réglages sur une image test, de préciser des zones de recherche, d’y associer les algorithmes de détection choisis avant de « missionner » son application. Les enregistrements sont alors lancés en accéléré, le logiciel s’occupant de flagger en live tous les éléments correspondant à la recherche. « Pendant qu’un algorithme travaille pour lui, l’opérateur peut se consacrer à autre chose, explique Laurent Saint-Yves. S’il cherche à identifier une présence humaine dans une zone anti-intrusion définie, il paramètre sa solution, lance la recherche, puis revient au bout d’un certain temps pour relever les résultats. » Si la recherche aboutit, l’opérateur obtient une liste de tous les événements qui auront été détectés par l’algorithme appliqué à l’enregistrement sélectionné. Parmi ses avantages, la recherche a posteriori permet de travailler sur la chronologie d’un événement pour en affiner sa compréhension, dans la mesure où les images de l’avant et de l’après-événement sont disponibles.


En conséquence, les informations remontées pourront être contextualisées et corrélées, jusqu’à l’établissement de scénarios. La recherche a posteriori a cet avantage qu’elle permet de faire concorder des événements qui n’auraient pas pu être rapprochés dans le cadre d’une surveillance en live. « La recherche a posteriori permet ainsi de retracer la trajectoire d’un individu, ajoute Jean-Marc Du Saillant du Luc. Dès lors que l’auteur d’un acte délictueux est identifié, on est capable de conserver son profil image et de l’exploiter pour le confronter à d’autres prises de vue de l’installation. »

L’exploitation des métadonnées

Elles jouent en effet un rôle primordial dans l’évolution et l’accélération des méthodes de recherche. Ces informations d’analyse du contenu de l’image sont générées par une caméra en parallèle de sa capacité à produire des flux vidéo et audio. Les métadonnées issues d’un équipement de prise de vue peuvent ainsi contenir des détails sur les objets présents dans une scène, entrant ou sortant du champ des zones sous surveillance vidéo. Leur exploitation a posteriori permet d’optimiser la recherche, sans avoir à balayer l’intégralité des enregistrements. Elles autorisent des gains de temps et de traitement significatifs, dans la mesure où ces données indépendantes de l’image ne nécessitent pas de décompression du flux vidéo pour être exploitées. Un outil d’investigation précieux dont Sony tire avantage dans ses solutions, explique Luc Plaud : « Un flux de métadonnées autorise des déclenchements d’actions par une analyse du serveur en temps réel, mais aussi une exploitation a posteriori. Ce flux est alors filtré, de manière à effectuer une analyse plus élaborée que celle proposée en standard, type détection de mouvement. » Il est possible de lancer une requête, soit sur le filtre qui a permis de déclencher un enregistrement, soit sur un filtre déterminé au moment de la recherche. Cette technique impliquant l’usage des métadonnées permet de balayer des volumes de vidéos importants, en accéléré, sans solliciter de ressources trop importantes. En somme, les gains obtenus à travers l’exploitation des métadonnées sont énormes : c’est ce que laissent entendre les avancées de la vidéosurveillance intelligente dite de « 3e génération ». 


Alors que les fonctionnalités de détection standard se fondent sur l’analyse de mouvements à l’intérieur de zones définies dans l’image, les métadonnées peuvent décrire tout le contenu de cette image, indépendamment de la définition de zones. Il est ainsi possible de créer une requête sur la base d’un signalement. A l’appui d’une description assez précise, puisqu’elle inclut les critères suivants : classification de l’objet (véhicule, personne), identifiants d’objets (contenu textuel, couleur), taille, mouvement, durée de mouvement, occurrences d’un événement. Autant d’informations qui, stockées sur une base de données, permettent d’effectuer tous types de requêtes sur un enregistrement, avec des performances notables : « Les technologies actuelles de traitement et d’écriture dans une base de données nous ont permis, dans le cadre de certaines applications, d’optimiser les résultats de requête dans un délai de l’ordre de trois à cinq secondes, estime Jean-Marc du Saillant du Luc, avant d’ajouter : dans ce délai, le système peut couvrir l’ensemble des requêtes, de la plus simple à la plus complexe, en intégrant tous les paramètres descriptifs de l’image (taille, direction, vitesse, couleur). » De quoi rapprocher l’analyse vidéo en différé de l’analyse en temps réel…

Reconnaissance faciale ou détection de visage ? 

Identifier un visage relève d’un processus délicat, dès lors qu’il s’agit de reconnaître un individu dans un environnement dit « non coopératif ». Si la reconnaissance faciale est désormais exploitable en contrôle d’accès vidéo, dans des conditions maîtrisées, elle ne trouve pas encore sa place dans l’analyse vidéo en environnement complexe. Sur un enregistrement, un visage n’apparaît souvent que sur quelques images, desquelles il est très difficile d’extraire une face et d’y définir des points d’intérêts autorisant une éventuelle corrélation avec une base de données… Trop de contraintes et d’incertitudes. En revanche, certaines applications basées sur la détection (et non la reconnaissance, de toute manière limitée par les restrictions de la Cnil) de visages sont possibles : à l’occasion d’un projet-pilote, Open Wide a conçu un filtre de dépouillement vidéo autorisant un opérateur à accéder à toutes les séquences montrant des visages, en fonction d’une plage horaire définie. La recherche de contenus textuels, à la manière de la reconnaissance de plaques, est également à l’étude : « Nous travaillons au développement d’une fonctionnalité de recherche de texte, dans des environnements et sous des formes très différentes, confirme Olivier Viné. Il s’agit d’extraire toutes les informations de type textuel dans une image, à l’aide d’algorithmes spécifiques, puis de les décoder en utilisant des technologies de reconnaissance de caractères (OCR). » 

Commentez

Participez à la discussion


La période de vérification reCAPTCHA a expiré. Veuillez recharger la page.