Un œil averti, un processeur plus musclé, une connectivité étendue : de quels moyens disposent les caméras de vidéosurveillance pour optimiser l’image, analyser ses données et les communiquer ?
De nos jours, une caméra de vidéosurveillance ne se contente plus d’assurer une simple prise de vue, puis de transmettre des images brutes d’informations. Elle est aussi capable d’assumer des fonctions de correction et d’optimisation de l’image, comme de développer des capacités d’analyse et de communication. Et ce d’autant mieux que l’intelligence embarquée bénéficie aujourd’hui d’un contexte favorable à son essor. D’une part, grâce aux possibilités de l’IP. D’autre part, parce que les processeurs des caméras, jusque-là (sur)employés à gérer à la fois l’enregistrement, la compression et la génération de métadonnées (toutes les informations associées à la description d’une scène filmée), font désormais l’objet d’une conception plus adaptée à l’analyse vidéo. Ensuite, les algorithmes, ces filtres informatiques appliqués à l’image en fonction d’actions ou de scénarios d’événements prédéfinis, ont évolué en performances et en fiabilité. Néanmoins, les bénéfices de l’analyse vidéo – qu’elle soit déportée dans une caméra ou concentrée dans un serveur central – ne semblent pas toujours bien perçus. Bien déployée et employée, l’intelligence embarquée affiche pourtant des avantages indéniables : souplesse, efficacité, économie… Et une tendance certaine à développer des innovations pour optimiser le traitement des données à l’intérieur de la caméra.
Soutenir la vigilance
Compte tenu de l’accroissement constant du nombre de caméras, assurer une surveillance efficace représente un défi de plus en plus ardu pour les opérateurs. Ce constat est particulièrement observé dans les villes, vouées à sécuriser des aires de plus en plus étendues. Dans ce contexte, l’analyse vidéo fournit un soutien important à des opérateurs dont le regard est naturellement sélectif et aléatoire. Il sera toujours bon de rappeler qu’aucune technologie ne remplace le jugement humain. « Il faut envisager l’usage de caméras intelligentes comme une solution palliative, note Grégory Pittet (Sony). Que peut faire un opérateur face à un parc de 250 caméras ? Mieux vaut lui fournir une aide à la décision avec des équipements capables de lui signaler des comportements suspects en fonction de scénarios préétablis, d’automatisation de certaines fonctions. » Sur ce terrain, les bénéfices de l’analyse vidéo sont donc nombreux : réduction des fausses alarmes, meilleure gestion de la bande passante et du stockage, gain de temps substantiel dans la recherche d’événements. Cela va de soi : ne serait-ce qu’associée à des indications temporelles, une image est beaucoup plus facile à retrouver dans un historique d’enregistrements. Quand, à cette même image, sont associées d’autres données comme la taille et le volume d’une cible, un objet est d’autant mieux et plus finement identifié.
Intelligence centralisée…
Reste à savoir où placer les capacités d’analyse. Dans un serveur central ou à l’intérieur même des caméras ? Le choix demeure complexe tant en vidéosurveillance, l’éventail des configurations est large. Pour les besoins d’un commerce ou d’une PME, une caméra IP capable d’effectuer de la détection de mouvement de manière autonome, d’enregistrer en local et de transmettre des alertes via SMS permet de s’affranchir d’une installation lourde. De même, on peut préférer l’usage de caméras intelligentes pour la gestion de plusieurs sites, dans le cadre d’applications simples : une caméra à l’entrée de magasins pour effectuer du comptage, par exemple. Dans ce cas, inutile d’équiper chaque site d’une solution serveur-enregistreur. A l’inverse, particulièrement pour des installations d’envergure, une architecture centralisée pourra se révéler plus adaptée à l’exploitation de fonctionnalités d’analyse plus puissantes. De plus, indique Thomas Herlin (directeur des ventes Keeneo), « les solutions serveurs ont l’avantage de pouvoir s’intégrer dans à peu près toutes les architectures existantes sans modifier le hardware en place ». Bien que majoritaires et incontournables pour effectuer des tâches puissantes, les architectures centralisées présentent tout de même quelques contraintes. A commencer par le nombre de caméras qu’un serveur peut prendre en charge.
Analyse audio intégrée : il faudra compter dessus
L’analyse vidéo montre comment quelques pixels dans l’image peuvent se révéler riches en informations. Mais un son est potentiellement tout aussi riche. L’analyse audio, de développement récent, pourrait très bien fournir une aide très précieuse à la détection vidéo, notamment pour la surveillance de scènes complexes. « De la même manière que pour l’image, l’analyse est fondée sur les différences détectées à partir d’une ambiance sonore de référence, explique Grégory Pittet, Trade Marketing Manager chez Sony. A l’avenir, il faudra vraisemblablement compter sur l’analyse de signatures sonores. En effet, chaque son émis correspond à une plage de fréquences donnée, le bruit d’une voiture a une signature sonore différente d’un cri humain. L’objectif est de pouvoir effectuer des tris entre ces plages de fréquences, de manière à déclencher des alarmes. » Il y a fort à parier que la vidéosurveillance va devoir compter avec dans les années à venir : des sociétés comme Orelia proposent déjà des dispositifs d’analyse et de reconnaissance de sons. Associés à des caméras, ils permettent de détecter des anormalités en temps réel afin d’augmenter la réactivité des systèmes de vidéosurveillance.
… ou décentralisée ?
Les constructeurs tentent donc progressivement de s’éloigner de ce modèle en exploitant les bénéfices de la décentralisation. C’est ce que constate Philippe Bénard, ingénieur avant-ventes chez Axis : « Il y a un mouvement en faveur de l’intelligence déportée dans les caméras. Toutefois, on constate qu’il peut y avoir un partage de l’analyse. Par exemple, en délocalisant une partie de la ressource sur les caméras et en laissant le reste de l’analyse à un processeur central. Cette solution fonctionne dans la mesure où les métadonnées sont connues, le travail prémâché en quelque sorte. En conséquence, un serveur pourra gérer davantage de caméras. » Surtout si elles sont HD… A l’heure du mégapixel, il est important de pouvoir maîtriser les flux générés par les caméras haute résolution. Selon Patrice Ferrant (directeur commercial et développement pour la France, le Maghreb et l’Afrique francophone), penser architecture décentralisée, c’est aussi anticiper les évolutions dans ce domaine : « Aujourd’hui, nous utilisons des capteurs de 1, 2, 3 mégapixels. Qui sait si dans quelques années, nous ne travaillerons pas sur des capteurs de résolution bien supérieure ? On peut supposer que l’H.264, standard actuel de compression, ne permettra pas de répondre aux futurs besoins. Il faudra sans doute repenser les technologies de transferts de fichiers. Déjà, aujourd’hui, avec une solution de gestion centralisée, un serveur a du mal à traiter plus de huit caméras mégapixels. Tout incite donc à placer l’intelligence dans la caméra, de manière à traiter les flux vidéo le plus en amont possible. »
1, 2, 3… X intelligences
Chaque constructeur défend sa vision de l’intelligence embarquée. Une notion certes relative, qui demande à être identifiée à plusieurs niveaux. Il s’agit premièrement de la possibilité de régler des caméras à distance, par l’intermédiaire d’un réseau IP (en analogique, un changement de paramétrage implique d’intervenir directement sur la caméra). C’est ensuite la capacité, pour une caméra, à « nettoyer » l’image pour en optimiser l’exploitation. On peut parler d’intelligence dans le traitement de l’image. Une caméra peut aussi, grâce aux capacités de son processeur, développer des fonctionnalités d’analyse. On peut ici parler d’intelligence dans la gestion des événements, dont il existe deux grandes déclinaisons : d’une part, la détection de mouvements, fondée sur la comparaison avec une image de référence. Grégory Pittet : « De ce principe de détection découle une quantité d’algorithmes d’analyse de mouvements et de comportements : filtre de franchissement indiquant si un individu est entré dans une zone et permettant de caractériser une intrusion. Ce principe permet aussi d’effectuer du comptage ou encore de protéger une œuvre d’art dans un musée en délimitant une barrière immatérielle. Un autre type d’analyse consiste à effectuer de la détection de stationnement dans la durée. Citons également la détection de mouvements à contresens, etc. ».
D’autre part, l’analyse d’objet, fondée sur la distinction entre la présence et l’absence d’une forme définie. D’autres applications permettent, par exemple, d’effectuer de la détection de silhouette par l’identification du contour de la tête et des épaules (fonctionnalité développée par Bosch, avec l’IVA). Le champ d’application est donc vaste. Il s’étend du strict domaine de la sûreté, avec l’emploi d’algorithmes de détection d’intrusion, aux applications de « business intelligence », avec le développement d’algorithmes de comptage d’individus ou d’objets, de gestion des files d’attente, tels que conçus par des éditeurs comme Keeneo, Foxstream, Agent VI, Aimetis. On peut, enfin, envisager comme intelligente une caméra apte à dialoguer avec l’ensemble des périphériques d’une installation de sûreté. On peut parler d’intelligence fonctionnelle, permettant à l’usager d’accéder à des services : transmission d’alarmes, génération d’appels visio, etc. A dialoguer avec tous types de terminaux, en s’adaptant aux contraintes des réseaux utilisés. En somme, à se conduire comme un produit de connectivité, adapté aux nouveaux usages de la mobilité (consultation à distance, levée de doute sur smartphone). C’est la direction prise par la société Mobotix, avec la volonté de proposer des équipements totalement interopérables, vers tous types de terminaux. Patrice Ferrant explique : « L’interopérabilité est un sujet d’importance quand on évoque la vidéosurveillance intelligente. Quelles caméras peuvent réellement prétendre à cette qualité ? On constate que finalement, il n’y en a pas tant que ça, car la notion d’interopérabilité se réduit souvent à une liste de compatibilités établies, par exemple, entre une caméra et un enregistreur ou une caméra et un logiciel. En réalité, l’interopérabilité devrait concerner l’ensemble des périphériques. Il s’agit de tous les faire dialoguer sans contraintes. De fait, une caméra interopérable doit pouvoir intégrer tous les protocoles de connectivité vers les produits réseaux, de transfert de données entre machines, de communication, tous équipements et environnements utilisateurs confondus. »
Optimiser la prise de vue
Avant de fournir une aide à la décision, le traitement vidéo est d’abord une affaire de contraintes, qu’il s’agit de maîtriser pour fournir une image exploitable. Ces contraintes, bien connues, regroupent tous les éléments susceptibles de dégrader la lisibilité d’une image. Ce sont aussi bien les conditions de faible luminosité ou les lumières vives que les conditions météo comme le brouillard, la pluie ou encore les surfaces réfléchissantes. Certains éclairages urbains affectent par ailleurs la couleur des objets. Facteurs de bruit, d’éblouissement et dans tous les cas de perturbations, ces éléments nuisent à la pertinence de l’analyse vidéo. C’est pourquoi il est nécessaire de les traiter au préalable, dès la source. Les technologies développées dans ce domaine par les constructeurs de caméras sont nombreuses. Certaines sont courantes, comme la correction de contre-jour. D’autres, comme la technologie View-DR de Sony, permettent de restituer la meilleure image, quelles que soient les conditions de contre-jour (jusqu’à 125 dB de dynamique). Soucieux de fournir une image la plus exploitable, Samsung envisage toujours le développement de ses solutions sur les plans physique et logiciel. Comme l’explique Olivier Maillard, responsable des ventes IP : « Pour pallier aux phénomènes de contre-jour, les caméras Samsung intègrent à la fois une fonction WDR (Wide Dynamic Range), qui résulte de plusieurs images physiques, et une fonctionnalité SSDR (Samsung Super Dynamic Range), qui est un traitement logiciel intégré au processeur et appliqué aux scènes à fort contraste. Pour la vision de nuit, nos caméras intègrent un filtre infrarouge mécanique ainsi qu’un traitement logiciel du bruit. Un logiciel de compensation de luminosité (HLC) permet de masquer les lumières vives. Tous les modèles disposent de ce filtre intégré, de manière à lutter contre, par exemple, l’éblouissement d’une lampe torche braquée sur un objectif. »
Coprocesseurs, biprocesseurs…
Développer les fonctionnalités d’analyse d’une caméra implique d’utiliser une partie des ressources de son processeur. Dans ce domaine, tous les algorithmes ne sont pas égaux, certains étant plus gourmands que d’autres. Or, le processeur d’une caméra, doté d’une puissance de calcul fixe, est par nature un facteur limitant. D’où les efforts entrepris par les constructeurs pour accroître les performances intrinsèques de leurs caméras. Dans ce but, chacun développe sa stratégie. Et les idées ne manquent pas. Du côté d’Axis, l’augmentation des capacités intrinsèques d’une caméra se concrétise par le lancement d’un processeur dernière génération, l’ARTPEC-4. L’objectif du constructeur : permettre à un nombre plus étendu d’applications disponibles via sa plate-forme contributive, l’ACAP (Axis Camera Application Platform), de tourner dans ses caméras. « Ce nouveau processeur, indique Philippe Bénard, autorise le pilotage de nos nouveaux capteurs, très performants en faible luminosité. Il est également équipé d’un coprocesseur mathématique dédié à la partie analytique. En effet, à partir du moment où on demande à un processeur de faire de la compression d’images et en plus de l’analyse vidéo, les performances ne peuvent pas suivre. Intégrer un élément mieux adapté dans le processeur est une solution permettant d’aller beaucoup plus loin. » Depuis le printemps 2011, Bosch Security Systems a, dans le cadre du renouvellement de sa plate-forme technologique, lancé ses premiers modèles de caméras biprocesseurs, dont un spécifiquement dédié à l’analyse vidéo. Comme l’indique Pascal Bouvignies, « Bosch a choisi d’attendre la normalisation de la compression H.264 pour développer une technologie de compression à partir d’un processeur câblé. Le résultat offre de meilleures performances et une qualité d’image bien supérieure. Cette démarche a permis aux processeurs de développer leurs performances. Deuxièmement, nos caméras intègrent un processeur spécifiquement dédié à l’IVA (Intelligent Video Analysis). Cette nouvelle plate-forme permet de délivrer des flux HD 720p à 60 ips avec une compression H.264 d’excellente qualité et de très bonnes performances d’analyse vidéo à la source. Le tout, sans compromis ».
« Il faut mieux valoriser les potentiels de l’analyse vidéo »
Selon Pascal Bouvignies, responsable grands comptes chez Bosch Security Systems, les potentiels de l’analyse vidéo gagneraient à être mieux valorisés.
« Beaucoup de clients finaux sont conscients qu’il existe des technologies d’analyse vidéo. Néanmoins, on s’aperçoit qu’ils ne savent pas exactement ce qu’ils veulent faire de leur installation de vidéoprotection. Il y a une curiosité de leur part, mais leur intérêt s’arrête là. Ce constat révèle un problème général de définition des besoins. Les prescripteurs sont peu nombreux, ne serait-ce qu’au niveau des communes : on ne trouve personne pour veiller à l’optimisation d’un centre de surveillance urbaine (CSU). Il existe aussi un frein dans le domaine de l’expérimentation. La réglementation française interdit à des unités de recherche, des universités, d’expérimenter sur des enregistrements de situations réelles, effectués par exemple dans un environnement public. Dans ce cadre, comment faire avancer l’analyse vidéo intelligente ? Bien sûr, il reste possible d’effectuer des enregistrements sur des sites privés, à des fins privées, mais les besoins ne sont pas les mêmes. Nous-mêmes sommes contraints lors de nos démonstrations dans les CSU, parce nous n’avons pas le droit de regarder les vidéos en temps réel et enregistrées. Il est donc difficile de communiquer sur des technologies pourtant très prometteuses. Dans ces conditions, comment aider les opérateurs à trouver leur solution ? »
Multiprocesseur et processeurs multiples
Suivant une logique voisine, Sony sortira, d’ici la fin de l’année, ses premières caméras multiprocesseur, dont chacun sera dédié à un type d’applications : un pour l’envoi d’images, un pour l’analyse vidéo, un autre pour l’analyse des contre-jours, etc. « C’est pour nous un tournant qui témoigne d’une évolution dans notre manière de penser nos caméras, précise Grérgory Pittet. Au lieu d’y intégrer un processeur puissant pour l’ensemble des opérations de traitement, nous commençons à privilégier l’usage de processeurs multiples. C’est un développement important qui montre la maturité du marché. » Pour optimiser les performances de ses équipements, Samsung adopte une stratégie différente. Concepteur de ses propres puces, le fabricant coréen a choisi de développer différents types de processeurs, chacun d’entre eux correspondant à une résolution : le WiseNet S pour le VGA, le A1 pour le 4CIF, le WiseNet 1 pour la HD et le WiseNet 2 pour le Full HD. Olivier Maillard estime qu’« en tant que fabricant, nous avons une bonne maîtrise des ressources de nos processeurs. Cela nous autorise à faire évoluer nos algorithmes en fonction des différentes résolutions d’image, conjointement aux avancées de notre R&D. Ainsi, toutes nos caméras, du format 4CIF jusqu’au 3 mégapixels disposent d’analyse vidéo avancée (franchissement de ligne virtuelle, détection de zone, etc.). Une simple mise à jour du firmware permet de les faire évoluer ».
Commentez