NSY122

Analyse des images et des sons numériques


6 crédits Marin FERECATU EPN05 - Informatique Unité d'enseignement de type mixte

Publié Du 01-09-2007 au 31-08-9999

Prérequis

Ce cours est destiné aux élèves ayant le niveau de fin de cycle préparatoire ou celui d'une licence en informatique ou en mathématiques.
Il est fortement conseillé pour suivre le parcours Conception d'Applications Multimédias (UE RSX205 et RSX206).

Objectifs pédagogiques

A l'heure où la technologie numérique permet de produire, stocker et disséminer des volumes de plus en plus importants de données multimédia, automatiser l'analyse et la recherche dans ces contenus numériques est devenu un enjeu crucial pour bon nombre d'applications. Les lacunes des approches de recherche textuelle (ambiguïté et subjectivité des mots-clé, passage à l'échelle de l'annotation manuelle irréalisable) ont conduit à la mise en place de techniques d'analyse automatique des contenus audiovisuels.
Ce cours vise à faire connaître et à manipuler les solutions actuelles à la problématique de l'analyse des contenus audiovisuels. Il commence par rappeler les bases de traitement du signal communes à l'image (fixe et animée) et au son. Puis il introduit les outils mathématiques, algorithmiques et informatiques d'analyse automatique du contenu des images, des vidéos et des sons. Les différentes techniques présentées auront pour finalité la reconstruction 3D de scènes ou d'objets, le suivi de mouvements, la reconnaissance d'objets et la reconnaissance vocale.
Cette année, les applications industrielles présentées concernent la vidéo-surveillance, l'aide à l'annotation de documents audiovisuels, la détection de copies pour le problème des droits d'auteurs, l'identification biométrique et plus généralement la recherche d'information dans les bases de données multimédia (web, archives professionnelles ou grand public) par analyse du contenu.

Compétences

Le cours permet d'acquérir les bases mathématiques et algorithmiques d'analyse des images (fixes et animées) et des sons numériques, de comprendre et manipuler les outils associés ainsi que de connaître les solutions actuelles à la recherche d'information dans les contenus audiovisuels.

L'unité NSY122 apparaît dans 0 cursus.

Contenu

  • Bases du traitement du signal
    • Représentation du signal, Transformée de Fourier
    • Filtres linéaires, non linéaires et convolution
    • Échantillonnage et quantification
  • Analyse des images
    • Acquisition et représentation de la couleur
    • Filtrage : lissage, amélioration
    • Extraction de primitives : détection de contours, extraction de points d'intérêt, segmentation en régions, approximations
    • Vision pré-attentive, focalisation d'attention
    • Appariement de primitives, suivi de primitives dans les vidéos
    • Application à la reconstruction 3D, à la reconnaissance d'images, au suivi et à la reconnaissance d'objets
  • Analyse des sons
    • Représentation et caractérisation du signal sonore
    • Perception du son : niveaux sonores, hauteur tonale, timbre, spatialisation
    • Extraction de primitives : segmentation temporelle, séparation des sources
    • Reconnaissance vocale

Description des modalités de validation

Examen écrit et TP (projet)

Bibliographie

TitreAuteur(s)
Traitement numérique du signal, Sciences Sup, Dunod 2012M. Bellanger
Traitement de l'image et de la vidéo, Ellipses Marketing, Technosup 2010R. Belaroussi
Introduction au traitement d'images, Vuibert, 2ème édition 2008D. Lingrand
Vision par Ordinateur - Outils fondamentaux, Ed. Hermès, 1995R. Horaud & O. Monga
Computer Vision - A modern approach, Prentice Hall, 2012D. Forsyth & J. Ponce
Digital Image Processing, Pearson, 2007R. Gonzalez & R. Woods
Encyclopédie de l'informatique et des systèmes d'information, Vuibert, 2006Collectif Vuibert
Digital Signal Analysis, 2nd Ed., Prentice-Hall, 1990S.D. Stearns & D.R. Hush
Digital Signal Processing, Prentice-Hall, 1975A.V. Oppenheim & R.W. Schafer
Computational Auditory Scene Analysis: Principles, Algorithms And Applications, Wiley-IEEE Press, 2006D. Wang & G. Brown

Thésaurus du Cnam :

  • Traitement du signal
  • Perception du son
  • Son numérique
  • Document audiovisuel
  • Intelligence artificielle
  • Multimédia
  • Codage du son
  • Image numérique
  • Algorithme d'apprentissage
  • Analyse statistique des données
  • Vision artificielle
  • Reconnaissance des formes
  • Image fixe
  • Image animée
  • Vidéo
  • Son
  • Image
  • Data mining
  • Analyse photographique
  • Colorimétrie

Thésaurus Formacode :

  • 11413 - colorimétrie
  • 24358 - visionique
  • 31028 - intelligence artificielle
  • 46227 - audionumérique
  • 46262 - multimédia

Secrétariat

Libellé
EPN05 - Informatique
Nom du contact
Mariella Annicchiarico
Numéros de téléphone
01 40 27 28 49
Adresse postale
33.1.13A, 2 rue Conté
Paris 75003