8 mai 2009

Le Numérique

LES CONVERSIONS ANALOGIQUE/ NUMERIQUE

La prise et la restitution des sons se fait, même aujourd'hui, toujours de façon analogique:

le micro et le haut-parleur sont des appareils analogiques au travers desquels les déviations électriques évoluent à l'identique des vibrationss sonores.

Seuls la maniplation, le stockage et le transport se font numériquement.

La conversion analogique-numérique ou numérique-analogique se fait dans des circuits électroniques appelés convertisseurs.

Les convertisseurs sont chargés d'analyser le signal électrique analogique du son et de le convertir en données numériques pour chaque échantillon. Et inversement.

La qualité des convertisseurs dans un appareil numérique est de toute première importance car ce sont eux qui font la définition finale du son numérisé et ensuite dénumérisé pour être diffusé.

LES CONVERSIONS NUMERIQUE / NUMERIQUE

L'information numérique est traitée, à l'intérieur d'un appareil, sous la forme qui convient le mieux au traitement effectué. Par exemple, à l'intérieur d'une console de mixage numérique, la longueur d'un mot de quantification peut être portée à un nombre de bits beaucoup plus élévé (jusqu'à une cinquantaine de bits). Cela s'avère nécessaire pour ne pas détériorer le signal originel par les différentes manipulations effectuées (correction, filtage, harmonisation, mélange, délai, réverbération, etc.).

Les liaisons numériques disponibles sur les appareils répondent à quelques normes internationales, ou à des normes qui sont propres aux fabricants des différents appareils.

Les principales normes internationales sont:

AES/EBU: disponibles soit sur des connecteurs XLR 3 (les fameuses prises Canon) sous forme de liaison symétrique, soit sur des connecteurs BNC ou Cinch (RCA) sous forme de liaison asymétrique, soit sur un connecteur pour fibre optique. Il est imératif de respecter le type présent sur l'appareil (ne pas connecter une XLR à une BNC) et d'utiliser un câble spécialement adapté aux liaisons numériques. Une liaison AES/EBU véhicule simultanément deux canaux audio, ainsi que les signaux de synchronisation des horloges des différents appareils reliés entre eux, signaux indispensables au bon fonctionnement des appareils.

Ces trois informations (les deux canaux audio et les signaux d'horloge sont présent séquentiellement sur la liaison). Les liaisons de ce type véhiculent des mots audio d'une longueur de 24 bits, quelque soit la longueur du mot issu de la conversion analogique numérique, ou de la longueur du mot utilisé à l'intérieur de l'appareil.

SPDIF ou SDIF2: disponibles sur des connecteurs adaptés au nombre de canaux à transmettre. Chaque liaison véhicule un seul canal audio, sous forme séquentielle, les différents bits sont présentés les uns après les autres. L'absence de signaux de synchronisation à l'intérieur de la liaison impose une liaison supplémentaire de synchronisation entre les appareils.

Les principales normes de fabricant sont Y2, MEL2 et TDIF. Ces liaisons sont incompatibles entre elles et incompatibles avec les liaisons précedemment citées. Elles comportent un ou plusieurs canaux audio et les signaux de synchronisation nécessaires aux appareils reliés entre eux.

Si des liaisons de même type ne sont pas disponibles pour effectuer une copie numérique, il est impératif d'utiliser un convertisseur numérique / numérique.

Un premier problème important se pose lors des transferts numériques, en particulier lors de l'utilisation des liaisons AES/EBU. Ces liaisons véhiculent, nous l'avons vu plus haut, des mots de 24 bits. Si les appareils reliés ne sont pas strictement identiques, il est possible qu'ils utilisent des mots de longueurs différentes.

Par exemple le lecteur utilise des mots de 20 bits et l'enregistreur des mots de 16 bits.

En ce qui concerne la liaison, pas de problème, elle peut contenir 24 bits. Mais à l'arrivée l'appareil enregisteur va alors devoir convertir un mot de 20 bits en un mot de 16 bits, soit éliminer 4 bits qui font partie du signal audio. C'est ce qu'on appelle la troncature.

Il faut écouter le résultat très attentivement, car la qualité du résultat est directement fonction de la qualité de l'algorythme utilisé (manière d'éliminer ces bits superflus).

Un deuxième problème tout aussi important se pose lorsque l'on effectue des copies entre des appareils ne fonctionnant pas à la même fréquence d'échantillonage. Il est en effet possible que l'appareil lecteur fonctionne à 44,1 kHz (cas du compact disc par exemple) et l'enregistreur à 48 kHz (cas normal en post-production), ou éventuellement l'inverse.

Il convient alors, si l'un des deux appareils ne le propose pas en interne d'utiliser un convertisseur de fréquence d'échantillonnage. En effet, l'unité de référence est la seconde, la fréquence d'échantillonage étant le nombre d'échantillons par seconde. On constate alors qu'il faut soit éliminer des échantillons, soit en créer de toutes pièces suivant le cas.

Encore une fois ceci n'est pas une mince affaire, et là encore, la qualité du résultat va dépendre des algorythmes utilisés.

En tout état de cause, lors d'un transfert numérique entre appareils qui ne sont pas strictement identiques et/ou qui ne fonctionnent pas à la même fréquence d'échantillonage, il convient d'être extrêmement prudent, et il est toujours utile de faire faire la copie par un technicien dûment qualifié, sous le contrôle éventuel d'un ingénieur du son, et comparer la qualité du résultat obtenu par copie numérique à celle obtenue par une copie en analogique, le résultat n'étant pas certain à l'avance, même si de précedentes opérations ont donné des résultats satisfaisant.

En effet le résultat d'une troncature ou d'une convertion de fréquence d'échantillonnage dépend du contenu de l'information sonore. Ce qui veut dire que ce qui est bon pour de la musique peut être catastrophique pour de la parole, par exemple, ou vice versa.

LES CORRECTIONS D'ERREURS

Le signal audio numérique, lorsqu'il est enregistré, comporte des informations supplémentaires permettant de corriger d'éventuelles erreurs de lecture, provoquées par exemple par un "drop" sur la bande (disparition d'information).

En règle générale, les corrections d'erreurs n'ont pas à intervenir. Cependant, lorsqu'elles interviennent, il peut se produire quatre cas différents:

Peu d'informations sont manquantes, le système de correction d'erreur est capable de reconstituer le signal originel, sans aucune altération du son. Il procède alors par correction.
Le nombre d'informations manquantes est plus important, le système de correction d'erreur est incapable de reconstituer le signal originel. Il procède alors par interpolation, ce qui consiste à essayer de reconstituer le signal manquant par calcul entre le partie précédant et la partie suivant la partie manquante. Une faible altération du son est alors perceptible.
Le nombre d'informations manquantes est encore plus important, le système de correction d'erreur est toujours incapable de reconstituer le signal originel, ou de procéder à une interpolation. Il procède alors par maintient de la dernière information valide (hold) pendant toute la durée de la perte d'information. Une forte altération du son est alors perceptible.
Le nombre d'informations manquantes est encore plus important, le système de correction d'erreur est toujours incapable de reconstituer le signal originel, ou de procéder à une interpolation, ou au maintien de la dernière information valide. Dans ce cas, le système interrompt purement et simplement la diffusion du son (mute).

Le son est alors définitvement perdu à tout jamais.

Lorsque les systèmes de corrections d'erreur interviennent trop fréquemment ou montre des interpolations, il est impératif de procéder sans délai à une copie numérique du support en cause. En effet, tant que le système est capable de reconstituer le signal original, une copie sera exactement identique à l'original. On sera alors en présence d'un clone, sous réserve de ne pas effectuer la copie par des liaisons analogiques entre les appareils, mais exclusivement par les liaisons numériques disponibles sur les appareils.

En cas de copie par les liaisons analogiques, il s'agit d'une copie, et non plus d'un clone, cette copie comporte donc des dégradations par rapport à l'original.

En revanche, si le correcteur d'erreur a effectué des interpolations, il est impossible d'obtenir un clone, quelque soit le mode de copie utilisé. Cette copie comporte donc, elle aussi, des dégradations par rapport à l'original.

N'en veuillez pas à un assistant ou à votre ingénieur du son s'il vous demande d'interrompre une séance pour effectuer cette opération, car ils agissent alors en vue de la préservation de la qualité sonore. De plus un support qui commence à se détériorer peut devenir définitivement inexploitable en quelques dizaines de minutes, d'où une perte totale et définitive de votre travail.

REDUCTION de DEBIT / COMPRESSION INFORMATIQUE de DONNEES

Pour le film cinéma, on aurait pu, la technologie des caméras le permet, décider que la prise de vue se ferait à 100 ou même 200 images par seconde. On aurait obtenu une meilleure définition, une absence de saccades dans les mouvements rapides et une disparition de l'effet stroboscopique.

Par contre la longueur des bobines aurait été difficile à exploiter, on se serait retrouvé avec des bobines de 2400 ou 4800 mètres pour 20 minutes de projection.

Il a donc fallu réduire le nombre d'images fixes par seconde au minimum admissible sans altération "visible". La physiologie de l'oeil a permis une solution grâce à sa persistance rétinienne: une image fixe projetée 1/25 ème de seconde persiste au fond de l'oeil assez longtemps pour "attendre" l'image suivante sans impression de "vide".

La numérisation des sons est très gourmande en informations distinctes pour restituer le plus fidèlement possible le signal sonore originel, bien que les fréquences d'échantillonnage et le nombre de bits de quantification soient déjà fixés à des valeurs très faibles. La numérisation du son à 48 kHz sur 16 bits représente une "phrase" de 48 000 fois 16 "caractères": c'est le débit informatique, 48 000 échantillons de 16 bits chacun, soit 768 000 bits par seconde de son monophonique.

Idéalement, pour obtenir une reproduction fidèle du son, il faudrait porter la fréquence d'échantillonnage à 96 kHz, et le nombre de bits de quantification à 20, voire 22 ou 24.

La longueur d'une "phrase" de 96 000 fois 22 caractères représente alors 2 112 000 bits par seconde de son monophonique (soit 264 000 octets par seconde).

C'est actuellement ce vers quoi se tournent tous les constructeurs de systèmes audio numériques professionnels, puisque l'expérience a montré que la quantification sur 16 bits à une fréquence d'échantillonnage de 48 kHz (ce qui était le maximum permis par la technologie ces dernières années) apporte des dégradations telles au signal audio qu'elles sont souvent perceptibles par simple comparaison entre le son analogique et le son numérique.

Une bobine de 20 minutes de son d'un mixage en 6 canaux (tel que le Dolby SRD ou le DTS) représenterait, dans ce cas 1 900 800 000 octets, soit pour les férus d'informatique 1 813 Méga octets, ou encore 1,77 Giga octets.

Et n'oublions pas que lorsque le signal sonore numérisé est transmis ou enregistré, il faut lui rajouter des octets permettant de corriger les erreurs se produisant pendant la transmission ou le processus d'enregistrement/lecture. Une correction d'erreur relativement efficace augmente le nombre de bits d'environ 30 %, ce qui porte la quantité d'information de notre exemple précédent à 2,3 Giga octets.

Il a donc fallu dans certains cas, pour pouvoir transmettre ou enregistrer toutes ces informations sur un même support et bénéficier d'un temps d'enregistrement assez long pour pouvoir être exploité dans des conditions normales, trouver des solutions pour réduire cette quantité d'information sans ou sans trop altérer le signal d'origine. Et c'est là tout le problème.

Il existe deux possibilités pour arriver à ce résultat : la compression de données, et la réduction de débit

LA COMPRESSION de DONNES

La compression de données est souvent utilisée en informatique pour réduire la place occupée par les informations sur le support.

Son principe est très simple: il n'est pas indispensable d'enregistrer la totalité des informations, pour autant qu'un système de codage permette de retrouver l'intégralité des informations originelles lorsque que cela est nécessaire.

Dans le cas du son, cela signifie qu'il faut retrouver ces informations originelles pour le monter, le mixer ou le diffuser.

Il existe différentes techniques pour parvenir à ce résultat.

Une des solutions couramment mises en oeuvre repose sur l'idée suivante : si le même octet existe plusieurs fois de suite, il est préférable de n'enregistrer qu'une fois cet octet, et d'ajouter le nombre de fois qu'il se répète.

Par exemple, 10 secondes de silence (silence se traduisant par une quantification strictement identique) ou de mille Hertz, représente une succession de 2 640 000 octets strictement identiques.

La technique que nous évoquons réduit cette quantité d'informations à 9 octets (7 pour le nombre de fois que le son numérisé se reproduit à l'identique, 1 pour la valeur de cet octet, et encore 1 pour indiquer qu'il y a répétition). Quel gain de place! Génial! Oui, mais....

Mais il aura fallu attendre 10 secondes pour constater que nous étions en présence de 10 secondes parfaitement identiques.

Mais il faut stocker cela quelque part en attendant.

Mais cela prend du temps pour procéder au codage et au décodage.

Mais il faut relire l'information en continu. On ne peut pas démarrer la lecture n'importe où.

Mais il faut faire cela en temps réel, impossible de prendre du retard.

Mais pour faire tout cela en plus, il faut une machine beaucoup plus puissante que celle qui enregistre tout.

Dans la pratique ce genre de technique est surtout utilisé pour archiver (c'est à dire stocker en vue d'une éventuelle utilisation ultérieure) les données numériques.

Une autre technique utilisée pour le traitement du son, consiste à enregistrer à intervalle régulier un échantillon complet, et de le faire suivre par des enregistrements de la différence entre deux échantillons successifs. Comme statistiquement la variation entre deux échantillons successifs est assez faible, cette technique permet de diviser par 2 ou 3 la quantité d'informations à stocker, ce qui est déjà considérable.

Dans la liste de nos "Mais" de l'exemple précédent, il ne reste plus que l'obligation de relire les informations depuis un échantillon complet.

Ce genre de technique est assez utilisé dans les appareils de traitement du son (effets, délais, etc..)

Retenons de cela que la compression de données n'est pas destructive. Il n'y a pas de perte d'information. Le son sera restitué tel qu'il a été enregistré.

LA REDUCTION de DEBIT

Des chercheurs se sont inspirés de la sensibilité de l'oreille humaine pour constater entre autres, parce qu'un son fort masque un son faible qui le suit immédiatement, de ne pas prendre en compte le son faible, c'est à dire de ne pas le quantifier ou de le quantifier avec moins de précision.

Un système de calcul (un algorithme) détermine dans l'information sonore numérisée, les sons que l'on peut éliminer de cette information, car ils correspondent aux sons que l'oreille d'un auditeur moyen n'entend pas sans l'aide d'une comparaison au son originel.

Ceci permet une réduction sensible du nombre d'informations à stocker ou à transmettre.

Par contre il manque au final des informations sur lesquelles il devient impossible de travailler ultérieurement, c'est à dire non modifiables. Par exemple un son qui serait enregistré trop "sourd" risque de voire ses aiguës éliminés par la réduction de débit. Il deviendra tout à fait illusoire de croire pouvoir l'éclaircir au mixage. Les aigus ne seront pas insuffisants, ils auront disparu.

De plus, il existe des taux de réduction de débit différents. La qualité du résultat auditif dépendra alors du taux de réduction utilisé, ainsi que de l'algorithme utilisé, certains algorithmes donnant des résultats meilleurs que d'autres.

La réduction de débit est destructive: des informations sont éliminées. Il n'y a pas de retour en arrière possible.

Il convient d'être très prudent lors de l'utilisation de la réduction de débit. En effet, si une réduction de débit modérée n'altère pas trop le signal et peut paraître convenable pour l'enregistrement de certains sons, tels que certains sons d'ambiance ou certains effets, il faut savoir que des réductions de débits successives ne s'additionnent pas, mais multiplient la dégradation apportée au son par chacune d'entre elles.

Or il n'existe, à ce jour, aucun moyen de diffusion du son numérique sans réduction de débit. Et la tendance du futur ne conduira qu'à des réductions de débit de plus en plus importantes lors de la diffusion finale.

Et n'oublions pas que l'apparition de la télévision numérique ne fait qu'empirer ce phénomène. En effet, nous allons voir apparaître tout prochainement des diffusions télévisuelles numériques de films cinématographiques comportant une piste sonore elle-même numérique.

Si la réduction de débit utilisée pour les copies standards ne présente pas un taux élevé, et donc n'altère pas beaucoup le signal sonore, celle utilisée par la télévision est beaucoup plus sévère et altère gravement la qualité du son. Et là, il y a cumul de deux réductions de débit en cascade.

Si, au cours de la production ou de la post-production d'un film, il est en plus fait appel à des sons enregistrés avec réduction de débit, le résultat chez le téléspectateur sera inférieur en qualité à celle que nous proposaient les premiers appareils à mini K7.

Très grossièrement voilà comment on arrive à "compresser" des données informatiques et donc à réduire la place nécessaire pour les stocker ou les diffuser.

Les gros systèmes de traitement informatique ne compressent pas les données, elles sont toutes stockées.

La "compression" de données doit être réservée exclusivement à la diffusion, le stade où on n'intervient plus sur le signal.

La transmission par paquets.

Une fois numérisé, le son est donc devenu une suite de 0 et de 1. Pour le reproduire identique au son capté, il convient de le restituer de façon continue et à la même fréquence d'échantillonnage.

Mais entre l'enregistrement et la relecture, il n'y a aucune obligation de le stocker ou de le transmettre de façon linéaire (c'est à dire en continu et à la même vitesse que celle à laquelle il a été échantillonné).

On peut le transmettre de façon continue, à une vitesse plus lente ou plus rapide, et dans ce cas il faudra l'enregistrer quelque part pour pouvoir le restituer à sa cadence originelle.

On peut aussi le transmettre sous une forme discontinue, c'est à dire que des informations sonores sont regroupées et transmises, puis intervient un temps de repos, pendant lequel la transmission s'interrompt momentanément.

C'est qu'on appelle la transmission par paquets.