Formats Audio Numériques

 

et ses conséquences de traitements

 

 

La production des divers formats audio numériques va nous permettre de comprendre le sens de la diffusion de la musique à travers le réseau et les machines de communication. Elle va montrer aussi l'obsolescence du système propriétaire qui agit contre la culture de soi.

 

Il existe 4 familles principales de formats audio qui ont été créés selon les différentes nécessités, telles que :
1. le travail du son en station ou studio par l'ingénieur du son musicien compositeur,
2. la transmission du son sur internet en temps réel et en temps différé (téléchargement) pour l'écoute publique,
3. la réduction du poids des fichiers audio pour la parole et la musique (jeux et cinéma) pour l'écoute privée,
4. l'accommodement entre un fichier pas trop lourd et une qualité audio qui ne reste pas trop éloignée de l'original.

 

Chacun sait qu'un ordinateur fonctionne avec un codage binaire symbolisé par 0 et 1 (fermé/ouvert : un alphabet à deux valeurs) qui sont nommé Bit (ou digit) et byte au pluriel. Pour former une application, il faut que le langage machine (la circulation des byte pour le calcul) soit « compilé ». La compilation est une opération de traduction qui assemble des byte en mots, phrases, etc. Le langage Fortran est une compilation du langage Assembleur qui est une compilation du langage machine. D'autres compilateurs (langages) dont les plus connus sont le Basic, le C++, le Pascal, Intelgreu (de Patrick Greussay), etc. Avec ces langages compilateurs sont créé les systèmes d'exploitation (operating systems Mac, Windows ou Linux pour les plus courants) et les applications (ou programmes ou logiciels) de ces systèmes d'exploitation de la machine.

Quand on parle de byte qui agissent dans la numérisation de l'audio, c'est le nombre de Bit dans une compilation de codage en 4 Bit, 8 Bit, 16 Bit, 32 Bit, 64 Bit, ou 128 Bit d'aujourd'hui : 0110 par exemple est un mot de 4 Bit (les sons du sampler Akai S900 étaient codés en 12 Bit dont aujourd'hui on reconnaît sa sonorité particulière). Le nombre de mots en 4 Bit est de 24 (= 4! : factoriel 4, qui multiplie 1.2.3.4). Plus le nombre de Bit par mot est grand plus fin sera le paramétrage du son : 8! = 40 320 mots ; 16! = 20 922 789 888 000 mots ; 24! = 12 981 511 545 809 983 815 324 197 191 680 000 000 ; etc. Le son numérisé est un flux de byte (qui fait du bruit de Bit caractéristique) dans une fréquence donnée. C'est la fréquence d'échantillonnage qui est le second paramètre du codage de l'audio. Les ingénieurs en informatique se sont dit que pour qu'un son numérisé soit audible (sans trop de déformation par rapport à l'original), il faut au moins que la fréquence d'échantillonnage soit au double de la fréquence du son entendu le plus aigu (théoriquement nous « entendons » les vibrations entre 20 pulsations par seconde (sons graves) et 20 000 pulsations par seconde (sons aigus) que l'on nomme « fréquences » et qui se mesurent en Hertz écrit Hz) qui est 40 000 Hz ou 40 kHz (avec k pour kilo). Les fréquences d'échantillonnage convenues sont : 8 kHz, 11,025 kHz, 16 kHz, 22,05 kHz, 32 kHz, 44,1 kHz (la fréquence usuelle pour travailler le son), 48 kHz (l'audio pour la vidéo), 64 kHz, 88,2 kHz, 96 kHz (prise studio de qualité), 176,4 kHz, 192 kHz (prise studio de meilleure qualité), 352,8 kHz et 384 kHz (et encore plus...). Au début des années 90, les DAW (Digital Audio Workstation) du type ProTools sur Mac étaient calibrés pour un son numérisé en 16Bit à 44.1 kHz que l'on retrouvait sur le CD audio (*.cda) et les interfaces AD (AN) et DA (NA). Aujourd'hui en 2010 vu les capacités augmentées des ordinateurs et des disques durs (au-delà du téra - mille gigas), il est courant de travailler en 32 Bit flottant à 96 kHz même à 192 kHz. C'est l'interface audio qui autorise jusqu'à quel taux d'échantillonnage on peut travailler. Exemple mon interface M.Audio Delta1010 a un taux d'échantillonnage (codec sample rate) maximum de 96 kHz en conversion AD et DA, alors que mon interface Digidesign 442 a un taux d'échantillonnage maximum de 48 kHz. Les interfaces plus récentes dépassent ces taux jusqu'à 384 kHz à 64 Bit, mais dans ce cas les interfaces audio doivent être équipées de DSP (Digital Sample Processor) pour partager le travail des multiprocesseurs de l'ordinateur comme pour les interfaces RME. La surenchère de la numérisation du son est proportionnelle à l'équipement de prise et de diffusion du son : avec un micro un préampli de console et des écoutes « cheap » le résultat n'aura pas la même sonorité qu'avec du matériel de classe A avec la même interface ADDA. Le son « cheap » manque de présence et se dérobe aux traitements, et personne n'a de plaisir à travailler de l'audio qui ne sonne pas (son étriqué sans détail comme lissé qui n'accroche pas son traitement).

La norme MIDI
La première idée de transmettre un même fichier (avec les mêmes paramètres) à différentes machines a été initié par la norme MIDI (Musical Instrument Digital Interface) en 1981 mise en service en 1983 avec le DX7 Yamaha. Cette norme n'a pas changé depuis, elle est toujours intensivement utilisée et n'a jamais été remplacée malgré plusieurs tentatives d'amélioration, au contraire elle s'est généralisée à d'autres machines non musicales : contrôleurs, consoles de lumière, vidéo, etc.

Plates-formes informatiques et compatibilité audio
Plate-forme PC (syst ème d'exploitation Windows et Linux) & Plate-forme Mac (système d'exploitation Apple Macintosh) :
Dans les années 80/90 les formats audio étaient difficilement interchangeables entre plates-formes : AIFF était destiné pour les ordinateurs Apple Macintosh et WAV pour les ordinateurs PC quand Microsoft a décidé de produire un système d'exploitation multimédia avec Windows 95. Aujourd'hui, ce n'est plus le cas : ces 2 formats AIFF et WAV sont ouvrables par la majorité des programmes audio sur les 2 plates-formes. Le codage interne de ces 2 formats non compressé peu prendre 2 formes : 1. PCM (16 et 24 Bit) et 2. IEEE Float (généralement 32 Bit). En 32 Bit flottants, il était obligé de travailler par petits bouts : les disques durs ne dépassaient pas 1 Gigabyte et un CD avait une capacité maximale de 650 Mégabyte. Produire un CD audio en stéréo prenait la place d'un disque dur entier à 16 Bit 44.1 kHz.

Les plates-formes Atari et Amiga se sont retirées du marché à la fin des années 90 à la déception de tous ses utilisateurs. Atari avait intégré une interface MIDI à sa machine et était devenu l'ordinateur abordable des musiciens et Amiga c'était spécialisé dans la vidéo et permettait pour quelques sous de rajouter des modules hardware à l'ordinateur pour élargir les possibilités de contrôle vidéo de traitement et de diffusion en temps réel.

Voici la liste alphabétique non exhaustive des formats audio numériques rencontrés :

- AAC Advanced Audio Compression (suffixe *.aac)
- AIFC
- AIFF Audio Interchange File Format (*.aif). Taux d'échantillonnage de 8kHz à 192kHz. Bit depth de 8 à 32 bit. Pistes par fichier de 1 (mono) à 32.
- ATRAC Audio (*.aa3) par Sony pour une alternative au mp3
- CD Audio (suffixe *.cda) le format du CD audio par Philips et Sony codifié dans le RedBook (le petit livre rouge !) et l'OrangeBook
- Dalet (suffixe *.snd)
- Dialogic VOX ADPCM (*.vox) de 8kHz à 96 kHz en 4 Bit Mono (pour dialogue dans les jeux video ?)
- Dolby Digital AC-3 Pro (*.ac3) son 5.1 du DVD (digital video disc) DVD soundtracks.
- DVD est un conteneur sur disque compact de grande capacité de 4,5 et 9 Gbyte multimédia pour fichiers audio, video, image, texte, etc. majoritairement utilisé par l'industrie du cinéma.
- FLAC suffixe (*.flac) de 8kHz à 192 kHz. Bit depth de 8 à 24 bit. pistes Mono ou stereo.
- Intervoice (*.ivc) de 4kHz à 192 kHz. [formats : G.711 A-Law, G.711 u-Law, G.721 (A-Law) ADPCM (32kBps), G.721 (u-Law) ADPCM (32kBps), G.721 (A-Law) ADPCM (24kBps), G.721 (u-Law) ADPCM (24kBps)]
- LPEC Audio (*.msv) format LPEC STHQ (128 Kbps, 44,100 Hz, Stereo, STHQ Audio: 44 100 Hz; 16 Bit; Stereo; PCM) HQ pour Haute Qualité, LPEC ST (48 Kbps, 44,100 Hz, Stereo, ST (Wide) Audio: 44 100 Hz; 16 Bit; Stereo; PCM), LPEC STLP (24 Kbps, 44,100 Hz, Stereo, ST Audio: 44 100 Hz; 16 Bit; Stereo; PCM) LP pour Long Play
- m4b Audio Book (suffixe *.m4b)
- Matroska (suffixe .mkv) est un conteneur multimédia pour fichiers audio, video, image, texte sous-titres, etc. généralement pour le cinéma.
- MIDI (suffixe *.mid)
- MIDI (RIFF) (suffixe *.rmi)
- Monkeys Audio (suffixe *.ape) notez que monkey et ape signifient singe. Format utilisé par la DAW Cockos Reaper (PC).
- MainConcept AVC/AAC (*.mp4) de 8kHz à 96 kHz. Bit rate (bps = bit par seconde) de 6k à 512k.
- mp4 (*.mp4)
- mp4 Audio (*.m4a)
- MPEG (*.mpg ; *.mpeg)
- MPEG Audio (*.mpa ; *.mpga)
- MPEG X (*.mpx)
- MPEG-1 Layer 1 (*.mp1 ; *.mpg) Taux d'échantillonnage de 32kHz à 48kHz. Bit rate (bps = bit par seconde) de 32 kbps à 384 kbps. Pistes mono ou stereo.
- MPEG-1 Layer 2 (*.mp2 ; *.m2a ; *.m2v ; *.m2t ; *.mpa ; *.mpg) Taux d'échantillonnage de 32kHz à 48kHz. Bit rate (bps = bit par seconde) de 32k à 384k. Pistes mono ou stereo.
- MPEG-1 Layer 3 (*.mp3) Taux d'échantillonnage de 16kHz à 48kHz. Bit rate (bps = bit par seconde) de 16 kbps à 320 kbps. Pistes mono ou stereo.
- Musepack (*.mp+ ; *.mpp ; *.mpc) Musepack (also known as MPC) is a lossy codec, released as open source. Specifically optimized for transparent compression of stereo audio at bitrates of 160-180 kbit/s, previously it was known as MPEGplus, MPEG+ or MP+. Andree Buschmann started development of MPC in 1997, taken over later by Frank Klemm. Currently maintained by the Musepack Development Team (MDT). More details: http://www.musepack.net
- NeXT/Sun (Java) (*.au) Taux d'échantillonnage de 8kHz à 96kHz. Types d'échantillonnage : 8 ou 16 Bit. Pistes mono ou stereo. format propriétaire Motorola et G.711 u-Law.
- Ogg Vorbis (*.oga ; *.ogg) Taux d'échantillonnage 44kHz et 48kHz. Bit rate (bps = bit par seconde) de 96 kbps à 192 kbps. Constant Bit Rate (CBR), Average Bite rate (ABR) and Variable Bit Rate (VBR). Pistes mono et stéréo.
- OptimFROG (*.ofs ; *.ofr) notez que frog signifie grenouille
- Quick Time 7 (*.mov) format Video avec Audio
- Raw Audio (*.raw) Types d'échantillonnage : 8 à 32 Bit, PCM (Motorola) ; 32 et 64 Bit IEEE float ; G.711 u et A-Law. Pistes de 1 (mono) à 32. Choix de l'ordre des Bit (Byte order) Big-endian (Motorola) ou Little-endian (Intel)
- RealMedia 9 (*.rm) audio for streaming format. de 20kBps pour une connexion Internet avec un modem à 28K jusqu'à 150 kBps pour une connexion Internet avec un modem LAN (une connexion DSL ou Cable est à 768kBps). 22.05kHz 16 Bit Mono et 44.1kHz 16 Bit Stereo. (format Video et Audio)
- RealAudio (Helix community) audio for streaming format. de 28kbps à 100Mbps.
- Scott Studios Wave (*.wav) formats : ACELP.net, CCITT A-Law, CCITT u-Law, DSP Group TrueSpeech™, GSM 6.10, IAC2, IMA ADPCM, Microsoft ADPCM, MPEG Layer-3, PCM, Windows Media Audio V2. Taux d'échantillonnage de 8kHz à 192kHz. Types d'échantillonnage de 8 ou 64 Bit. Permet la sauvegarde en paquets différés.
- Shorten Compressed Audio File (*.SHN)
- Sony AVC (*.mp4 ; *.m2ts ; *.avc) audio format inclus AAC dans MP4 file format, MPEG-2 transport stream, Video elementary stream. Taux d'échantillonnage de 8kHz à 96kHz. 6 kBps à 512 kBps. Pistes stereo et 5.1. (Video format avec audio)
- Sony MXF (*.mxf) Video format avec audio PCM 48kHz 16 et 24 Bit 2 ou 4 pistes.
- Sony Perfect Clarity Audio (*.pca) ancien format SonicFoundry destiné à ses applications SoundForge, Vegas et Acid (PC). Taux d'échantillonnage de 8kHz à 192kHz. 16 et 24 Bit. Pistes mono ou stereo.
- Sony Wave64 (*.w64) formats : CCITT A-Law, CCITT u-Law, DSP Group TrueSpeech™, GSM 6.10, 32 Bit IEEE Float (uncompressed), IMA ADPCM, Microsoft ADPCM, MPEG Layer-3, PCM (uncompressed) 1 à 32 pistes, taux d'échantillonnage 8kHz et 192kHz, 8 à 32 Bit.
- Sound Designer 1 (*.dig ; *.sd1) Audio: 44 100 Hz; 16 Bit ; Mono; PCM (MAC Digidesign)
- Sound Designer 2 (*.sd2) Audio: 44 100 Hz; 16 Bit ; Mono, Stereo; PCM (MAC Digidesign)
- SoundFont (*.sf2) Sound Blaster (?)
- Sound Forge Pro Project File (*.frg) spécifique à l'éditeur Sound Forge (Sonic Foundry racheté par Sony)
- Speex (*spx) codec de compression pour la parole
- The True Audio (*.tta)
- Video for Windows (*.avi) video format with audio. formats : ACELP.net, CCITT A-Law, CCITT u-Law, DSP Group TrueSpeech™, GSM 6.10, IAC2, IMA ADPCM, Microsoft ADPCM, MPEG Layer-3, PCM.
- Wave (*.wav) formats : CCITT A-Law, CCITT u-Law, DSP Group TrueSpeech™, GSM 6.10, IEEE Float, IMA ADPCM, Microsoft ADPCM, MPEG Layer-3, PCM. Taux d'échantillonnage 8kHz et 192kHz. 8 à 32 Bit. 1 à 32 pistes.
- WavPack (*wv)
- Windows Media Audio (*.wmv ; *.asf ; *.wma) formats Voice 9, 9.2 et 10 Professional compressés en VBR ou CBR (variable ou constant bit rate). Pistes stereo et 5.1. 16 et 24 Bit. de 4 kBps à 768 kBps. de 8kHz à 96kHz.

 

Format audio non compressés :
PCM
IEEE Float
identifiés en AIFF et WAV et leurs dérivés.
Tous les autres sont des formats compressés ou presque.

 

Format audio compressés
(Lossy audio codec: audio quality is lost while compressing)

.MP2
Invented by the MPEG group, MP2 (official name "MPEG 1 Layer 2", also known as "raw MP2") was developed as a streaming format, meaning that a player can play the audio from a data stream without first having to read the file header. MP2 has found it's home in professional broadcasting applications. Almost all radio automation systems in the last 10 years support and prefer MP2 (or a derivative, such as "Dalet SND" or "BWFMP2") as a standard file format. work by Michael Cheng and other contributors. Utilisé pour l'archivage.

.mp3
format généralisé par les lecteurs audio qui est en phase d'être abandonné à cause de sa qualité médiocre.

.Ogg Vorbis
Ogg is the container while Vorbis is the compression format. Founded by Christopher Monty Montgomery as an alternative to mp3 in 1998, free from patents and open source.

.Real Audio (Helix)
The Real Audio format was originally created and implemented by Real Networks as a codec for streaming media across the internet at (sometimes) very low bit rates. The format features the ability to encode different bit rates into the same file (called "Surestream"), meaning that one file is created which serves listeners/viewers with internet bandwidths from 28kbps to 100Mbps and above. The Real Audio format is developed further by "The Helix community". The Helix community is a collaborative effort between RealNetworks, independent developers, and leading companies to create and extend the Helix DNA platform, the first open and comprehensive platform for digital media delivery. This community enables companies, institutions, and individual developers to access and license the Helix platform source code to build Helix-powered encoder, server, and client products and other media applications for both commercial and non-commercial use. More details: http://en.wikipedia.org/wiki/Helix_project ;
http://en.wikipedia.org/wiki/Real_Audio ; Helix community: https://www.helixcommunity.org

Format audio compressés à perte minimum
Lossless codec (audio compressed to a lossless codec will be decoded identical to the source)

.FLAC
is a acronym for Free Lossless Audio Codec, and is a popular open source cross-platform codec. FLAC falls under the Ogg banner (Vorbis, Speex and FlAC). Primarily developed by Josh Coalson.
.OptimFROG
is a new technology, sophisticated, high-performance lossless audio compressor. It obtains asymptotically the best lossless audio compression ratios.
.Shorten
Invented by Tony Robinson & SoftSound Ltd. Development has been taken over by etree,org and seek tables have been added. Shorten does not support ID Tags.
.TTA (TTA (The True Audio)
was designed to have minimal hardware requirements, aimed at the embedded market. More Details: http://tta.sourceforge.net

Format audio compressés à perte minimum et format audio compressés et, les deux à la fois
Lossless, Lossy and both Lossless & Lossy
How can a file be both Lossless & Lossy? two files are written a .wv and .wvc, when kept together the resulting audio is decoded as Lossless, when the .wvc is taken away then decoding is Lossy.

.WavPack
Created by David Bryant in mid 1998, WavPack has grown to a fully featured encoder, with strong error detection, album art, ability to embed RIFF chunks, 32 bit float compatible, strong cross-platform support, embeddable CUE sheets and Replay Gain support. At strong selling point for WavPack is the efficient Lossless compressor, with some of the highest compression rates available and fast decoding speeds.
.WMA
Windows Media Audio encompasses multiple codecs into one: Windows Media Audio 9.2 Lossless, Windows Media Audio 9.2 (a lossy codec), Windows Media Audio 10 Professional (lossy higher quality than 9.2), Windows Media Audio 9 Voice, ACLEP.net (low bit rate, voice optimized). Different versions of WMA are confusing to say the least, not least because they do not go up in consecutive version numbers. Windows Media Audio v2 was the first, then v4, v7, v8, v9, v9.1 (and v9 PRO), v9.2 and v10 PRO. Windows Media Audio 9.2 (not voice, lossless or professional) is backwards compatible with all playback devices. Newer lossless, voice and professional require new decoders (very few portable players will play these). Microsoft's own audio codec to compete with mp3, later Professional releases target aac.

Autres formats pour la parole et l'élargissement des formats non compressés

.Speex
is a voice optimized codec, that is it is very efficient at encoding speech, it should not be used for non-voice (ie music) encoding. Speex is Open Source and forms part of the Ogg Vorbis stable. Created by Jean Marc Valin, specifically targeted for Voice over IP (VoIP) and audio books.

The RIFF/WAVE file format as defined by Microsoft allows to store up to 4 GB of audio data in a single file. This is sufficient to hold about 6h 45min of uncompressed PCM coded stereo 16-bit audio signals with a sample rate of 44.1 kHz. However, for multichannel audio (e.g. 5.1 surround), high-definition formats (24 bits, 96 or 192 kHz sample rate) or some special applications in production and broadcasting, the file size limit of 4 GB is rather inconvenient, since long recordings need to be split into several files. The file size limit of 4 GB exists, because all size fields in the RIFF/WAVE format have a size of 32 bits, resulting in a maximum size of 2^32 = 4294967296 bytes.

.The Wave 64 codec as the Scott Studios Wave
are a codec created primarily to break the 4GB file limit imposed with normal Wave files, these files have 64 bit internal structures allowing for all practical extents any length audio files. The Wave 64 files contain primarily linear audio, making this a lossless codec, but the files can also contain compressed formats (such as MP3, a-law, u-law, etc..). The codec works in a similar way to the Wave codec. The Sony Wave64 and the Scott Studios Wave file format are defined as a true 64 bit file format that allows to overcome the limitations of the RIFF/WAVE format. The file format was originally defined by Sonic Foundry. In Summer 2003, Sony Pictures Digital acquired Sonic Foundry's Desktop Software assets. Since then, the new format is officially promoted as Sony Pictures Digital Wave 64. Companies are encouraged to support this format and no royalties have to be paid to use it. The Sony Wave64 file format is very similar to the well known RIFF/WAVE format. Therefore, existing software implementations of RIFF/WAVE file filters are likely to be extendable to support the Sony Wave64 and the Scott Studios Wave file format with little programming effort. Because of the similarities to the RIFF/WAVE format, only the differences between these formats are described. It is assumed that the reader is familiar with the original format as defined by Microsoft. The recommended file name extension for Sony Wave64 files is .w64 instead of .wav for the Scott Studios Wave.
More details: http://en.wikipedia.org/wiki/WAV ; http://media.vcs.de/download/content/show/04345113457 ; http://media.vcs.de/Downloads/Sony_Wave64.pdf

Codec de compression des données open source

Ogg Vorbis, FLAC et Speex

Lecteur gratuit

Créé en 1996 par des étudiants français, VLC est le lecteur gratuit qui lit le plus de formats audio, vidéo et réseaux codés : « Le lecteur multimédia VLC est un lecteur, un encodeur et un diffuseur multimédia libre et gratuit, qui peut lire des fichiers, des disques, des flux réseau, des cartes d'acquisition et encore plus ! VLC utilise ses propres codecs et fonctionne sur presque toutes les plates-formes. » http://www.videolan.org

 

CONCLUSION
On peut constater maintenant que les formats compressés destinés au réseau offrent une écoute manquée où le détail de la musique est masqué par l'encodage au profit de sa communication. C'est une caractéristique de la production musicale actuelle qui empêche une production musicale de qualité. Il est très difficile pour un compositeur musicien d'obtenir un enregistrement fidèle de sa musique malgré l'abondance d'équipement. Dans sa communication, la musique numérisée est dégradée. Ce qui est vendu sur le réseau et les divers supports mêmes disque sont des musiques détériorées par l'encodage/décodage numérique et les équipements d'écoute miniaturisés et cheap comparés au « master » sorti du studio d'enregistrement. Alors que ces formats compressés devraient avoir le rôle de représentants gratuits pour accéder à la version fidèle non compressée de la musique. Mais tout un chacun n'est pas équipé par exemple pour écouter des fichiers multipistes (quadriphoniques ou octophoniques) non compressés (enceintes acoustiques de qualité, amplification de qualité, interface multipiste de qualité, disque dur de grande capacité, etc.) de certains compositeurs pour une écoute fine et détaillée. Les vitesses de connexion actuelle permettent de télécharger des fichiers au-delà d'un giga (poids d'un fichier audio d'une heure quadriphonique en 16 Bit 44.1kHz). La généralisation petit à petit du format FLAC sur le réseau montre en ce moment cette tendance de certains mélomanes a refuser la dégradation et le système du second propriétaire de la musique, mais FLAC pour le moment n'accepte que des fichiers de format mono ou stéréo, pas multipiste... Construire des petits auditoriums municipaux libres ? pour l'écoute détaillée des musiques multisoniques des compositeurs vivants, serait une des solutions.

 

ID TAGS
Certains codec audio (encoder/decoder) inclus le ID Tag Details : des informations au format texte attachées au fichier plus ou moins completètes. “ID Tag Details” signifie “fiche d'identification de renseignements du fichier attachée au fichier”, info sur le fichier nommé aussi Summary (RealAudio, Windows Media Audio) ou file info (Winamp), etc., au format texte : Unicode (multi plate-forme en anglais : cross platform), ANSI (Microsoft) et UFT-8 (Mac) pour les langues d'écriture latine. D'autres encodage/décodage pour les langues asiatiques, cyriliques, arabes, indiennes, etc. A quoi sert ce type d'informations attachées ? A classer sa banque de données suivant, le nom de l'artiste (par ordre alphabétique), le nom de l'album (par ordre alphabétique), la date de création, etc. pour une écoute boulimique de morceaux choisis avec un lecteur audio de l'ordinateur. Reste le barrage de la langue qui semble être pris en charge par des traducteurs automatiques qui donnent des résultats amusants.

Voici un exemple d'informations pour le format audio de type 1 (= le travail du son en station ou studio par l'ingénieur du son musicien compositeur) :

ID Tags, such as Audio-Properties:
File Name [nom du fichier]
Length [durée]
Channels [nombre de pistes]
Sample Rate (Hz) [taux d'échantillonnage]
Sample Size [taille de l'échantillon]
Bit Rate (kbps) [débit de Bit par seconde]
Size (Bytes) [taille en bit]
Uncompressed Size (Bytes) [taille non compressée en nombre de bit]
Compression (% of Original) [taux de compression des données en % de l'original]
Type [genre du fichier : audio, video, texte, etc.]
Path [adresse du fichier]
Audio Quality [qualité de l'encodage]
Encoder [nom de l'encodeur utilisé]
Sample Count [nombre d'échantillons dans le fichier]
Gapless
Atoms
Encoder Settings [réglages de l'encodeur utilisé]
Wave Header
Channel Mapping [disposition des pistes]
Riff Chunks [splits a larger file into smaller "chunks", ]
Protected [empêche la copie ou pas]
Contains [contenu du fichier]

Voici un exemple d'informations pour le format audio de type 2 (= la transmission du son sur internet en temps réel et en temps différé (téléchargement) pour l'écoute publique) :

ID Tags, such as Audio-Properties:
Artist [nom de l'artiste]
Album [titre de l'album]
Title [titre du morceau]
Track [numéro du morceau dans l'album]
Genre [genre musical]
Year [année de création]
Comment [commentaires]
Compilation
Tempo
Encoded by [encodé par (nom de celui ou celle qui a encodé le morceau)]
Album Artist [nom de l'auteur de l'album]
Composer [nom du compositeur de l'album]
Disc
AccurateRipResult
AccurateRipDiscID
ReplayGain
MPEG Version
MPEG Technical
ISRC [code qui identifie chaque morceau du CDA de la forme FRMAT0952001 par exemple pour l'album "Les Complices du Silence" qui inclus : le pays d'origine en 2 lettres (FR), l'auteur en 3 lettres (MAT), l'année de création en 2 chiffres (09), numéro de série du morceau en 5 chiffres (52001 = album du centrebombe n°52, morceau n°001). Ce code ISRC est localisé dans subcode PQ du CD Audio et fut érigé par le protocole RedBook. Va-t-il devenir obsolète ?]
Rating [note d'appréciation]

Voici un autre exemple d'informations pour le format audio de type 2 (= la transmission du son sur internet en temps réel et en temps différé (téléchargement) pour l'écoute publique) :

artist
album
title
genre
year
track ie 2 or 2/15
comment
Album Artist
band
disc
rating
tempo
composer
conductor
label
isrc
upc
mood
style
Subtitle
Encoded by
Encoder
Encoder Settings

Historique des versions des ID Tags
...
. APEv2
. ID3v1.0
. ID3v2
. ID3v2.3 (UTF16)

ID3v1 Tag se compose de :
Title
Artist
Album
Year
Genre
Comment

ID3v2 Tag se compose de :
Title
Artist
Album
Year
Genre
Comment
Composer
Original Artist
Copyright
URL
Encoded by

Dans les cas de désir d'informations supplémentaires, il suffit d'attacher un fichier texte .txt simple au fichier audio en les rassemblant dans un conteneur du type .zip (Mac/PC) ou .rar (PC) qui est largement utilisé dans le réseau.

 

CBR & VBR
Variable bit rate (VBR) = débit variable de bit en fonction de la complexité/simplisité du signal : taux élevé de byte pour un signal complexe contre taux faible de byte pour un signal simple (sinus) ou absent (silence). Constant bit rate (CBR) = débit constant de bit quelque soit la forme et l'absence du signal. Les programmeurs audiophiles suggèrent l'utilisition du VBR pour une retitution audio de meilleur qualité que le CBR pour un même poids ou taille de fichier.

[2 Pass Encoding: encoding is done in two passes allowing for a higher quality encoding]

Dithering et Noise Shaping sont un ajout de bruit (au mastering) et sa formation pour couvrir le bruit numérique (de débit de byte) qui est plus désagréable qu'un souffle continu en deçà d'une codification du signal à 32 Bit.

 

LE DENOISING (ou la transformation du souffle en eau) & LE MANGEUR DE BIT (ou le retour du chaos)

Le bruit de fond est condition sine qua non de la perception de l'espace. Sans ce bruit nous ne pourrions nous localiser ni nous déplacer et serions dans un état claustrophobique permanent : il suffit de visiter les chambres sourdes pour comprendre la sensation.

L'enregistrement du son est toujours accompagné de bruit de fond (qui varie selon le lieu, les machines employées, etc.). Par exemple le disque vinyle génère du bruit de fond par son principe de frottement du diamant de sa « tête de lecture » sur le disque vinyle. Le bruit accompagne toujours le son. Jusque dans les souffles permanents, produis par les sonorisations de concert. Le bruit de frottement de la bande magnétique sur la tête de lecture magnétique, le bruit environnent de la prise de son jusqu'au bruit numérique de l'ordinateur même. Tout son est accompagné de son bruit de fond que notre perception culturelle différencie.

La numérisation du son à permis de réduire le taux de bruit accompagnant les enregistrements sonores. La dynamique (rapport son le plus faible audible au son le plus fort) d'un enregistrement analogique entre 40 et 70 dB est passée à 90 dB avec le CD audio (16 Bit 44.1kHz). Notre limite va jusqu'à 120 dB où on atteint le seuil de la douleur (exemple d'un décollage d'un avion à réaction ou d'une fusée). C'est à ce stade que des ingénieurs ont imaginé réduire le bruit de fond des anciens enregistrements avec le procédé du « denoising » dans un processus de « restauration » sonore numérique (sic)... La numérisation permet de supprimer les craquements, les clics en redessinant l'onde au pointeur de la souris (Sound Designer II) et de supprimer les souffles avec les premiers « plug-ins » (programmes étrangers d'effets spéciaux qui se branchent sur un programme hôte comme les applications de montage audio et les multipistes numérique nommés DAW, Digital Audio Workstation) comme le DNIR (Digidesign Intelligent Noise Reduction en 1992) et même les saturations avec le Nonoise de la station de travail numérique (STN pour DAW) : Sonic Solution qui n'existe plus aujourd'hui. Il est à noter que Sound Designer II reste toujours performant dans ce type de manipulation malgré l'arrêt de sa mise à jour depuis 1998 à cause d'une mésentente entre son concepteur et la direction commerciale de Digidesign dont les utilisateurs souffrent toujours. Le principe du denoising repose sur une technique propriétaire nommée « Dynamic Audio Signal Processing » qui permet de reconnaître par les réglages paramétriques (de filtrage en peigne par bandes de fréquences étroites) de l'utilisateur, le signal rejeté du signal désiré : le son du bruit (sic). Mais il n'y a jamais rien sans rien, et l'utilisateur doit choisir un équilibre dans le compromis entre ces 3 résultantes :
1. le taux de bruit du signal supprimé du signal,
2. le taux de signal supprimé du signal,
3. le taux d'artefacts ajoutés au signal.
Aujourd'hui on préfère garder le souffle, lui donner une couleur avec les réverbérations et les filtres. La « qualité » d'un son denoisé est unique et nous avons utilisé ce type de traitement non pour retirer ou atténuer les souffles, mais pour filtrer les sons en lui ajoutant ses « artefacts » aux sonorités de liquides ! L'idéologie de la « pureté » des dénoiseurs qui sépare le « bien » du « mal » c'est noyée dans l'eau de l'ennui entendu : « l'eau Lourdes, nucléaire c'est saine et sanctifiée » dans l'ennui entendu.

A l'opposé du denoising sont apparus vers 1998 des effets purement numériques de « Bit crusher » avec le premier Sonic Decimator dans le bundle d'Hyperprism de la compagnie qui n'existe plus : Arboretum systems. L'idée était de réduire progressivement le taux d'échantillonnage et le nombre de Bit d'un son numérisé qui donne comme résultat d'augmenter le taux de bruit numérique dans le son jusqu'au recouvrement total du signal par des « craquements soufflés » particuliers au bruit numérique. Les sonorités des « mangeurs de Bit » dépendent de leur façon d'être programmée et leurs mélanges avec les différents dénoiseurs restent toujours fun à explorer.

Ces deux effets nous ont été complémentaires dans notre travail d'une « Synthèse BD » (DNS en anglais : Denoising Noises Synthesis) détournée composée de Bruits Débruités que nous avons abondamment utilisés entre 1993 et 2005 : c'était drôle et inattendu ! Le denoising nous a servi à rendre le son ennuyeux et dévitalisé et à l'utiliser comme fond sonore artificiel et, les « Mangeurs de Bit et de fréquences d'échantillonnage » ont servi à exaspérer la nécessité de chaos dans l'imposition de la « pureté » ennuyeuse du denoising. (Téléchargez et écoutez entre autres l'album : « Waiting Music for Boring Rooms » 1993 - 2005 à http://centrebombe.org/albums/2004.myster shadow-sky - waiting music for boring rooms.zip et sa page consacrée à http://centrebombe.org/waiting-music.html [1]) Nous avons aussi créé une série de sons d'orgue inharmoniques en maximisant le bruit de fond de l'ordinateur et en le traitant au denoising puis joué avec le sampler que l'on retrouve dans « Jeux & Interdits » en 2002, ou dans « Pour en Finir Définitivement avec la Démocratie » avec S.P.O.R.T. en 2005, etc.

 

Notes
[1] « J'ai développé le concept de “musiques d'attente” en 1993 qui débuta avec “Boring Space” (“Boring Space” (Espace Ennuyeux) est une re-visitation de la musique pour l'arco.guitar.couchée à travers le Digital Interactive Noise Random System) avec le Système Interactif Numérique de Bruit Aléatoire, un système pour rendre toute musique ennuyeuse (System to Bored Music). Plus tard, toujours en utilisant les outils informatiques de production sonore aléatoire, je produis en 2002 “une musique de bruits pour le fond” pour les musées “cliniques” d'art moderne “nettoyé” avec deux versions : l'une pour l'intérieur et l'autre pour l'extérieur des musées, qui sont : “A l'entrée du musée d'art moderne” et “Au musée d'art moderne” toutes deux des “musiques épisoniques” c'est-à-dire des “musiques de la zone sonore qui constitue le foyer apparent des ébranlements au cours d'une catastrophe”. Plus tard : “3 Bêtes Ethérées à la Gare” produites aussi en 2002, suit le même principe de “musiques ennuyeuses en attendant la Mort dans la Hâte ?”. Mon dessein butal était de créer des musiques pour les MI, les Moments Inactifs dans des LDACE, des Lieux Destinés A Cet Effet : salles d'attente, ascenseurs, wagons, avions, ou les futurs astronefs ou vaisseaux spatiaux, etc. ; des LOINSPR, des Lieux Où Il Ne Se Passe Rien, seulement des accidents, parfois et quelques fois. Des lieux où une saine et polie indifférence occupe la pièce et fait que les humains ne peuvent pas communiquer même avec confiance, seulement et uniquement pendant les désastres catastrophiques. LUC, Lieux Uniques Communs où PnElBdsAlP : Personne n'Eprouve le Besoin de s'Adresser la Parole. Des lieux où des masses de gens sont seuls : des MGSS. Ce paradoxe explique peut-être le sentiment non particulier de MALE : “la Musique d'Attente pour Lieux Ennuyeux” le mal féminisé pour se barrer créé avec des outils informatiques de suppression du bruit (denoising) du Computer Mastering (masterisation de la musique par ordinateur) : là, nous sommes prêts à garder notre peur immuable de la catastrophe qui n'arrivera jamais ! En attendant..., une mort spectaculaire accompagnée d'une musique non nécessaire, “Si on ne bouge pas, il ne se passera rien... oui, restons tranquille” : “Waiting Room - If We Don't Move Nothing Will Happen, Yes Let's Stay Quiet with breath version” avec le bruit nécesaire à l'équilibre de soi, plus une “Radio Edit Version for Teasing the Recording Industry” au format formaté de la chanson à 3 minutes pour la radio commerciale qui vend son espace sonore publicitaire à son second public : le commanditaire qui paye pour l'auditeur qui écoute seul, l'ameublement sonore nécessaire à masquer son sentiment de solitude. Mathius Shadow-Sky, août 2004. »

Remarque
Les citations en anglais viennent des divers manuels des applications de conversions audio ainsi que des stations de travail audio numérique et de montage.

re tour à la table des matières

saut à l'orchestre impossible du XXIe siècle