Mòdul 3. Pràctica 3. Tractament del so digital

Mòdul 3

Tractament del so digital

Pràctica

Exercicis

L'objectiu d'aquesta pràctica és conèixer les característiques del so digital i familiaritzar-se amb el funcionament del programa "Audacity".

El so digital

El so és la sensació per la qual percebem els canvis de pressió i densitat de l'aire que es transmeten en forma de vibracions. Tal com hem vist, els aparells digitals poden treballar únicament amb seqüències de xifres numèriques. Si volem treballar el so amb l'ordinador ens caldrà obtenir una representació numèrica d'aquestes vibracions.

Primer cal convertir les vibracions de l'aire en oscil·lacions d'un corrent elèctric. D'això se n'encarreguen els micròfons i altres aparells similars. La imatge que veiem en un oscil·loscopi connectat a un micròfon és una analogia dels canvis que el so provoca en la pressió de l'aire al llarg del temps. També rep el nom de representació analògica.

Un micròfon connectat a un oscil·loscopi que mostra una representació analògica del so d'un diapasó

El segon pas consistirà a mesurar a intervals regulars la intensitat del senyal elèctric que dóna el micròfon. La col·lecció de valors obtinguts serà ja una representació digital del so.

En el procés de digitalització hi intervenen tres factors:

La freqüència amb què es mesura la intensitat del senyal elèctric, que s'indica en Hz (Hertz: nombre de lectures per segon). No s'ha de confondre aquesta magnitud amb la freqüència del so, on els Hz indiquen el nombre de vibracions per segon.
Els valors emprats més usualment en els enregistraments digitals són:
- 11.025 Hz Per enregistraments de veu
- 22.050 Hz Per enregistraments de música amb qualitat mitjana
- 44.100 Hz Per enregistraments de música amb alta qualitat

La resolució amb què s'anoten els valors de les lectures.
En tota mesura d'una magnitud física hi ha sempre un arrodoniment. No és el mateix pesar amb unes balances de precisió, que ens permeten afinar fins als mil·ligrams, que amb una bàscula domèstica, on sempre acabarem arrodonint a desenes de grams. Amb l'ordinador hi ha dues possibilitats:
- 8 bits (un byte per lectura) Permet fer servir una escala de 256 valors possibles. Ve a ser com pesar amb una bàscula domèstica.
- 16 bits (dos bytes per lectura) Ofereix una escala de 65.536 valors. Seria l'equivalent a les lectures que ens donaria una balança de precisió.

El nombre de canals.
La digitalització es pot fer a partir d'un senyal monofònic (un sol registre sonor) o estereofònic (dos registres simultanis).

Els valors que escollim per a cada un d'aquests tres paràmetres determinaran la qualitat de la digitalització, i ens indicaran també el nombre de bytes que necessitarem per a emmagatzemar les dades recollides.

Procés de digitalització a baixa qualitat i alta qualitat

Tècniques de compressió del so digital

Les dades provinents d'un enregistrament digital d'àudio poden ocupar molt d'espai, especialment si la digitalització s'ha realitzat a alta qualitat. Per exemple, per digitalitzar una cançó de 3 minuts de durada a 44.100 Hz es realitzen gairebé 8 milions de lectures:

44.100(mostres per seg.) x 3(minuts) x 60(seg. cada minut) = 7.938.000 mostres

Si l'enregistrament és estereofònic caldrà multiplicar aquest valor per 2, i si les lectures es fan a 16 bits (que és el normal) necessitarem 2 bytes per emmagatzemar cada una de les xifres recollides. En total l'enregistrament ocuparà:

7.938.000(mostres) x 2(canals) x 2(bytes per mostra) = 31.752.000 bytes

És a dir, gairebé 32 milions de bytes per només una cançó! Necessitaríem més de 20 disquets d'1,4 Mb per guardar-la, i hauríem d'invertir més d'una hora si la volguéssim enviar per internet amb un mòdem.

Els códecs són algorismes matemàtics que permeten comprimir les dades, fent que ocupin molt menys espai. La paraula còdec ve de la contracció de les expressions COder i DECoder. El Windows incorpora uns quants còdecs especialitzats en àudio, i d'altres especialitzats en vídeo. Per veure la llista de còdecs aneu al tauler de control i remeneu per les pestanyes de la icona Multimèdia (o "Sons i multimèdia", segons la versió del Windows que estigueu fent servir).

Sempre que es fa servir un còdec es perd una mica de qualitat, ja que s'acostumen a sacrificar algunes dades que els nostres sentits gairebé no perceben. Per això convé fer el procés de compressió una sola vegada, quan ja haguem realitzat totes les modificacions desitjades a les dades originals.

Els còdecs d'àudio més usuals són:

MPEG Layer 3, també conegut com a "MP3"
És el còdec més estès. Permet comprimir el so digital fins a 1/10 de la seva mida original sense que es perdi gaire qualitat. S'utilitza en molts tipus de dispositius portàtils, i és el rei dels còdecs en l'intercanvi de música per internet.

Ogg Vorbis
A diferència de l'MP3, que té un complex sistema de patents, aquest format es basa en estàndards de codi obert i lliure. La qualitat és similar a la de l'MP3.

GSM
És el còdec emprat pels telèfons mòbils. Està pensat per a comprimir el so de la parla. Té una relació de compressió molt alta, però ofereix una qualitat molt limitada.
Real Audio
Aquest còdec l'utilitza l'empresa Real Networks en els seus sistemes de transmissió d'àudio en temps real per internet.

MS-ADPCM
És un còdec molt senzill creat per Microsoft, que es limita a reduir la mida dels fitxers de so a la meitat, amb una pèrdua important de qualitat. L'esmentem perquè és l'únic còdec que funciona en sistemes anteriors al Windows 95.

PCM
Són les inicials de "Pulse Code Modulation". De fet el PCM no és un còdec, sinó el nom que reben les dades d'àudio digital sense comprimir. L'incloem en aquesta llista per ajudar a identificar els diversos formats de codificació de dades.

Si consulteu la llista de còdecs des del tauler de control veureu que n'hi ha molts més, i probablement en el futur n'apareixeran de nous.

Formats d'emmagatzematge

Les seqüències numèriques provinents d'una digitalització d'àudio es poden emmagatzemar i transmetre en formats molt diferents:

CD - Àudio
Els CD de música que fem servir als reproductors domèstics contenen les dades provinents d'una digitalització a 44,1 KHz, 16 bits i estèreo, sense cap tipus de compressió. En un CD de 700 Mb hi caben uns 80 minuts d'àudio.

Àudio a raig o streaming audio
Consisteix en la transmissió per internet de dades d'àudio digital comprimides, que el receptor consumeix immediatament, convertint-les en so. S'utilitza, entre altres coses, per a escoltar una emissora de ràdio en temps real o programes "a la carta". Els sistemes més emprats són Real Audio i Windows Media, tot i que hi comença a haver emissores virtuals que emeten raigs de dades en MP3 i Ogg Vorbis.

Aquí teniu algunes adreces on es pot provar el funcionament d'aquest sistema:
- XTEC Ràdio
  http://www.xtec.es/radio
  La XTEC ofereix als centres docents la possibilitat de posar en marxa una emissora de ràdio a internet. En aquestes pàgines s'explica com funciona, i hi ha alguns exemples de centres que ja ho fan servir.
- EduRàdio
  http://www.edu365.com/eduradio
  Un servei de l'edu365.com amb una selecció de programes de Catalunya Ràdio i altres materials d'interès educatiu.
- Emissores comercials de ràdio
  Pràcticament totes les emissores ofereixen serveis d'àudio en directe o a la carta. Comproveu-ho a la web de la vostra emissora preferida. També podeu localitzar emissores de tot el món a:
  http://www.radio-locator.com

Fitxers
El més usual és desar les dades d'àudio digital en un fitxer. Normalment l'extensió d'un fitxer (les tres darreres lletres) indica el format de les seves dades:
- .wav
  És l'extensió que s'acostuma a emprar en el Windows per a identificar els fitxers d'àudio digital. Prové de la contracció de "wave" (ona en anglès). Les dades dels fitxers .wav poden estar en format PCM (sense comprimir) o poden haver estat comprimides amb qualsevol dels còdecs disponibles per a Windows.
- .au i .aiff
  Els fitxers amb extensió .au i .aiff són els que s'acostumen a emprar en sistemes Mac i Linux. Contenen dades sense comprimir.
- .mp3 i .ogg
  Els fitxers amb aquestes extensions contenen dades comprimides en format MPEG-III o Ogg Vorbis
- .ra
  L'extensió .ra s'acostuma a utilitzar en els fitxers codificats amb el còdec Real Player.
Hi ha altres extensions i formats, però aquests són els més usuals. El programa Media Player Classic, que vem instal·lar en la pràctica anterior, és capaç de reproduir tots aquests formats de fitxers, sempre que els còdecs corresponents estiguin instal·lats al sistema

Desenvolupament de la pràctica

Aquesta pràctica consistirà a instal·lar el programa Audacity i fer-lo servir per a realitzar alguns enregistraments.

Per realitzar-la necessitareu un micròfon i auriculars o altaveus.

Instal·lació del programa Audacity

L'Audacity és un programa de codi obert. Això significa que es pot descarregar lliurement d'internet, i que el seu codi font està disponible per a tothom que vulgui consultar-lo, modificar-lo o distribuïr-lo, sempre que es respectin certes condicions expressades a la llicència d'ús. Amb els programes de codi obert es defensa la idea de que el treball cooperatiu pot servir per a generar projectes de qualitat.

A la pàgina http://www.xtec.es/fie/eines hi trobareu la darrera versió del programa, en una distribució especial que inclou la traducció al català i les llibreries necessàries per treballar amb fitxers MP3 i filtres VST. També hi ha un instal·lador del programa al CD-ROM de materials de formació, però correspon a una versió anterior que presenta alguns problemes d'estabilitat.

Descarregueu l'instal·lador de la pàgina indicada, executeu-lo i seguiu les indicacions que apareixeran a la pantalla. Quan arribeu al final del procés tindreu una icona del programa a l'escriptori i una altra al menú inici.

Introducció al funcionament de l'Audacity

L'Audacity és un editor de so digital multipistes. En posar-lo en marxa observarem tres barres d'eines i una barra d'estat:

Barra d'eines de control:
Barra d'eines del mesclador:
Barra d'eines d'edició:

Si deixeu el cursor damunt de cada un dels botons i controls us apareixerà una etiqueta amb una breu descripció de la seva funció.

L'audacity treballa amb pistes, que es representen en forma de finestres horitzontals que es van col·locant una damunt de l'altra. Per crear una pista hem de fer un enregistrament.

Realització d'un enregistrament amb el micròfon

Abans de començar a enregistrar convé establir les característiques de les dades que volem obtenir: Com que farem servir un micròfon només necessitarem un canal (a no ser que tingueu un sistema estereofònic de dos micròfons), i per a enregistrar veu humana en tindrem prou amb una resolució de 22 KHz:

Aneu al menú Fitxer - Preferències, situeu-vos a la pestanya E/S d'àudio i assegureu-vos que a la secció Canals del bloc Enregistrament hi ha la opció 1 (Mono).
Aprofitem per comprovar una altra cosa: mireu si a les llistes de dispositius que hi ha a les seccions reproducció i enregistrament hi apareix més d'un dispositiu. Si és així, seleccioneu el que faci referència a la targeta de so en comptes de l'opció "Asignador de sonido de Microsoft". Si només n'hi ha un, no cal canviar res.
Un cop fet això, confirmeu el diàleg.
Feu clic al selector de freqüències que hi ha a la part inferior esquerra de la barra d'estat i seleccioneu el valor 22.050.
Seleccioneu el canal Micròfon (pot ser que rebi un nom similar, com ara "Microphone" o "Mic volume") al selector de dispositius de la barra del mesclador.
Busqueu o inventeu-vos un text curt, d'uns cinc segons de durada. Cliqueu al botó d'enregistrar i llegiu-lo.

Quan acabeu cliqueu al botó d'aturar.

Rebobineu i escolteu l'enregistrament. Si no us agrada com ha quedat, tanqueu la finestra de la pista i torneu a enregistrar. Per tancar una pista cal fer clic a la creu de la cantonada superior esquerra:

Cal que l'ona ocupi un bon espai en l'espectre, i que no topi amb els marges. Si el so és massa feble o massa fort caldrà fer servir el lliscador del mesclador per ajustar els nivells i repetir-ho. També podeu jugar amb la distància a la que parleu del micròfon.

Enregistrament fet a un nivell massa feble

Enregistrament fet a un nivell massa alt

Enregistrament correcte

És probable hagi quedat un fragment de silenci davant i darrera de l'enregistrament. Intentarem esborrar-los, fent que les dades quedin ajustades al fragment de la lectura:

Feu clic al botó de zoom Encabir el projecte a la finestra.

Agafeu l'eina de selecció i marqueu una zona que ocupi tot el vostre enregistrament, deixant fora els trams de silenci inicial i final.
Amb la barra d'espais (o amb el botó "reprodueix") comproveu que la zona seleccionada conté realment l'àudio que voleu conservar. Si cal, podeu ajustar els límits de la selecció per la dreta i per l'esquerra, acostant-vos-hi fins que aparegui un cursor amb forma de dit:
Feu clic al botó Deixa només la selecció (Trim) i s'esborraran les zones no seleccionades.

Seleccioneu l'eina de desplaçament en el temps i arrossegueu l'enregistrament cap a l'esquerra, fins que quedi al principi de la pista. Si apareixen unes petites fletxes blanques és que l'heu dut massa a l'esquerra.

L'Audacity i els fitxers

L'Audacity fa servir un format propi per a desar els fitxers, que només ell entén. Aquest format és útil per a desar projectes complexos, amb múltiples pistes, i amb els que volguem treballar al llarg de més d'una sessió.

Si volem escoltar o fer servir els sons creats amb l'Audacity amb altres programes caldrà exportar-los. Hi ha tres opcions, que es troben al menú Fitxers: exportar a WAV sense comprimir, exportar a MP3 o exportar a Ogg - Vorbis.

Recordeu que els formats comprimits sacrifiquen una mica de qualitat per a obtenir unes mides de fitxer acceptables. Per aquesta raó l'exportació a MP3 o a Ogg ha de ser sempre el darrer pas en l'edició d'un projecte. Cada vegada que importem i exportem un fitxer de so comprimit perdem una mica de qualitat.

Els formats comprimits (MP3 i Ogg) tenen la possibilitat d'incorporar unes etiquetes anomenades ID3 tags, que identifiquen algunes propietats de l'enregistrament: títol, autor/a, intèrpret, any d'enregistrament, etc.

També hi ha la possibilitat d'importar fitxers de diversos formats, des del menú Projecte - Importa àudio.

Ara provarem a desar el so que hem enregistrat, en format estàndard i en format comprimit:

Seleccioneu l'opció Fitxer - Exportar a WAV.

Busqueu la carpeta on guardeu els fitxers del curs, doneu-li el nom veu1 i confirmeu l'operació.

Un cop feu això, feu Fitxer - Exportar a MP3. Doneu-li el mateix nom (veu1) i confirmeu. Apareixerà una finestra de diàleg on ens donen la possibilitat d'indicar les etiquetes ID3. Inventeu-vos un títol, poseu el vostre nom i accepteu.

Proveu també a fer una exportació a format Ogg - Vorbis.

Aquest enregistrament no el desarem en format aup (projecte audacity), ja que té només una pista i no el volem modificar més.

Per acabar, obriu l'explorador del Windows i busqueu la carpeta on heu desat els tres fitxers. Compareu les mides de cada un d'ells: veureu com el format WAV, que és l'únic no comprimit, ocupa molt més espai que els altres dos. Si proveu a escoltar-los amb el Media Player Classic veureu que la qualitat és molt similar.

Obtenció de fitxers WAV comprimits

Tal com s'ha vist en parlar dels formats d'àudio digital, les dades dels fitxers WAV no han de ser forçosament en format PCM sense comprimir. El Windows té un sistema d'administració dels còdecs anomenat ACM (Audio Compression Manager) que permet crear fitxers WAV comprimits.

Aquest tipus de fitxers resulten molt pràctics per a programes que únicament reconeixen el so digital si el fitxer porta l'extensió WAV, com ara el Clic 3.0.

La versió 1.2 de l'Audacity no permet generar directament fitxers WAV comprimits, però si ens podem fer servir l'enregistrador de sons del Windows com a conversor. Els passos serien aquests:

Partim d'un fitxer WAV sense comprimir, com els que exporta l'Audacity

Obriu l'enregistrador de sons del Windows (Inici - Programes - Accessoris - Multimèdia o Entreteniment)

Feu Fitxer - Obrir, aneu a la carpeta on tenim els materials del curs i obriu el fitxer veu1.wav que heu creat anteriorment.

Feu Fitxer - Desar com a... i en el diàleg que apareixerà feu clic al botó Canviar... que hi ha al costat de l'etiqueta de format. Apareixerà aquest diàleg:
Seleccioneu a la llista de formats l'opció MPEG Layer-3. Pel que fa a la llista d'atributs, deixeu els valors que apareguin per defecte.

Confirmeu el diàleg de format, canvieu el nom al fitxer (podríem dir-li veu1comp.wav) i deseu.

Comproveu, amb l'explorador del Windows, que la mida del fitxer veu1comp.wav és similar a la de veu1.mp3