Audioomzetting en -codering
Efficiënt transport van audio is mogelijk geworden dankzij digitalisering (die begon in de jaren tachtig van de vorige eeuw) en de beschikbaarheid van TCP/IP-netwerken.
Maar wat is digitale audio?
We moeten onderscheid maken tussen geconverteerde digitale audio en gecodeerde digitale audio.
Geconverteerde digitale audio
Dit is de eerste stap in het digitaliseren van audio. De regels waren om geen audio-informatie te verliezen (vergeleken met de originele analoge audio). De hoge standaard conversie van analoge naar digitale audio gebruikt veel bits per audiosample (16-bit/sample, 20-bit/sample, 24-bit/sample en zelfs 32-bit/sample per kanaal). Dit is nodig bij live-opnamen en studiobewerking.
De Nyquist- en Quantisation-regels waren fundamenteel voor het bereiken van deze kwaliteit.
Nyquist vertelt ons dat je moet samplen op een frequentie hoger dan de hoogste audiofrequentie die je wilt kwantificeren. Studio’s werken voor audio van 0 tot 20kHz (de hoogste frequentie die een mens kan horen). De professionele audiosector besloot dat 48kHz de standaard zou worden. Dit betekent dat audio van hoge kwaliteit 48 000 samples per seconde nodig heeft.
Aan de andere kant vertelt de kwantiseringsregel ons dat het aantal bits per sample de amplitudefout van de bemonsterde audio bepaalt. Deze kwantisatiefouten resulteren in ruis (kwantiseringsruis).
We gebruiken een samplefrequentie van 48 kHz met samples van minimaal 16 bits per kanaal. Voor de digitale CD gebruiken we 44,1 kHz en 16 bits per kanaal, maar dit is niet de uitzendstandaard!
Eén seconde audio van hoge kwaliteit met een samplefrequentie van 48 kHz en een resolutie van 16 bits per sample genereert 48000 samples * 16 bits, gelijk aan een bitstream van 768 kbps. Dat is veel te hoog voor draadloze transmissie. Er moest een oplossing komen om het aantal bits te verminderen terwijl de kwaliteit hoog bleef. Zonder een oplossing zou digitale radio nooit mogelijk zijn geweest.
De omzetting in digitale tijdmonsters (samples per tijdseenheid) met behulp van meerdere bits per monster wordt PCM genoemd. PCM is de afkorting van Pulse Code Modulation. PCM is het digitale conversiesignaal dat de volledige audio-informatie bevat. De samples kunnen worden beschouwd als pulsen en de code verwijst naar de digitale waarde die de tijdswaarde van de audioamplitude codeert.
Audio codering
Dit is een extra laag na audioconversie. Om het aantal bits te verminderen, wordt de hoeveelheid audio-informatie gereduceerd met minimaal kwaliteitsverlies. Deze extra laag komt altijd na de essentiële analoge/digitale conversie van hoge kwaliteit. Je kunt analoge audio nooit rechtstreeks coderen. De analoge/digitale conversie zal altijd de eerste stap zijn.
Hiermee bedoelen we dat de ingang naar de Audio Coder altijd PCM-gecodeerde audio zal zijn. Als er een analoge ingang bestaat, kun je er zeker van zijn dat er een PCM-encoder (Analog Digital Converter) bestaat in de Audio Coder.
De bitreductie (ten onrechte aangeduid als audio “compressie”) heeft als doel het aantal bits te reduceren zodat een opname minder geheugen in beslag neemt of minder bandbreedte nodig heeft voor uitzending. Deze reductie van bits is een van de basisprincipes van DAB.
Een van de methoden is Huffman codering. Vergelijk het met het zippen van een bestand. Je krijgt minder bits, maar je behoudt de integriteit van de audiobits. De vermindering van bits blijft echter erg laag. Hiermee bedoelen we niet dat Huffman codering niet voorkomt in DAB. Krachtige bitreductie-algoritmen (MP2 (DAB), MP3 en HE-AAC (DAB+)) bevatten ook Huffman codering.
Zodra je het aantal bits wilt verminderen, kun je de integriteit niet behouden en moet je wat audio-informatie weglaten. In eerste instantie kijken we naar het menselijk oor en vragen we welke informatie niet wordt opgemerkt door het menselijk oor. We noemen dit perceptuele codering.
Als je dieper nadenkt, kun je veel mogelijkheden vinden om de audio-informatie te reduceren.
- Waarom zou je de band van 0 tot 30 Hz samplen? Het menselijk oor hoort het niet dus je kunt het weglaten
- Waarom zou je 48000 samples per seconde gebruiken voor de band van 30 tot 1kHz als een samplefrequentie van 2,5kHz voldoende is?
- Waarom zou je linker en rechter stereokanalen apart versturen als beide veel van hetzelfde geluid bevatten?
- Waarom zou je zelfs frequenties boven de 10 kHz versturen als je de hoge frequenties kunt repliceren met de informatie in de lage frequentieband (zie HE-AAC SBR)?
- Enz
Er is veel ruimte om overbodige audio informatie uit het digitale PCM gemoduleerde signaal te halen. Je moet echter de audiosamples in het tijdsdomein omzetten naar een gelijk aantal samples in het frequentiedomein. Daarna kun je eenvoudig perceptuele algoritmes toepassen op de frequentiesamples. Frequentiesamples kunnen efficiënter gehercodeerd worden dan tijdsamples. Uiteindelijk zal de bit-gereduceerde audio bitstream niet langer de tijdsamples bevatten, maar de efficiënt gecodeerde en behandelde frequentiesamples, waarbij het perceptuele algoritme veel niet-perceptuele gegevens heeft verwijderd.