Recenze  |  Aktuality  |  Články
Doporučení  |  Diskuze
Filmy a seriály, streamovací služby
Televize  |  Projektory
Audio a domácí kina
Multimediální centra  |  Ostatní
Svět hardware  |  Digimanie
Svět mobilně

Mezi tichem a šumem - komprese zvuku

10.9.2008, Radek Jahoda, článek
Zvuk byl v počátcích kinematografie i kvůli opojení z pohyblivých obrázků opomenut a až později nastalo nedílné spojení. Nejprve jako doprovod hudbou, pak i se synchronizací dialogů. My se přeneseme do doby, kdy nastala potřeba zvuk efektivně komprimovat.
Stejně, jako je zvuk generován, je možné také jeho detekování. Kmitající vzduch dokáže rozechvívat předměty v okolí. Nejčastějším senzorem je ucho, my se budeme bavit o tom lidském. Dalším možným senzorem je mikrofon, u kterého je rozechvívána jeho membrána, která opět pomocí změny magnetického pole cívky generuje elektrický signál, který se dále zpracovává. Zpět ale k lidskému uchu.

Základní frekvence, kterou dokáže lidské ucho detekovat, je udávána v rozsahu 20 Hz až 20 kHz. Tento rozsah je ale značně individuální a většinou menší. Také s přibývajícím věkem se tento rozsah zmenšuje a citlivost sluchového ústrojí se zmenšuje. Názorně to zobrazuje následující obrázek:


Změna citlivosti sluchu u žen (vlevo) a mužů (vpravo) s přibývajícím věkem
(zdroj: University of Saldon)

Pokud tedy budete debatovat o kvalitě zvuku s někým, kdo je starší než Vy, tak mu zásadně jeho závěry nevěřte, protože slyšíte více, než on. Toto je také jeden z problémů při nastavování frekvenční charakteristiky zesilovačů na koncertech. Starší zvukař má vždy tendenci přidávat vyšší tóny.

Zásadní je i změna citlivosti na různých frekvencích. Ta je totiž velmi rozdílná (bez ohledu na věk) a hraje zásadní roli při poslechu (nejen) hudby. Tímto se zabývali jako první pánové Harvey Fletcher a Wilden A. Munson z Bellových laboratoří v roce 1937. Ti experimentálně vytvořili následující graf, který mapuje citlivost sluchu na různých frekvencích a při různé intenzitě. Křivka v grafu ukazuje intenzitu zvuku, kterou vnímá lidské ucho jako konstantní hlasitost.

Fletcher-Munsonova křivka konstantní hlasitosti

Je zřejmé, že lidské ucho je nejcitlivější v oblasti 2-5 kHz, především pod 500 Hz pak značně citlivost klesá. Právě rozsah 500 Hz až 4 kHz je základní oblast řeči, takže toto není překvapením. Nejnižší křivka je práh slyšení, vše pod touto úrovní je pro lidské ucho nepostřehnutelné.

Tímto problémem se později zabývali i pánové D. W. Robinson a R. S. Dadson v roce 1956 a dospěli k mírně odlišným výsledkům. Přesně se neví, z jakého důvodu, možná Fletcher a Munson neměli správně zkalibrovanou měřicí techniku nebo prostě tím, že použili sluchátka místo reproduktoru jako Robinson a Dadson. Každopádně z křivky Robinson-Dadson se vycházelo při schvalování standardizovaných křivek hlasitosti v normě ISO 226:2003.

ISO 226:2003 (červeně) a Robinson-Dadson (modře) křivky konstantní hlasitosti

Již tedy víme, že intenzita není to samé co hlasitost. Nelze tedy popisovat hlasitost stejně jako intenzitu a bylo nutné zavést nějaký způsob měření, který bude více reflektovat způsob, jakým slyšíme. Bylo tedy vytvořeno několik korekčních křivek pro intenzitu zvuku, které převedou naměřené hodnoty na hodnoty hlasitosti. Nejpoužívanější je A-křivka, která se používá obecně pro všechny hlasitosti a převedená hodnota intenzity zvuku je pak udávána v dbA nebo dBrn.

A-křivka pro výpočet dbA

Existují další křivky B, C, D a Z, které se ale většinou nepoužívají, nebo se používají v některých specifických případech. Například D křivka reflektuje fakt, že lidské ucho slyší frekvenčně odlišně šum od čistých tónů, ještě k tomu na vyšších intenzitách, takže se hodí pro měření úrovně hluku od letadel. Křivka Z je lineární a slouží jen jako čistá reference a je identická s normální intenzitou.

Z uvedených zjištění plyne jedna důležitá věc. Při změně hlasitosti se mění i vnímání frekvenčního spektra a především hluboké tóny (basy) vnímáme jako málo výrazné při nižší hlasitosti. To lze řešit tím, že zavedeme korekci a basy nebudeme tolik zeslabovat respektive je zvýrazníme tím více, čím je hlasitost nižší. Tato korekce se nazývá fyziologická korekce nebo také loudness.

Další zjištěná věc je ta, že rozsah vnímání lidského sluchu je přibližně 120 dBA. Při dosažení 130 dBA mohou uši bolet a další zvyšování může nevratně poškodit sluch. Je ovšem nutné upozornit, že k poškození sluchu může dojít již při mnohem nižších hodnotách, uvádí se již od 85 dBA, je to ale značně individuální. 150-170 dB se někdy označuje jako práh smrti, kdy dochází k poškození ušního bubínku.

Další vlastností lidského sluchu je to, že pokud je ve zvuku silný signál na jedné frekvenci, tak jiné frekvence s nižší intenzitou jsou pro ucho nerozeznatelné. Tuto vlastnost ale v podstatě nejde dát do jednoduchých grafů, protože je značně závislá na frekvenci silného i slabého signálu a navíc je značně individuální. K této problematice pak přistupují různé enkodéry svým způsobem a může to hrát částečně roli i při posuzování jejich kvalit. Znáte to sami - pokud se s někým bavíte a vedle někdo mlátí kladivem do kovadliny, těžko mu budete rozumět. Intenzitu některých základních zvuků vidíte v tabulce. Zkuste si pustit jeden tón konstantní hlasitosti a do něj jiný tón, jemuž postupně zvyšujete hlasitost. Zaznamenejte si jeho intenzitu a uvidíte sami.

Zvuk
Hlasitost
hranice slyšitelnosti
0dB
šelest listí
10-20dB
šepot
20-30dB
šum v místnosti
30-40dB
tichá konverzace
40-50dB
normální konverzace
50-60dB
hlasitá konverzace
60-70dB
hluk ulice
70-80dB
nákladní automobil
80-90dB
disko
90-120dB
proudové letadlo
120-130dB

Další vlastností lidského vnímání hlasitosti je to, jak malou odchylku v hlasitosti je lidské ucho schopné rozeznat. Například zda rozliší dva stejné zvuky, ale při malé změně intenzity. Touto problematikou se zabýval již Reisz v roce 1928 a přišel na to, že od určité intenzity je rozlišovací schopnost přibližně konstantní přes široké spektrum frekvencí a jde o 0,5-1 dB. Tímto problémem se zabývalo později více lidí (např. Dimmick & Olson v roce 1941 nebo Toole a Olive v roce 1988), kteří dále zkoumali různé podmínky a dospěli k hodnotám 0,5-3 dB. Plyne z toho, že není nutné uchovávat naprosto shodnou hlasitost tónů jako v originále.

Dalším zjištěním je, že lidské ucho přes své jedinečné vlastnosti není schopné rozeznat směr zvuku na některých frekvencích. Jde hlavně o velmi nízké a velmi vysoké kmitočty, které v přírodě generují jevy jako hrom apod. Člověk nikdy nepotřeboval vědět odkud, ten hrom přichází, takže se ani tato vlastnost nerozvinula.

Všechny tyto vlastnosti lidského sluchu se používají při kompresi u některých ztrátových formátů. Čím vyšší komprese chceme dosáhnout, tím více informací enkodér ze zvuku vyfiltruje včetně těch, které již slyšíme, a to může mít za následek zhoršení kvality.