Jeśli boski Dylan powiedział, że … „współczesne nagrania są do d.”, to coś musi znaczyć (patrz wywiad). Oczywiście nie wiem czy miał na myśli to co ja (a raczej wiem, że nie), ale od dłuższego czasu zmagam się z problemem różnej głośności różnych płyt CD i na samą myśl o zrobieniu kompilacji piosenek z różnych płyt dostawałem gęsiej skórki. Piszę dostawałem, bo chyba znalazłem już rozwiązanie, a myśl żeby z tym pomysłem podzielić się z Wami przyszła mi do głowy, kiedy Wojtek, jakiś czas temu, wysłał do mnie SMS’a z zapytaniem „co mam zrobić, żeby nagrać składankę”.
Spodziewał się pewnie, że mu szybko i krótko odpowiem (co próbowałem), ale podejrzewam, że na niewiele się to przydało. Rozwinięcie tematu zajęło mi ze 3 tygodnie i teraz będę mógł skierować potrzebujących (jeśli tacy będą) do działu „Wiedza” naszego portalu.
Na płycie CD, dźwięk zapisywany jest w postaci cyfrowej, uzyskiwanej za pomocą zamiany sygnału analogowego na cyfrowy metodą PCM (ang. Pulse Code Modulation).
W skrócie zamiana taka (konwersja AC) polega na pomiarze wartości chwilowej sygnału w równych odstępach czasu (próbkowaniu) a następnie przypisaniu zmierzonej wartości pewnej liczby (kwantyzacja). O jakości konwersji decydują: częstotliwość próbkowania (jak często mierzymy sygnał) oraz to jak duża liczba służy do kwantowania. Standardowy zapis na płycie CD (bo są także inne), jest reprezentacją dźwięku (a właściwie sygnału, który po wzmocnieniu i dotarciu do głośników stanie się dźwiękiem) próbkowanego z częstotliwością 44.1 kHz przy zastosowaniu liczby 16 bitowej.
Teoria mówi (kryterium Nyquista), że taka częstotliwość próbkowania nadaje się do reprezentowania dźwięku, którego składowe o najwyższej częstotliwości są ok. 20KHz (połowa częstotliwości próbkowania) a liczba 16 bitowa pozwala na odwzorowanie jego dynamiki (stosunek amplitudy maksymalnej do minimalnej) w skali ok. 90dB.
Służą do wyrażania stosunku dwóch wartości.

Czemu, we wzorze jest 20 – nie każcie mi tłumaczyć, wynika to ze związku miedzy mocą a napięciem – załóżmy, że tak jest. Największa liczba 16 bitowa to 65535, odejmując jeden bit na znak, okaże się, że „najgłośniejsza” próbka PCM ma wartość 32767, najcichsza 1 a ich stosunek w decybelach wynosi 90.30873362. To jednak czysto „matematyczny” ideał, w rzeczywistości dynamika jest nieco mniejsza.
Uwaga. Na razie opisywałem tylko to, co na płycie jest zapisane, a nie to co słychać. Dla prostoty możemy założyć, że wav – plik dźwiękowy na komputerze - jest tym, co zapisano na płycie, a nawet więcej. Jest zapisem sygnału (napięcia) w przewodzie biegnącym do głośnika. „Wysoka” i „gęsta” sinusoida, to głośny dźwięk o wysokiej częstotliwości (membrana głośnika drga z dużą amplitudą i częstotliwością) a sinusoida „niska” i „rzadka” to cichy, niski dźwięk (membrana drga lekko, z niską częstotliwością). Muzyka nie jest sinusoidą, więc zarówno zapis na płycie, w pliku wav oraz drgania membrany głośnika nie są takie proste, ale analogia działa – „fale”, które widać w pliku wav, to jakby drgania membrany, głośnik gra i buczy a my słyszymy.
Tu zaczynają się schody, bo wbrew pozorom człowiek nie słyszy amplitudy, słyszy natomiast wartość skuteczną dźwięku (całka z kwadratu sygnału) a nawet gorzej. O poziomie głośności decyduje jeszcze częstotliwość, okazuje się bowiem, że wrażliwość ucha ludzkiego na dźwięki o różnych częstotliwościach bardzo się zmienia. Obrazują to krzywe zwane izofonami a wynika z nich, że najlepiej słyszymy częstotliwości 2-5kHz (gadanie) a schody polegają na tym, że te same poziomy głośności dźwięku wydobywającego się z głośnika (SPL – ang. sound pressure level), wyrażone w dB, dają różne poziomy głośności odbierane przez ucho (fony), wyrażone także w dB. Np. 60dB z głośnika przy 1kHz (mniej więcej c3) słyszymy także jako 60dB, ale przy 100Hz (mniej więcej małe c) słyszymy ten dźwięk jako 40dB. Czy różnica jest duża? Oj tak. 6dB to 2 razy głośniej a 20dB, to … 10 razy głośniej!
Studio, nagrywamy płyę.
Będę teraz używał „wav” mając na myśli dźwięk zapisany w postaci cyfrowej, o odpowiednich parametrach (44.1kHz, 16bit) odpowiadających wymaganiom płyty CD. Plik wav jest tylko formatem zapisu dźwięku na komputerze, ale jego zawartość da się „zobaczyć”, bo przedstawienie próbek na wykresie amplituda=f(czas) da po prostu fale, i z tego powodu świetnie się nadaje do dalszego wyjaśniania. Cichym dźwiękom będą odpowiadały fale o małej amplitudzie a głośnym – fale o największej amplitudzie. Górna granica jest określona (16 bitowa liczba), a maksymalna dynamika 90dB. Jest to granica amplitudy, nie głośności a poza tym wiemy już, że głośność to nie amplituda, więc musze tu trochę powyjaśniać ale i pomataczyć.
O tym czy otrzymany wav jest dobrym źródłem do tłoczenia płyt decyduje każdy etap, ale tak się jakoś dziwnie składa, że coraz częściej decyduje ten ostatni (resztę już opanowano), czyli mastering. Oczywiście mastering nie polega głównie na ustalaniu głośności, ale tylko o tym napisałem, bo nie chodziło mi o poradnik dla wydawcy płyt, tylko o wyjaśnienie dlaczego jest aż tak źle.
Można iść na jakość, tzn. postarać się, żeby jak najlepiej odwzorować dynamikę oryginalnego utworu. Tak robią (dobrzy) wydawcy muzyki jazzowej i klasycznej. Orawa Kilara nie może być „średnio” głośna, bo w wav’ie po prostu nie zmieści się ekstremalne fortissimo na koniec. Tak wygląda muzyka:
Można też iść na ilość, tzn. starać się, żeby wav był tak głośny, jak to tylko możliwe. Po co? Ano żeby po włożeniu do odtwarzacza huknęło, gruchnęło i zwaliło wszystkich z nóg. Tak wygląda syf:Dla ułatwienia powiem, że Kilar ma 86.7 dB i nie da się głośności zwiększyć nawet o 3 dB, bo ten pik na końcu zostałby „obcięty”. Kilka kolejnych próbek miałoby wtedy maksymalną wartość (co nigdy nie może się zdarzyć przy odwzorowywaniu przebiegu falowego) i prowadzi do zniekształcenia dźwięku (dudnienie).
Red Hot Chili Peppers ma natomiast natomiast 101.7dB (to mój osobisty rekord) a „obcinaniem” nikt się nie przejmował, choć sygnał jest zniszczony - przyznaję - w niewielkim stopniu..
Takiego efektu, jak w przypadku RHCP, nie da się uzyskać zwiększając po prostu amplitudę sygnału. Stosuje się do tego najnowszy krzyk mody – kompresję dynamiki. Wzięła się ona z radia i sama w sobie nie jest niczym złym. Radio FM nie ma technicznych możliwości przeniesienia dynamiki dźwięku z płyty CD, odtwarzając więc Kilara, żeby przepuścić fortissimo, trzeba by całego Kilara ściszyć, ale wtedy przy piano, nic nie będzie słychać. Co zrobić? Ano przetworzyć sygnał tak, żeby wzmocnić tylko słabe sygnały a mocnych nie wzmacniać. Da się to zrobić i robiło się to zawsze (kiedyś za pomocą specjalnych wzmacniaczy, dziś - komputerów) i w efekcie sygnały o maksymalnej amplitudzie nie będą obcięte, a sygnały o małej amplitudzie będą miały ją większą. Ich stosunek (dynamika) będzie więc mniejszy, radio nadaje, my słyszymy i wszystko gra.
Ponieważ nie da się nadawać (radio) z dowolną dynamiką i odtwarzać muzyki dowolnie głośno i w cichym otoczeniu (sklep, samochód) - gra idzie o to, żeby nie było ciszy! Bo jak w wav’ie nigdzie nie będzie ciszy, średnio będzie bardzo głośno! Poza tym, gałki odtwarzaczy, boombox’ów itp. są jakoś tam nastawione i gdyby tak wydać płytę nieco głośniejszą (z mniejszą ciszą), to dopiero byłoby fajnie! Wszyscy zwróciliby na nią uwagę, bo by huknęło, gruchnęło i zwaliło wszystkich z nóg. Super! Tak rozpoczęło się coś, co nazwano „Loudness war” i można o niej przeczytać trochę w Internecie.
Przypominam: Kilar ok. 87dB, Red Hot Chili Peppers ok. 102 dB, czyli średnio 6 (słownie sześć) razy głośniej! Tych płyt nie da się odsłuchać jedna po drugiej bez majstrowania przy pilocie. Gorzej. Wszystkie stare płyty i sporo dzisiejszych były masterowane z głową, dzisiaj sporo jest masterowanych bez głowy. Nie ma więc takiej siły, żeby np. piosenki Dylana z płyty Infidels (1986) dało się nagrać na składankowej płycie razem z piosenkami z nowej płyty Modern Times. Stara ma bowiem ok. 88dB a nowa 97dB (!!!) czyli piosenki z nowej płyty są średnio 3 razy głośniejsze niż ze starej. Majstrowanie pilotem przy różnych płytach jakoś sobie mogę wyobrazić, ale majstrowanie przy różnych utworach?
Takie niewinne pytanie zadał mi nasz znajomy Wojteczek, kiedy – pewnie nieświadomie – zdecydował się na zmontowanie swojej pierwszej składanki. Piszę „nieświadomie”, bo gdyby był świadom, szybko by ze zmontowania składanki zrezygnował.
Powiedzmy, że mamy 10 utworów z różnych płyt i chcemy je nagrać na składankową płytę, ale tak, żeby brzmiały mniej więcej tak samo głośno. Co można wtedy zrobić?
Czyli wyrównanie maksymalnej amplitudy sygnału w każdym utworze do pewnej ustalonej wartości.
Czyli wyrównanie wartości skutecznej sygnału w każdym utworze do pewnej ustalonej wartości.
Bingo! Kilka lat temu, taki sobie zwykły facet (David Robinson), nie żadna firma czy konsorcjum, wymyślił co z tym zrobić. Zaproponował standard, który się przyjął i – to najlepsze – działa, choć wcale nie jest to takie proste (żeby działało). Szczegóły można znaleźć na stronie Pana Davida a w skrócie wygląda to tak:
Kiedy to przeczytałem, to się uśmiałem. Tak, jakiś nikomu nieznany facet, zapisze coś w pliku mp3 i teraz Winamp (np.) będzie ten mp3 odtwarzał ciszej? Wolne żarty!
I tu się ksiądz proboszcz ciulnął. Odtwarza ciszej.
No, no ale jak taki plik mp3 wciągnę do Nero, to co? Bez jaj, nagra na płytę CD ciszej? Otóż proszę Państwa nagra ciszej. A jak go najpierw przekonwertuję na wav, to co, będzie cichszy? Tak będzie cichszy!
No, ale to niemożliwe, żeby takie mp3 z zapisanym RG i nagrane na płytkę mój odtwarzacz samochodowy Blaupunkt odtwarzał ciszej! Możliwe! Odtwarzacz samochodowy Blaupunkt odtwarza je ciszej.
Sprawa niby beznadziejna okazała się dość prosta. W przypadku mp3 o odtwarzaniu decyduje kodek a nie program. Kodekiem, który już dawno opanował format mp3 jest, rozwijany na zasadzie „open source”, kodek Lame. To praktyczny standard i nikt się nie odważy napisać dziś programu do kodowania czy dekodowania z jego pominięciem. Źródła są dostępne i darmowe i trzeba samozaparcia Microsoftu, żeby udawać, że czegoś takiego nie ma. A Lame, otórz Lame już dawno włączył do kodu … Reply Gain. I widocznie nawet w „kościach” w odtwarzaczu Blaupunkt ten kosmiczny pomysł znalazł swe miejsce.
Wszystkiego nie wiem, mogę tylko dać spójny przykład postępowania w jakimś wybranym przypadku. Na razie wracamy do zadania: „Mamy 10 utworów z różnych płyt i chcemy je nagrać na składankową płytę”.
Masz pliki wav. Toś trąba, bo nie RIP’uje się do formatu wav, chyba, że chcesz je jakoś specjalnie edytować. Jeśli edytowałeś, zamień na mp3.
"C:\Program Files\Mp3 Lame\lame.exe" --alt-preset standard "01 - Kilar W. (Sinfonia Varsovia) - Orawa.wav" w wyniku czego otrzymasz (doskonałej jakości) 01 - Kilar W. (Sinfonia Varsovia) - Orawa.wav.mp3 do dalszej obróbki. Jeśli masz więcej plików wav lepiej użyć następującego skryptu bat (który minimalnie zmodyfikowałem w porównaniu z oryginałem):
code>@echo off
rem ---------------------------------------------
rem PURPOSE:
rem - put this Batch-Command on your Desktop,
rem so you can drag and drop wave files on it
rem and LAME will encode them to mp3 format.
rem - put this Batch-Command in a place mentioned
rem in your PATH environment, start the DOS-BOX
rem and change to a directory where your wave
rem files are located. the following line will
rem encode all your wave files to mp3
rem "lame.bat *.wav"
rem ---------------------------------------------
rem C2000 Robert Hegemann
rem ---------------------------------------------
rem please set LAME and LAMEOPTS
rem LAME - where the executeable is
rem OPTS - options you like LAME to use
set LAME=c:\programy.win\lame.exe
set OPTS=--alt-preset standard
rem ---------------------------------------------
set thecmd=%LAME% %OPTS%
lfnfor on
:processArgs
if "%1"=="" goto endmark
for %%f in (%1) do %thecmd% "%%f"
if errorlevel 1 goto errormark
shift
goto processArgs
:errormark
echo.
echo.
echo ERROR processing %1
echo.
:endmark
rem
rem finished
rem
Jeśli lame.exe znajduje się folderze c:\programy.win, lame.bat znajduje się w folderze system32, wystarczy – znajdując się w folderze z plikami wav - napisać lame.bat *.wav … i wszystkie pliki zostaną kolejno przetworzone. Proste i skuteczne. Dla utrudnienia załóżmy, że nie miałeś jeszcze tych 10 plików wav, albo że chce Ci się ponownie RIP’ować oryginalne płyty.
Czyli zgrywanie ścieżek z płyty Audio do komputera.
Masz już 10 mp3, które pochodzą z różnych płyt.
Uruchamiasz program. Otwierasz folder z plikami (Ctrl+D), analizujesz je (Ctrl+U) a kolumna Track Gain daje obraz co trzeba z nimi zrobić (głośniej, ciszej) żeby wszystkie utwory miały taki sam poziom głośności. Można to zrobić jednym ruchem (Ctrl+G), ale czasem aż takie wyrównanie jest niepotrzebne, bo bywają utwory, które powinny być cichsze albo głośniejsze niż inne. Jak Ci pasuje tak zrób, możesz bowiem pojedynczo modyfikować RG (Ctrl+O).
W przykładzie powyżej utwory pochodzą z tej samej płyty i nie ma sensu ich wyrównywać w trybie Track Gain, bowiem Coffee Black powinno być głośniejsze niż The First Hint of Autumn. Natomiast cały album jest odrobinę (3dB to nic) za głośny i można ściszyć wszystkie utwory z zachowaniem proporcji pomiędzy nimi – służy do tego Album Gain (Ctrl+B).
Masz gotowe pliki do nagrania i przy użyciu np. Nero otrzymasz świetną, nieźle „zremasterowaną” płytkę. O to chodziło, lecz
To tyle jeśli chodzi o opowieśc n.t. Reply Gain. Chetnie coś dopiszę czy rozwinę, ale oczekuję propozycji.