Muzyka i mowa to dwa najczęstsze rodzaje dźwięków, które słyszymy każdego dnia. Ale w jaki sposób nasz mózg tak szybko i automatycznie rozpoznaje, czy słyszymy melodię, czy kogoś mówiącego?
Okazuje się, że wykorzystuje do tego zaskakująco prosty mechanizm oparty na tempie zmian głośności dźwięku.
Przełomowe odkrycie: modulacja amplitudy
Międzynarodowy zespół badaczy z NYU, Chińskiego Uniwersytetu w Hongkongu i Narodowego Autonomicznego Uniwersytetu Meksyku przeprowadził serię czterech eksperymentów z udziałem 335 uczestników. Wyniki opublikowane w czasopiśmie PLOS Biology (maj 2024) ujawniają fundamentalny mechanizm, dzięki któremu układ słuchowy odróżnia muzykę od mowy.
„Chociaż muzyka i mowa różnią się pod wieloma względami — od wysokości dźwięku po barwę i teksturę — nasze wyniki pokazują, że układ słuchowy wykorzystuje zaskakująco proste parametry akustyczne do rozróżniania muzyki i mowy” — wyjaśnia dr Andrew Chang, główny autor badania z Wydziału Psychologii NYU
Kluczowym odkryciem jest rola modulacji amplitudy (AM) — czyli sposobu, w jaki zmienia się głośność dźwięku w czasie. To jedna z najbardziej podstawowych cech akustycznych, przetwarzana już na wczesnych etapach korowej drogi słuchowej.
Tempo dźwięku: 2 Hz kontra 4-5 Hz
Naukowcy mierzą częstotliwość zmian w hercach (Hz). Dla porównania — człowiek zazwyczaj chodzi w tempie 1,5–2 kroki na sekundę, co odpowiada 1,5–2 Hz. Rytm przeboju Steviego Wondera „Superstition” z 1972 roku to około 1,6 Hz, natomiast „Roller Girl” Anny Kariny z 1967 roku — 2 Hz.
Mowa jest 2–3 razy szybsza — typowa modulacja amplitudy mowy wynosi 4–5 Hz, co oznacza, że głośność zmienia się znacznie częściej.
| Cecha | Muzyka | Mowa |
| Tempo modulacji amplitudy | 1–2 Hz | 4–5 Hz |
| Regularność modulacji | Wysoka (stała) | Niska (nieregularna) |
| Percepcja subiektywna | Wolniejsze, bardziej przewidywalne | Szybsze, zmienne |
„Ogólnie rzecz biorąc, wolniejsze i regularne klipy dźwiękowe — nawet jeśli to tylko szum — brzmią bardziej jak muzyka, podczas gdy szybsze i nieregularne klipy brzmią jak mowa” — podsumowuje dr Chang.
Eksperyment „twarze w chmurach” — wersja słuchowa
Badacze zastosowali pomysłową metodologię. Uczestnicy słuchali syntetyzowanych klipów audio — szumu o różnym tempie i regularności modulacji amplitudy. Te klipy nie zawierały żadnych rozpoznawalnych słów ani melodii — tylko czysty szum z określonymi parametrami akustycznymi.
Uczestnicy zostali poinformowani, że słyszą zaszumioną muzykę lub mowę, i mieli ocenić, co słyszą. To „słuchowy odpowiednik widzenia twarzy w chmurach” — jak opisują to naukowcy. Jeśli w fali dźwiękowej jest pewna cecha pasująca do naszego wyobrażenia muzyki lub mowy, nawet biały szum może zabrzmieć jak jedno lub drugie.
Wyniki były jednoznaczne: klipy z wolniejszym tempem (<2 Hz) i bardziej regularną modulacją amplitudy były klasyfikowane jako muzyka, natomiast te z wyższym tempem (~4 Hz) i nieregularną modulacją — jako mowa.
Rola wykształcenia muzycznego
Interesujące odkrycie dotyczy różnic indywidualnych. Zasada „szybsze = mowa” była stosowana konsekwentnie przez wszystkich uczestników. Jednak zasada „wolniejsze = muzyka” była wykorzystywana tylko przez osoby z wyższym wykształceniem muzycznym.
Sugeruje to, że niektóre aspekty percepcji muzyki mogą być nabyte poprzez doświadczenie i trening, podczas gdy rozpoznawanie mowy jest bardziej uniwersalne i wrodzone.
Implikacje dla terapii afazji
Odkrycia mają potencjalnie przełomowe znaczenie dla rehabilitacji osób z zaburzeniami mowy. Afazja — zaburzenie językowe wynikające najczęściej z udaru — dotyka ponad 1 na 300 Amerykanów rocznie. Wśród znanych osób cierpiących na afazję są Wendy Williams i Bruce Willis.
„Wiedza o tym, jak ludzki mózg rozróżnia muzykę i mowę, może potencjalnie przynieść korzyści osobom z zaburzeniami słuchu lub języka, takimi jak afazja” — zauważają autorzy badania.
Terapia melodyczno-intonacyjna (MIT) to obiecujące podejście, w którym pacjenci z afazją uczą się śpiewać to, co chcą powiedzieć, wykorzystując nienaruszone „mechanizmy muzyczne” w mózgu, aby ominąć uszkodzone mechanizmy mowy. Od ponad 100 lat klinicyści obserwowali, że pacjenci z afazją niepłynną są w stanie śpiewać słowa, których nie potrafią wypowiedzieć.
MIT wykorzystuje elementy muzyczne mowy — melodię i rytm — do poprawy ekspresji językowej poprzez angażowanie regionów językowych w nieuszkodzonej prawej półkuli mózgu.
Modulacja amplitudy a uwaga — dodatkowy kontekst
Warto wspomnieć o innym, nowszym badaniu z października 2024 roku opublikowanym w Nature Communications Biology. Naukowcy odkryli, że muzyka z dodaną modulacją amplitudy w określonych częstotliwościach może wspierać utrzymanie uwagi u osób z objawami ADHD.
Szczególnie modulacja w zakresie 16 Hz (tzw. zakres beta) pomagała osobom z wyższymi wynikami w skali ASRS (skala objawów ADHD) lepiej utrzymywać koncentrację. Otwiera to fascynujące możliwości projektowania muzyki terapeutycznej opartej na precyzyjnych parametrach akustycznych.



