Jak AI rozdziela głosy muzyczne między zespołami

Jeśli poprosisz współczesne narzędzie AI o „konwersję tego utworu fortepianowego na kwartet smyczkowy”, w kilka sekund dostaniesz odpowiedź. Czy ta odpowiedź jest naprawdę grywalna — czy brzmi jak kwartet, a nie jak fortepianowa redukcja czytana przez czworo ludzi — zależy całkowicie od tego, co narzędzie rozumie z redystrybucji głosów. A redystrybucja głosów to jeden z najmniej dyskutowanych problemów w technologii muzycznej, mimo że właśnie ona staje się różnicą między narzędziami aranżacyjnymi AI, które czynni muzycy trzymają otwarte, a tymi, które zamykają po jednym demie.

Ten tekst to wprowadzenie na poziomie rzemiosła do tego, co dzieje się, gdy narzędzie AI przenosi muzykę z jednego zespołu na inny. Pisałem go świadomie dla ludzi, którym zależy na aranżacji jako dyscyplinie: edukatorów, dyrygentów, kompozytorów, czynnych aranżerów i dziennikarzy próbujących ocenić, czy dane narzędzie AI robi coś ciekawego, czy tylko przekłada nuty z miejsca na miejsce.

Problem to nie transkrypcja

Technologia muzyczna w ostatniej dekadzie rozwiązała mnóstwo problemów transkrypcyjnych. Narzędzia potrafią słuchać audio i produkować notację. Narzędzia potrafią brać notację i produkować MIDI. Narzędzia potrafią konwertować między PDF, MusicXML i ABC w sekundy. Ta warstwa stosu jest w dużej mierze zrobiona.

Nierozwiązana została warstwa powyżej: problem redystrybucji. Jeśli dasz narzędziu fortepianową aranżację preludium Bacha i powiesz „daj mi wersję na kwartet smyczkowy”, nie ma algorytmicznego mapowania z „nut fortepianu” na „partie kwartetu”. Aranżacje fortepianowe zwijają głosy w akordy trzymane przez pedał. Aranżacje kwartetowe rozwijają akordy z powrotem na cztery niezależne monofoniczne linie, każda grana przez instrument z własnym zakresem, charakterem i idiomem.

Naiwne narzędzie — a większość dem „aranżacji AI”, które widziałeś, jest naiwna w ten konkretny sposób — kopiuje partię prawej ręki do skrzypiec, dzieli lewą rękę między altówkę i wiolonczelę, uznaje sprawę za załatwioną. Wygląda jak kwartet na papierze. Nie brzmi jak kwartet. Nie oddycha. Wiolonczelista dostaje linię basową, która jest faktycznie wewnętrznym głosem akordu, granym jakby była melodią, bez zastanowienia, czy linia jest w ogóle śpiewna na wiolonczeli.

Problem redystrybucji to pytanie: dana intencja muzyczna wyrażona dla jednego zespołu, jak wyrazić tę samą intencję dla innego zespołu, w sposób, który każdy gracz może faktycznie zagrać, a słuchacz faktycznie usłyszeć?

Prowadzenie głosów to leżące u podstaw rzemiosło

Wieki przed tym, jak to stało się problemem oprogramowania, ludzcy aranżerzy wypracowali konwencje przenoszenia muzyki między zespołami. Ten zbiór praktyk nazywamy prowadzeniem głosów. Zawiera konkretne reguły — unikać równoległych kwint między głosami zewnętrznymi, preferować ruch sekundowy w głosach wewnętrznych, rozwiązywać dysonanse sekundą, trzymać każdy głos w jego śpiewnym rejestrze — i znacznie większe ciało smaku, który początkujący aranżerzy chłoną studiując partytury i słuchając.

Reguły istnieją, bo produkują konkretny rezultat: niezależne głosy, z których każdy ma własny kształt melodyczny, które nie krzyżują się niezręcznie, które nie giną w fakturze, które prawdziwy gracz może frazować. Chorały Bacha są kanonicznym korpusem treningowym dla studentów konserwatorium uczących się tego rzemiosła, bo to najczystsza demonstracja tego, jak brzmi dobre prowadzenie głosów. Cztery głosy, każdy melodią, razem harmonia.

Gdy redystrybuujesz muzykę z fortepianu na kwartet, prowadzenie głosów nie jest opcjonalne. Wersja fortepianowa mogła zwinąć trzy głosy w akord, bo prawa ręka ma tylko pięć palców. Kwartet musi cofnąć to zwinięcie i oddać każdemu głosowi jego własną linię. Jeśli tego nie robisz — jeśli po prostu wręczasz akord skrzypcom i udajesz, że wewnętrzne głosy nie istnieją — kwartet zabrzmi cienko i nierówno, nawet z tymi samymi nutami na papierze.

Czego AI musi się nauczyć, czego ludzie nie muszą myśleć

Trudna część w nauczaniu tego maszyny to nie spisanie reguł. Reguły są dobrze udokumentowane; znajdziesz je w każdym podręczniku orkiestracji. Trudna część to nauczenie maszyny rozpoznawania, w nieznanym jej źródle, jakie są implicytne głosy.

Pasaż fortepianowy z arpeggio nie wygląda jak cztery głosy. Wygląda jak sekwencja pojedynczych nut. Ale wytrenowany muzyk słyszy w tym arpeggio cztery głosy — najwyższa nuta niesie melodię, najniższa to basowy pedał, środkowe to ruchoma harmonia. Narzędzie redystrybucyjne musi zrobić tę samą inferencję. Musi spojrzeć na notację, która spłaszcza muzykę do pojedynczej powierzchni klawiszowej, i zrekonstruować wielogłosową strukturę pod spodem.

To trudniejsze, niż się wydaje. To samo arpeggio może być jednym głosem w jednym kontekście (melodyczny ozdobnik), trzema głosami w innym (Alberti bas z melodią na górze) albo po prostu fakturą (kolorowa otoczka pod oddzielną melodią). „Właściwa” dekompozycja zależy od otaczającej muzyki, stylu, gatunku i tego, co aranżer uważa, że słuchacz powinien usłyszeć.

Gdy dekompozycja jest zrobiona, zaczyna się redystrybucja. Teraz narzędzie musi zdecydować: który głos idzie do którego instrumentu? Czy wiolonczela dostaje linię basową, bo to najniższy głos, czy wiolonczela dostaje wewnętrzny kontrapunkt, bo to tam najbardziej liczy się charakter wiolonczeli? Czy altówka dubluje drugie skrzypce, żeby pogrubić fakturę, czy altówka gra własną linię, żeby dać kwartetowi czterogłosową niezależność?

Te decyzje nie mają jednej odpowiedzi. To estetyczne wybory, które dobrzy aranżerzy podejmują na podstawie tego, czego utwór potrzebuje w tym momencie. Narzędzia AI, które traktują redystrybucję poważnie, muszą nauczyć się estetyki, nie tylko mechaniki.

Dlaczego to trudniejsze niż generowanie

Jest tendencja, żeby wrzucać aranżację AI do jednego worka z generowaniem AI — „model pisze muzykę” — ale to różne problemy z różnymi kryteriami oceny.

Generowanie jest otwarte. Dajesz modelowi prompt, on produkuje coś. Nie ma ground truth; wynik ocenia się po tym, czy brzmi wiarygodnie. To wybaczające terytorium dla ML: możesz trenować na milionach przykładów i produkować coś, co brzmi mniej więcej jak dowolny gatunek.

Redystrybucja jest ograniczona. Muzyka źródłowa jest dana; zespół docelowy jest dany; zadanie to znaleźć wersję źródła, która pasuje do celu bez utraty tego, co sprawiało, że źródło działało. Wynik ocenia się znacznie surowszym standardem: czy zachowuje ciągłość melodyczną, intencję harmoniczną, frazowanie? Czy czynny aranżer mógłby to napisać, czy to oczywiste pierwsze zgadnięcie maszyny?

Dlatego aranżacja AI jest trudna w sposób, w jaki generowanie AI nie jest. Przestrzeń akceptowalnych wyników jest wąska. Ocena jest niewybaczająca. Dane treningowe są trudniej dostępne, bo każdy przykład musi być sparowanym źródłem-z-aranżacją, a nie tylko utworem muzycznym.

Gdzie redystrybucja faktycznie ma znaczenie

Przypadki użycia, w których to ma znaczenie, nie są tymi oczywistymi.

Oczywisty przypadek to demo: osoba wgrywa znany utwór, dostaje wersję na kwartet smyczkowy, publikuje na social media. Ten przypadek obsługują narzędzia, które po prostu wyglądają wiarygodnie.

Prawdziwy przypadek użycia jest profesjonalny. Dyrygent młodzieżowej orkiestry potrzebuje materiału czytanego na przyszły tydzień. Kompozytor filmowy szkicuje przy fortepianie i potrzebuje usłyszeć kombinację smyczków i dętych, o którą prosił producent. Czynny aranżer ma deadline i potrzebuje, żeby nudne mechaniczne części pracy — pierwsze 80% decyzji redystrybucyjnych — zostały obsłużone w minutach zamiast godzin, żeby mógł poświęcić swój czas na 20%, które wymagają jego oceny.

Tym użytkownikom nie zależy na demie. Zależy im, czy wynik oszczędza im pracy. Zależy im, czy partie są grywalne. Zależy im, czy aranżacja oddycha. Zamkną dowolne narzędzie, które nie przejdzie tej poprzeczki, niezależnie od tego, jak imponujący jest marketing.

Gdzie AI wciąż nie nadąża

Uczciwa ocena: narzędzia redystrybucji AI, nawet dobre, wciąż mają słabości, które zauważy każdy czynny aranżer.

Idiom stylistyczny to największa. Konwencje prowadzenia głosów dla chorału Bacha to nie te same konwencje, co dla aranżacji jazzowej sekcji dętej, które nie są tymi samymi konwencjami, co dla show tune Sondheima. Narzędzie trenowane na klasycznych orkiestracjach będzie produkować klasyczne prowadzenie głosów nawet wtedy, gdy chciałeś jazzowego klimatu. Sygnały stylistyczne ze źródła pomagają, ale żadne obecne narzędzie nie trafia tego konsekwentnie przez gatunki.

Struktura długozakresowa to drugie. Narzędzia aranżacyjne AI są dobre w problemie takt-po-takcie: ten takt, te nuty, ten rozkład. Są słabsze w problemie architektonicznym: jak ta część rośnie, gdzie jest kulminacja, jak faktura cienieje i gęstnieje przez dwudziestominutowy utwór. Aranżerzy ludzcy myślą o tym strukturalnie; narzędzia AI mają tendencję do myślenia lokalnie i tracenia dłuższego łuku.

Praktyka wykonawcza to trzecia luka. Kwartet smyczkowy gra dwudźwięki. Aranżacja fortepianowa nie myśli w takich kategoriach. Narzędzia AI potrzebują jawnej wskazówki, jak wygląda idiomatyczna gra dla każdego zespołu, i wskazówka musi być wystarczająco głęboka, żeby pokryć nie tylko „jakie nuty”, ale „jakie łuki, jakie dynamiki, jakie frazowanie”.

Stanowisko ArrangementLabs.ai

Zbudowaliśmy ArrangementLabs.ai, bo problem redystrybucji miał dla nas znaczenie jako dla muzyków i nie mogliśmy znaleźć narzędzia, które traktowało go poważnie. Model siedzi między projektem badawczym a asystentem rzemieślniczym. To nie narzędzie do generowania. Nie próbuje zastąpić aranżerów. Próbuje skompresować mechaniczne części workflow, żeby części wymagające ludzkiej oceny dostały więcej uwagi aranżera.

Jesteśmy w zamkniętej becie z małą grupą czynnych aranżerów, którzy co tydzień dają nam feedback. Model staje się lepszy, gdy mówią nam, gdzie się myli, a to większość tego, na czym nam teraz zależy.

Jeśli zawodowo aranżujesz i chcesz wypróbować narzędzie na swoim repertuarze, dołącz do listy oczekujących. Wpuszczamy małą grupę testerów co miesiąc i priorytetyzujemy osoby z konkretnym problemem repertuarowym w głowie.

Co przeczytać dalej

Dlaczego zbudowaliśmy ArrangementLabs.ai — historia założycielska narzędzia, z perspektywy muzyka, który go potrzebował.
Zapisz się przez RSS, żeby dostawać powiadomienia o kolejnych tekstach o rzemiośle aranżacji AI.