Prompt jako producent

Plný český převod dlouhého návodu MasterForge (duben 2026, v originále cca 24 min čtení). Neprodávají ti 3000 promptů v PDF — vysvětlují, co se stane, když něco napíšeš: měření spektra, prahy posuvníků, audio seedy, limity kodeku. Včetně finské operní árie ve savonském nářečí, kterou model „nikdy neslyšel“ — ne náhodou, ale díky pochopení mechanismu.

Zdroj: Prompt Like a Producer: How Suno Actually Reads Your Input — Petri Korhonen. Obrázky: /assets/masterforge/prompt-1.png, prompt-2.png.

Ilustrace z článku MasterForge — Obrázek 1 — MasterForge.

Co tento průvodce pokrývá

Jak Suno převádí text na zvuk a proč je to predikce, ne „porozumění“.
Proč první slovo ve stylu rozhoduje nejvíc a jak testovat pořadí slov.
Co fungují hudební výrazy vs. studiový žargon.
Pole Exclude (negativní styly) a časté chyby.
Producer tagy vs. strukturální tagy, slabiky vs. kapacita kodeku, pole textu.
Závorkové ad-liby, přepínání muž/žena ve vokálu, vrstvené vokály a stěna kapacity.
Audio seedy: co model bere z klipu, dual‑sekční textura bez melodie, dual‑seed pro hybridy.
Prahy Weirdness × Style a tabulka chování se seedem / bez.
Žánrová adaptace (v5 vs v5.5), My Taste / Custom Models a kontaminace napříč žánry.
FM past, bleed mezi generacemi, melodie v seedu, 55 Hz sub default.
Case study Savo operní árie.
Pět testovaných šablon + tabulka „tipy, které neměří efekt“.
Mindset producenta: iterace, Sample vs Remix, Inspo, kompromis kvality.

Suno nečte — predikuje

Základní omyl: psát prompt, jako by Suno rozuměl jako producent v řídicí místnosti. Model každé slovo převede na vektor a počítá pravděpodobnosti dalšího zvuku. Není to sémantické plnění zadání, ale statistika z milionů hodin páru text–audio z tréninku.

Jádro: Suno interpretuje, neposlouchá rozkazy. Stejný text dark hip-hop with heavy 808 sub-bass může na v5 dát moderní trap a na v5.5 Memphis / Three 6 Mafia vibe — obojí platná predikce, jiné váhy, jiná trajektorie.

Prakticky: funguje hudební slovník (warm bass, driving rhythm…), protože má silné text–audio páry. Technické termíny (sidechain compression, −14 LUFS, multiband compressor) jsou v datech spíš v diskuzích než jako zvukový proces — nemá co aplikovat, žádný DSP řetězec uvnitř generátoru.

Existuje střední zóna: např. „lo-fi“ generuje zvuk s utlumenými výškami a šumem ne proto, že by aplikoval filtr, ale protože tak v datech „lo-fi“ většinou zní — aproximace, ne proces.

První slovo vybírá lead nástroj / směr

Nejsilnější pravidlo z měření: první slovo stylu má největší váhu v attention mechanismu; dlouhý prompt zezadu signál ředí.

Piano dark ballad   → piano vede, tma sedí na aranži
Dark piano ballad   → tma vede, piano je textura
Ballad dark piano   → „ballad“ jako žánrový rámec, piano v pozadí

Pravidlo: první uveď lead nástroj nebo žánr, pak náladu a texturu. Drž styl v 4–8 smysluplných slovech; zbytek často jen mál přidá.

Co Suno chápe — a co ignoruje

Silné audio asociace (funguje)

warm bass, ethereal pads, gritty vocals, driving rhythm, dark cymbals, slow piano, whispered verse, distorted guitar riff, vinyl crackle, tape hiss, analog warmth — model už „slyšel“, co k tomu textu patří.

Slabé / žádné audio asociace

sidechain compression, dynamic EQ at 2.5 kHz, parallel bus, de-esser, 120 BPM in C major, 24-bit WAV — tokeny bez spolehlivého zvukového obrazu v tréninku.

Negativní prompty (Exclude Styles)

Na rozdíl od pozitivního stylu, kde technické kecy často míjí efekt, Exclude umí odfiltovat žánry a textury, které model zná zvukově: no autotune, no synths, no reverb-heavy vocals atd.

Častá chyba: cpát do stylu fráze professional studio quality, broadcast ready — marketing bez měřitelného dopadu; kvalitu stropuje pipeline, ne prosba o „profesionalitu“.

Producer tagy: řídit výkon, ne jen strukturu

[Verse], [Chorus] = kde ve skladbě jsi. Producer tagy = jak intenzivně hrát (build, drop), nebo [Whispered] / [Belted] pro dynamiku vokálu. Text v závorkách v lyrics = ad-lib vrstva (krátké výkřiky).

Typ	Příklad	Účel
Struktura	[Verse] [Chorus] [Bridge]	Sekce, typický energetický oblouk
Struktura	[Intro] [Outro]	Knihy, hustota nástrojů
Výkon	[Build] [Drop]	Směr energie (crescendo / impact)
Výkon	[Breakdown]	Řídká sekce — podle článku i kodeková strategie: 4–8 taktů minima přesměruje bitrate, po breakdownu měřitelně klesá shimmer
Výkon	(yeah!) (oh-oh)	Ad-liby ve vrstvách

Slabiky vs. kapacita kodeku

Kodek zpracovává text a audio paralelně: když text sedí do rytmického prostoru, výstup je čistší; přetížené slabiky → mačkání artikulace nebo padání souhlásek.

Čistý fit: krátké fráze, dýchání, hustota slabik typická pro žánr.
Hard techno: cca 4–6 slabik na řádek; rap: 8–14; balada: 6–10 (orientačně z článku).
Přetížení: dlouhé věty, souhláskové shluky, rýmy nutící nepřirozený přízvuk.

Pole textu: méně je víc

Suno přijme až ~5000 znaků, ale test s celým románem stage directions vs. 1–2 řádky na sekci podle článku neměřil rozdíl. Model si z textu bere vzorce u hranic sekcí — přepiš radši přesné řádky pod [Verse] než scénář. Pravidlo: piš text, ne návod režisérovi; intenzitu řeší tag [Whispered] před sekcí, ne odstavec „zpěvák má šeptat“.

Ad-liby v závorkách

[Chorus]
We rise from the ashes (oh-oh)
Burning through the night (yeah!)
Nothing gonna stop us (let's go!)
We own this fight

Závorky = spontánní výkřiky ve vrstvě za hlavní linkou. Fungují 1–3 slabiky; ne dlouhé věty ani instrukce.

Přepínání mužský / ženský vokál

Funguje: tag [Male Vocal] / [Female Vocal] přímo v textu těsně před řádkem přepnutí, na přirozené hraně fráze (konec řádky, oddech). Nepřehánět frekvenci přepnutí — ideálně bloky 2–4 řádky na hlas.

Nefunguje: pohlaví jen ve style lockne celou skladbu; přepínání uprostřed slova bez rytmické mezery; čekat, že model „uhodne“ bez explicitního tagu.

Vrstvené vokály a stěna kapacity

Jde: duet ve stejné melodii a rytmu (jedna obálka + harmoniky). Těžké: současně rap + zpěv s jiným rytmem a timbrem = dvě nezávislé vokální stopy — výsledek od vynikajícího k nepoužitelnému. Sbor často „sežere“ rozpočet a nástroje ubývají. Pravidlo: 2 současné hlasy bývá čisté, 3+ risk; chceš pět nástrojů, sbor a duet — něco z clarity, artikulace nebo sterea odejde.

Audio seedy

Nahrání seedu analyzuje: timbre (spektrální obálka), texturu (hustota aranže), tóninu a tempo, energetický kontur. Varování: výrazná melodie v seedu model „zamkne“ — variabilita klesá; pro opakovatelnost a rozmanitost vítězí texturový seed bez melodie (bicí, pady, atmosféra).

Dual‑sekční texturový seed (10–18 s)

A (0–8 s): jádro žánru — nástroje, rytmus, energie, úzké stereo, bez melodie.
B (8–18 s): kontrast — širší stereo, jiná nálada, stále bez melodie.
Crossfade ~0,3 s mezi sekcemi jako jeden celek.

Pro hybrid (techno sloky + EDM refrén) nese sekce A/B DNA obou světů a Suno mezi nimi interpoluje — technika údajně ověřená na páru skladeb Concrete Flow → Forged in Fire v článku.

Prah: kdy je seed nutný

Weirdness ≥ 0,48 a/nebo Style ≤ 0,68 — za touto hranicí bez seedu struktura často rozpadne; se seedem drží smysl. Příklady z textu: HENKI (W 0,48 / S 0,68) bez seedu rozpad; se seedem koherentní. JOUHI (W 0,62 / S 0,58) extrém — seed nutný.

Situace	Weirdness	Style	Výsledek
Bez seedu, bezpečná zóna	0,25–0,40	0,70–0,85	Prompt stačí, konzervativní výstup
Bez seedu, riziková zóna	0,40–0,48	0,68–0,75	Začíná driftovat
Bez seedu, extrém	0,48+	<0,68	Struktura se láme
Se seedem	0,40–0,60	0,55–0,75	Seed kotví timbre i formu

Čím víc paralelních „kormidel“ (seed + detailní prompt + extrémní slidery), tím spíš drž Weirdness níž a Style vyšší — signály si šlapou na paty.

Žánrová adaptace a „My Taste“

v5 vs v5.5 ukázaly, že stejný prompt není uniformně aplikován — žánr mění spektrální a dynamická rozhodnutí (viz článek v5 vs v5.5 na tomto webu).

v5.5 přidává My Taste a Custom Models — styl z tvé historie se promítá do nových generací. Pro jednoho interpreta super; pro někoho, kdo skáče mezi žánry nebo dělá měření jako MasterForge, může historie 50 techno skladeb kontaminovat i piano baladu. Řešení z článku: čistý účet nebo vypnutí custom modelů při průzkumu nového teritoria.

Skrytá pravidla (FM, bleed, sub)

FM modulace: index > ~1,5 u FM syntů prý generuje nemuzikální zkreslení — vyhni se extrémním FM promptům (harsh metallic synth).
Bleed mezi generacemi: extend/regenerate přenáší charakteristiky předchozí generace; nekonečné prodlužování může bahnit — radši nový start.
Melodie v seedu = málo variace (viz výše).
55 Hz (A1) jako fundament subu často nejčistší low-end v jejich testech — orientační default, ne dogma.

Case study: Savonská opera

Kombinace regionální fínštiny Savo + operní styl, který model v tréninku v této kombinaci „neviděl“. Fungovalo díky: texturovému seedu (orchestr + operní energie, bez melodie), prvnímu slovu Opera, slabikám sladěným na árii, sliderům v bezpečné zóně s kotvou seedu. Pointa: pochopení mechanismu mění limity v kreativní volby.

Pět testovaných šablon (z článku)

Čistá akustická balada: styl Piano emotional ballad, soft female vocals, intimate, warm reverb; Exclude: drums, synth, distortion, autotune; W 0,22 / S 0,80; seed ne nutný; 2 hlasy (klavír + vokál).
Hard techno (seed): Hard techno, industrial, driving kick, acid bass, dark atmosphere; Exclude: vocals, melody, soft, ambient, piano; W 0,42 / S 0,73; seed nutný (dual A/B bez melodie); 3 prvky (kopák, kyselina, drone).
Indie rock: Indie rock, male vocals, overdriven guitar, driving drums, raw production; Exclude: synth, autotune, polish, electronic; W 0,28 / S 0,76; seed volitelný (kytara + bicí textura).
Dark hip-hop (sub): Dark hip-hop, deep 808 sub-bass, aggressive male rap, minimal, Memphis; Exclude: bright, pop, melodic, autotune, happy; W 0,25 / S 0,78; volitelný sub + hat textura, fundament ~55 Hz.
Žánrový hybrid (extrém): opera + orchestr; Exclude: electronic, drums, modern, pop; W 0,35 / S 0,75; seed nutný; slabiky pod árii; 2–3 „sloty“ nástrojů.

Co podle nich neměří efekt (nebo škodí)

„Tip“	Realita
Tajné „max“ kvality	Neexistují — kvalitu určuje pipeline.
Přesné BPM ve stylu	Tempo je odvozené od žánru, ne přesný metronom.
Jména interpretů	Filtrovaná — použij sonické vlastnosti.
Dlouhé romány ve stylu	Přes 6–8 slov už málo přidá — konec promptu je „neviditelný“.
„Professional studio quality“	Marketing bez audio asociace.
Kontradiktní styly najednou	Model průměruje do generického výsledku.

Mindset producenta

Rozdíl mezi „píšu prompty“ a „produkuju se Sunem“ je jako mezi poznámkami a řídicí místností. Produkční workflow z článku: 8–15 variací s drobnými úpravami a výběr nejlepší — není to obcházení systému, tak je nástroj stavěný.

Generation lock: po prvních dvou generacích často následující variace kopírují šablonu — obejdi to funkcí Sample (15–30 s klip z nejlepšího momentu, Audio Influence cca 60 %) nebo Inspo z knihovny. Řetěz Sample→Inspo→Sample může otevřít nový zvukový prostor.

Kompromis: každý průchod Sample/Inspo/Remix může přidat spektrální mlhu a ztrátu detailu — použij to k nalezení směru, pak čistá regenerace z promptu + seedu, který nový směr zachytí. „Nepošli do světa čtvrtou generaci remix řetězce jako finál.“

→ Anglický originál · Suno přehled · Aranž a kodek