Prompt jako producent

Plný český převod dlouhého návodu MasterForge (duben 2026, v originále cca 24 min čtení). Neprodávají ti 3000 promptů v PDF — vysvětlují, co se stane, když něco napíšeš: měření spektra, prahy posuvníků, audio seedy, limity kodeku. Včetně finské operní árie ve savonském nářečí, kterou model „nikdy neslyšel“ — ne náhodou, ale díky pochopení mechanismu.

Zdroj: Prompt Like a Producer: How Suno Actually Reads Your Input — Petri Korhonen. Obrázky: /assets/masterforge/prompt-1.png, prompt-2.png.
Ilustrace z článku MasterForge
Obrázek 1 — MasterForge.
Ilustrace z článku MasterForge
Obrázek 2 — MasterForge.

Co tento průvodce pokrývá

Suno nečte — predikuje

Základní omyl: psát prompt, jako by Suno rozuměl jako producent v řídicí místnosti. Model každé slovo převede na vektor a počítá pravděpodobnosti dalšího zvuku. Není to sémantické plnění zadání, ale statistika z milionů hodin páru text–audio z tréninku.

Jádro: Suno interpretuje, neposlouchá rozkazy. Stejný text dark hip-hop with heavy 808 sub-bass může na v5 dát moderní trap a na v5.5 Memphis / Three 6 Mafia vibe — obojí platná predikce, jiné váhy, jiná trajektorie.

Prakticky: funguje hudební slovník (warm bass, driving rhythm…), protože má silné text–audio páry. Technické termíny (sidechain compression, −14 LUFS, multiband compressor) jsou v datech spíš v diskuzích než jako zvukový proces — nemá co aplikovat, žádný DSP řetězec uvnitř generátoru.

Existuje střední zóna: např. „lo-fi“ generuje zvuk s utlumenými výškami a šumem ne proto, že by aplikoval filtr, ale protože tak v datech „lo-fi“ většinou zní — aproximace, ne proces.

První slovo vybírá lead nástroj / směr

Nejsilnější pravidlo z měření: první slovo stylu má největší váhu v attention mechanismu; dlouhý prompt zezadu signál ředí.

Piano dark ballad   → piano vede, tma sedí na aranži
Dark piano ballad   → tma vede, piano je textura
Ballad dark piano   → „ballad“ jako žánrový rámec, piano v pozadí
Pravidlo: první uveď lead nástroj nebo žánr, pak náladu a texturu. Drž styl v 4–8 smysluplných slovech; zbytek často jen mál přidá.

Co Suno chápe — a co ignoruje

Silné audio asociace (funguje)

warm bass, ethereal pads, gritty vocals, driving rhythm, dark cymbals, slow piano, whispered verse, distorted guitar riff, vinyl crackle, tape hiss, analog warmth — model už „slyšel“, co k tomu textu patří.

Slabé / žádné audio asociace

sidechain compression, dynamic EQ at 2.5 kHz, parallel bus, de-esser, 120 BPM in C major, 24-bit WAV — tokeny bez spolehlivého zvukového obrazu v tréninku.

Negativní prompty (Exclude Styles)

Na rozdíl od pozitivního stylu, kde technické kecy často míjí efekt, Exclude umí odfiltovat žánry a textury, které model zná zvukově: no autotune, no synths, no reverb-heavy vocals atd.

Častá chyba: cpát do stylu fráze professional studio quality, broadcast ready — marketing bez měřitelného dopadu; kvalitu stropuje pipeline, ne prosba o „profesionalitu“.

Producer tagy: řídit výkon, ne jen strukturu

[Verse], [Chorus] = kde ve skladbě jsi. Producer tagy = jak intenzivně hrát (build, drop), nebo [Whispered] / [Belted] pro dynamiku vokálu. Text v závorkách v lyrics = ad-lib vrstva (krátké výkřiky).

TypPříkladÚčel
Struktura[Verse] [Chorus] [Bridge]Sekce, typický energetický oblouk
Struktura[Intro] [Outro]Knihy, hustota nástrojů
Výkon[Build] [Drop]Směr energie (crescendo / impact)
Výkon[Breakdown]Řídká sekce — podle článku i kodeková strategie: 4–8 taktů minima přesměruje bitrate, po breakdownu měřitelně klesá shimmer
Výkon(yeah!) (oh-oh)Ad-liby ve vrstvách

Slabiky vs. kapacita kodeku

Kodek zpracovává text a audio paralelně: když text sedí do rytmického prostoru, výstup je čistší; přetížené slabiky → mačkání artikulace nebo padání souhlásek.

Pole textu: méně je víc

Suno přijme až ~5000 znaků, ale test s celým románem stage directions vs. 1–2 řádky na sekci podle článku neměřil rozdíl. Model si z textu bere vzorce u hranic sekcí — přepiš radši přesné řádky pod [Verse] než scénář. Pravidlo: piš text, ne návod režisérovi; intenzitu řeší tag [Whispered] před sekcí, ne odstavec „zpěvák má šeptat“.

Ad-liby v závorkách

[Chorus]
We rise from the ashes (oh-oh)
Burning through the night (yeah!)
Nothing gonna stop us (let's go!)
We own this fight

Závorky = spontánní výkřiky ve vrstvě za hlavní linkou. Fungují 1–3 slabiky; ne dlouhé věty ani instrukce.

Přepínání mužský / ženský vokál

Funguje: tag [Male Vocal] / [Female Vocal] přímo v textu těsně před řádkem přepnutí, na přirozené hraně fráze (konec řádky, oddech). Nepřehánět frekvenci přepnutí — ideálně bloky 2–4 řádky na hlas.

Nefunguje: pohlaví jen ve style lockne celou skladbu; přepínání uprostřed slova bez rytmické mezery; čekat, že model „uhodne“ bez explicitního tagu.

Vrstvené vokály a stěna kapacity

Jde: duet ve stejné melodii a rytmu (jedna obálka + harmoniky). Těžké: současně rap + zpěv s jiným rytmem a timbrem = dvě nezávislé vokální stopy — výsledek od vynikajícího k nepoužitelnému. Sbor často „sežere“ rozpočet a nástroje ubývají. Pravidlo: 2 současné hlasy bývá čisté, 3+ risk; chceš pět nástrojů, sbor a duet — něco z clarity, artikulace nebo sterea odejde.

Audio seedy

Nahrání seedu analyzuje: timbre (spektrální obálka), texturu (hustota aranže), tóninu a tempo, energetický kontur. Varování: výrazná melodie v seedu model „zamkne“ — variabilita klesá; pro opakovatelnost a rozmanitost vítězí texturový seed bez melodie (bicí, pady, atmosféra).

Dual‑sekční texturový seed (10–18 s)

Pro hybrid (techno sloky + EDM refrén) nese sekce A/B DNA obou světů a Suno mezi nimi interpoluje — technika údajně ověřená na páru skladeb Concrete Flow → Forged in Fire v článku.

Prah: kdy je seed nutný

Weirdness ≥ 0,48 a/nebo Style ≤ 0,68 — za touto hranicí bez seedu struktura často rozpadne; se seedem drží smysl. Příklady z textu: HENKI (W 0,48 / S 0,68) bez seedu rozpad; se seedem koherentní. JOUHI (W 0,62 / S 0,58) extrém — seed nutný.

SituaceWeirdnessStyleVýsledek
Bez seedu, bezpečná zóna0,25–0,400,70–0,85Prompt stačí, konzervativní výstup
Bez seedu, riziková zóna0,40–0,480,68–0,75Začíná driftovat
Bez seedu, extrém0,48+<0,68Struktura se láme
Se seedem0,40–0,600,55–0,75Seed kotví timbre i formu

Čím víc paralelních „kormidel“ (seed + detailní prompt + extrémní slidery), tím spíš drž Weirdness níž a Style vyšší — signály si šlapou na paty.

Žánrová adaptace a „My Taste“

v5 vs v5.5 ukázaly, že stejný prompt není uniformně aplikován — žánr mění spektrální a dynamická rozhodnutí (viz článek v5 vs v5.5 na tomto webu).

v5.5 přidává My Taste a Custom Models — styl z tvé historie se promítá do nových generací. Pro jednoho interpreta super; pro někoho, kdo skáče mezi žánry nebo dělá měření jako MasterForge, může historie 50 techno skladeb kontaminovat i piano baladu. Řešení z článku: čistý účet nebo vypnutí custom modelů při průzkumu nového teritoria.

Skrytá pravidla (FM, bleed, sub)

  1. FM modulace: index > ~1,5 u FM syntů prý generuje nemuzikální zkreslení — vyhni se extrémním FM promptům (harsh metallic synth).
  2. Bleed mezi generacemi: extend/regenerate přenáší charakteristiky předchozí generace; nekonečné prodlužování může bahnit — radši nový start.
  3. Melodie v seedu = málo variace (viz výše).
  4. 55 Hz (A1) jako fundament subu často nejčistší low-end v jejich testech — orientační default, ne dogma.

Case study: Savonská opera

Kombinace regionální fínštiny Savo + operní styl, který model v tréninku v této kombinaci „neviděl“. Fungovalo díky: texturovému seedu (orchestr + operní energie, bez melodie), prvnímu slovu Opera, slabikám sladěným na árii, sliderům v bezpečné zóně s kotvou seedu. Pointa: pochopení mechanismu mění limity v kreativní volby.

Pět testovaných šablon (z článku)

  1. Čistá akustická balada: styl Piano emotional ballad, soft female vocals, intimate, warm reverb; Exclude: drums, synth, distortion, autotune; W 0,22 / S 0,80; seed ne nutný; 2 hlasy (klavír + vokál).
  2. Hard techno (seed): Hard techno, industrial, driving kick, acid bass, dark atmosphere; Exclude: vocals, melody, soft, ambient, piano; W 0,42 / S 0,73; seed nutný (dual A/B bez melodie); 3 prvky (kopák, kyselina, drone).
  3. Indie rock: Indie rock, male vocals, overdriven guitar, driving drums, raw production; Exclude: synth, autotune, polish, electronic; W 0,28 / S 0,76; seed volitelný (kytara + bicí textura).
  4. Dark hip-hop (sub): Dark hip-hop, deep 808 sub-bass, aggressive male rap, minimal, Memphis; Exclude: bright, pop, melodic, autotune, happy; W 0,25 / S 0,78; volitelný sub + hat textura, fundament ~55 Hz.
  5. Žánrový hybrid (extrém): opera + orchestr; Exclude: electronic, drums, modern, pop; W 0,35 / S 0,75; seed nutný; slabiky pod árii; 2–3 „sloty“ nástrojů.

Co podle nich neměří efekt (nebo škodí)

„Tip“Realita
Tajné „max“ kvalityNeexistují — kvalitu určuje pipeline.
Přesné BPM ve styluTempo je odvozené od žánru, ne přesný metronom.
Jména interpretůFiltrovaná — použij sonické vlastnosti.
Dlouhé romány ve styluPřes 6–8 slov už málo přidá — konec promptu je „neviditelný“.
„Professional studio quality“Marketing bez audio asociace.
Kontradiktní styly najednouModel průměruje do generického výsledku.

Mindset producenta

Rozdíl mezi „píšu prompty“ a „produkuju se Sunem“ je jako mezi poznámkami a řídicí místností. Produkční workflow z článku: 8–15 variací s drobnými úpravami a výběr nejlepší — není to obcházení systému, tak je nástroj stavěný.

Generation lock: po prvních dvou generacích často následující variace kopírují šablonu — obejdi to funkcí Sample (15–30 s klip z nejlepšího momentu, Audio Influence cca 60 %) nebo Inspo z knihovny. Řetěz Sample→Inspo→Sample může otevřít nový zvukový prostor.

Kompromis: každý průchod Sample/Inspo/Remix může přidat spektrální mlhu a ztrátu detailu — použij to k nalezení směru, pak čistá regenerace z promptu + seedu, který nový směr zachytí. „Nepošli do světa čtvrtou generaci remix řetězce jako finál.“

→ Anglický originál · Suno přehled · Aranž a kodek