Képgenerálás mesterséges intelligenciával

Korábban írtunk már róla, hogyan tudod a ChatGPT-t a szövegalkotás területén üzleti folyamataidban használni. Számtalan lehetőséget nyújt mesterséges intelligencia a munkád hatékonyabbá tételére: landing oldalak, termékötletek, levelek, közösségi média bejegyzések és még sorolhatnánk. Ebben a bejegyzésben azt nézzük meg, hogy az ismert képalkotó alkalmazások, mint a DALL-E és a Midjourney milyen lehetőségek tárházát nyitják meg előtted, és hogyan tudod hatékonyan kihasználni ezeket az eszközöket.

A DALL-E és a Midjourney alapjául az úgynevezett generatív előadó hálózatok (GAN) szolgálnak, amelyeket különböző művészeti és tervezői munkákra lehet alkalmazni. Ezek a programok, melyeket nagyvállalatok fejlesztettek ki, mint például az OpenAI, képesek arra, hogy a bemeneti utasítások (promptok) alapján egyedülálló és gyakran meglepően részletes képeket hozzanak létre.

DALL-E

Először is beszéljünk a DALL-E-ről, ami az OpenAI által fejlesztett MI képalkotó alkalmazás. Az utasításokat szöveges formában adhatod meg, például „egy futurisztikus szék formájú ház”. A DALL-E ezután az utasításnak megfelelő 4 képet hoz létre, amelyek gyakran lenyűgözően kreatívok és élethűek. Elképesztő, ugye?

De hogyan működik ez pontosan? A DALL-E alapja a GPT-3 nyelvi modell, amelynek feladatköre a szövegértés és a szöveg generálás. Ezt kombinálják a GAN technológiával, amely képes képeket létrehozni a modell által megértett szöveges utasítások alapján. A DALL-E weboldalán található egy egyszerű kezelőfelület, ahol megadhatod az utasítást, és néhány pillanat alatt elkészül a művészeti alkotás.

Midjourney

A Midjourney alkalmazás hasonló elven működik, de itt a hangsúly a tárgyak és jelenetek modellezésén van. Az MI itt is szöveges utasítások alapján dolgozik, de a Midjourney különösen jól alkalmazható bonyolultabb, összetett jelenetek létrehozására. A Midjourney-t tehát olyan munkákhoz használhatod, ahol részletes és valósághű 3D modellekre van szükség, például videojátékok vagy filmek készítésénél. A Midjourney a Discord felületén fut és nem ért magyarul, ezért  Midjourney szerverre való belépés után a Newbies csatorna egyikén (mindegy melyiken) angolul írjuk be a /imagine karaktersor után például: „a steampunk-style city at night, full of lights and airships”. A prompt eredménye így néz ki:

Image

Hol találom ezeket a szolgáltatásokat? Mennyibe kerülnek?

Az alkalmazásokat online éred el. A DALL-E-t az OpenAI weboldalán találod meg, a Midjourney pedig a Discordon fut. A cikk írásakor a DALL-E-nél creditek vásárlásával lehet elérni a szolgáltatást, 115 kredit adóval együtt 19,05 USD-be került. A Midjourney Basic Plan használata havi 10 USD volt, de ingyen is használható.

Hogyan áll össze a prompt?

Egy prompt a te szöveges utasításod, amely alapján a mesterséges intelligencia dolgozik. Ahhoz, hogy a kívánt képet kapd meg, próbálj meg részletes és egyértelmű parancsot adni. Például, ha azt írod be, hogy „kék madár repül az égen”, a MI egy olyan képet fog generálni, ami vagy egybeesik az elképzelésiddel vagy nem, mert az ég sokféleképpen lehet kék, és 9934 ismert fajjal a gerincesek második legnépesebb osztálya a madarak. Szóval, ha konkrétabb elképzelésed van, akkor jobban körül kell írni az igényeket, mint például a már említett „a steampunk-style city at night, full of lights and airships” parancsorban. Itt olyan értékeket is megadhatsz, mint a záridő vagy más fotózásnál használt paraméterek. A MI igyekszik ezt a jelenetet a lehető legjobban megalkotni. A Midjorney-nél ki tudod választani, hogy a négy kép közül melyikkel szeretnél tovább dolgozni, és az eredményt is tovább tudod alakítani az igényeid szerint.

Összefoglalva, a DALL-E és a Midjourney lenyűgöző eszközök, melyek új utakat nyitnak a művészeti és tervezői munkában. Ha valaha is szerettél volna úgy alkotni, mintha egy különleges varázspálcád lenne, amivel a legvadabb fantáziád is valósággá válik, akkor itt a lehetőség! És még a legjobb hír: nem kell hozzá festői tehetség. Csak egy kis fantázia és néhány perc, hogy megírd a promptot.