Régi fotóink feljavítása ChatGPT-vel - „csalás” az egész?

Facebook Tweet Tetszik

2025. június 12. - Nagy Sándor Zsolt

Az utóbbi időben nagyon népszerű lett a különböző régebbi képek feljavítása, manipulálása. Bár ezekben gyakran nincs is kivetnivaló, mégis előfordul, hogy ezzel magunkat vagy másokat csapunk be. Gondolatindító írásomat olvashatjátok.

Elöljáróban: ma már nagyon sok ingyenes és fizetős, különböző technikával dolgozó képmanipuláló és generáló rendszer működik. Mivel itthon a legtöbben a ChatGPT-t használják, ebben a rövid cikkben most csak egy olyan példát hozok, amit már én is láttam és azt rekonstruáltam.

Tavasszal digitalizáltatni mentem. Nem képet, hanem videót. Régi családi felvétel volt VHS-en, 1992-ből. Mivel már nagyon régóta nincs videólejátszónk, úgy adtam le az eredeti anyagot, hogy fogalmam sem volt róla, hogy a bő 30 év mit okozott a kazettával. Tisztában voltam viszont azzal, hogy a felvételek, még ha sikerül is a digitalizálás, korántsem fognak megfelelni a mai kor elvárásainak. A régi videókazetta kb. 480p-nyi adatot tartalmaz egy képkockán, ami ma már elég elavultnak számít a FullHD, és a 4K korában. Nem beszélve arról, hogy az elszíneződések, kontrasztvesztés is meg fognak jelenni a felvételeken. A videós példa azért is nagyon jó, mert egyes digitalizáló cégek szolgáltatásként kínálnak egy AI feljavítást is a videókhoz, ami valószínűleg azzal kecsegteti a lelkes fogyasztót, hogy úgy fog kapni egy HD felvételt, mintha a 20-30 éves videóit leadott videóit most forgatták volna. Pedig ez korántsincs így.

Vissza képekhez. Vegyünk egy példát. A fotózás/videografálás pillanatában a hordozóra kerülő adatmennyiséget vehetjük a 100%-nak. Ez az, amivel dolgozni tudunk. Amit nem fotózott le a gép (részlet), az később sem lesz a képen.* Ha egy fotó csak fizikai formátumban van meg, és erősen szennyeződött, elszakadt, a hiányzó részleteket már csak kitalálni lehet - esetleg egy másik kép alapján pótolni. A 100%-os adattartalomból pedig nem tudunk 120 vagy 150%-ot kihozni. Lehet úgy tenni, de az már nem a valóság képmása lesz.

ChatGPT, javítsd fel a képem!

Elővettem tehát a legrégebbi digitális fényképeim egyikét. 2007-ben fotóztam le telefonnal Lady kutyát. Erről az emlékről egy 640x480 pixel felbontású képem van. Ez sajnos sem digitális megosztásra, sem pl. 10x15-ös képnyomtatásra alkalmas méret. Ma már fejlett a technológia (gondolhatnám), így megkísérelhetem feljavítani a képet, hogy azt archiváljam tovább. Megkértem a ChatGPT-t, hogy javítsa fel a képet. A ChatGPT jelen példában a DALL·E 3 modellt használva lepett meg egy új képpel (második kép).

A lepett meg kifejezést direkt használtam. A kép ugyanis már nem Ladyt ábrázolja, és még csak nem is fotó. Mi tehát ez a második kép?

A ChatGPT

elemzett: a feltöltött képen látható kutyáról és háttérről egy automatikus vizuális elemzés készített el;
promptot generált: a rendszer generált egy nagyon részletes leírást a képről ("egy német juhász keverék nyugszik a füvön"), ez lett a prompt (a promptgenerálás nem nyilvános folyamat, felhasználói beavatkozás nem történt);
diffúziós képalkotási végzett: A DALL·E egy új, mesterséges képet készített ezen prompt alapján, ami fotórealisztikus és stílusában illeszkedik az eredetihez – de nem pixel-alapú másolata annak.

Reálisak tehát a generált képek?

Mivel benne van a kifejezésben, hogy generált, már itt el tud bukni a dolog. Sajnos, a fenti példát látva, mindenki számára egyértelművé válik. A feljavítást jelenleg a ChatGPT egy teljesen új kép generálásval végzi**, ami csak nyomokban hasonlít az eredeti képre. Cserére, kinyomtatásra - véleményem szerint - nem alkalmas. Ugyanez történne, ha valakinek egy nagyon kis méretű képe van pl. egy elhunyt személyről, akiről szeretné látni, hogy nézett ki - jobb minőségben. A ChatGPT kezében itt is egy mesterséges végeredményt kapunk, ami nem lesz azonos az adott személy képmásával.

A ChatGPT egyébként valós javításra más modelleket ajánl, pl. Real ESRGAN UpScale-t. Fontos, hogy itt is "találgatás történik", tehát nem az eredeti képet kapjuk meg nagyobb felbontásban, hanem a kis és a nagyobb képméret közötti pixelek információtartalamát próbálja megalapozottan kiszámítani.
Hogy ne legyek rest, azért Lady képét ide is beillesztettem, a végeredmény ez lett:

Ez utóbbi modell demo verziója kipróbálható itt.

Te használtál már mesterséges intelligenciát képjavításra? Olyan eredményt kaptál, amilyen szerettél volna?

________________________________________

* Megjegyzés: Természetesen nem szeretnék belemenni a különböző eljárások világába, a RAW tömörítésekbe, az utólagos fókuszáthelyezést kínáló technikákba, és olyanokba sem, amiket még nem is ismerünk. A nyersanyagok, nyers fájlok sokszor több adatot tárolnak, mint ami elsőre látszik, és ez így is van jól. Viszont ami nem került rögzítésre, az nincs is ott.

** Megjegyzés: A ChatGPT más modellekhez is hozzáfér. A cikk csak a Dall-E-vel való generálásra tér ki.

*** Bónusz: Öt éve már volt hasonló téma a blogon, kis visszatekintő.