Da bildene endelig begynte å bety noe
Da bildene endelig begynte å bety noe
Jeg er interessert i IT og AI. Jeg har mange tanker, men skriver alltid for langt og usammenhengende til at det blir bra å lese. Med verktøy som Spiral klarer jeg nå å uttrykke meg bedre – og det er det jeg forsøker å gjøre på denne siden.
Men ord kan ikke stå alene. Innlegg trenger bilder.
Grafisk sans er ikke en av mine sterke sider, og jeg ønsket ikke å bruke time etter time på å skulle finne eller lage illustrasjoner manuelt. Jeg visste at KITgubber trengte et visuelt uttrykk – og jeg ba AI ta seg av det, automatisk.
Jeg prøvde meg på å lage en logo. Det var der jeg startet. Jeg brukte opp alle gratisforsøkene på en bildegenerator, endte opp med noe halvferdig – og den halvferdige logoen sitter faktisk fortsatt på artikkelen som forklarer navnet KITgubber. Det er ikke ideelt, men det er ærlig.
Resten av artiklene trengte header-bilder. Jeg ba Claude sette opp et automatisk system for det.
Det fungerte. Og så fungerte det ikke.
Et innlegg om AI-demokratisering fikk nøyaktig samme header-bilde som et innlegg om bloggverktøy. Grønn norsk skog, mykt dagslys, varm og innbydende stemning. Begge to.
Det var åpenbart feil, og likevel tok det litt tid før jeg innrømmet det for meg selv. Bildene så fine ut. De passet til det visuelle uttrykket jeg hadde tenkt meg for KITgubber. Problemet var bare at de ikke hadde noe å gjøre med det faktiske innholdet.
Hva systemet egentlig gjorde
Claude hadde satt opp et Python-skript (generer-bilder.py) som automatisk lager header-bilder til blogginnlegg via DALL-E 3. Flyten er enkel: hent tittel og tekst, lag en bildeprompt via GPT-4o, send til bildemodellen, last opp til Ghost.Ikke gratis, men en rimelig løsning.
Jeg hadde ikke tenkt særlig på hvordan dette teknisk var satt opp før bildene begynte å se mistenkelig like ut. Da ba jeg om å få se prompten.
Den opprinnelige stilen var hardkodet direkte inn i skriptet – noe sånt som "Wide cinematic photo illustration. Bright Nordic nature: lush green moss, sunlit forest, soft daylight, warm and inviting atmosphere. No people, no text, no logos."
Der lå forklaringen. Modellen tok instruksjonen bokstavelig og leverte natur – hver gang.
I tillegg hentet skriptet bare de første 800 tegnene av teksten. Det er nesten alltid innledningen. Kjernen i innlegget – argumentet, eksemplene, det som faktisk skiller ett innlegg fra et annet – kom aldri med.
To problemer, ikke ett
Jeg tenkte først at problemet var stilen. Løsningen føltes åpenbar: gjør stilen mindre spesifikk.
Det hjelper. Men det er ikke nok.
Modellen fikk aldri vite hva innlegget handlet om. Den fikk 800 tegn innledning og en veldig tydelig mal for hva bildet skulle se ut som. Resultatet var predikabelt.
Så vi måtte fikse begge deler.
Det vi endret
Steg én: sammendrag først. I stedet for å sende råtekst direkte til bildeprompt-generatoren, ber systemet nå GPT-4o om å lage et sammendrag og nøkkelord fra hele teksten (opptil 3000 tegn) først. Deretter brukes det sammendraget som grunnlag for bildeprompt. Modellen får et destillert bilde av hva innlegget faktisk handler om – ikke bare hva de første 100 ordene handler om.
Steg to: stilen lar innholdet styre motivet. Den nye stilen er minimal: "Wide format, cinematic. No text, no logos. Suitable as a blog post header image." Ingenting om natur, ingenting om farger. GPT-4o velger motiv fritt – basert på hva som faktisk illustrerer innholdet.
Steg tre: mennesker er tillatt. Jeg ba om å fjerne "No people"-instruksjonen. Den hadde lagt seg inn der nærmest som en forsiktighetsregel (ingen ansikter, ingen gjenkjenning, ingen kulturelle feiltrinn). Men den sperret også for bilder med emosjonell resonans – og mange innlegg om teknologi, erfaring og samfunn handler faktisk om folk.
Det jeg ikke hadde sett for meg var hva som skjedde da alle disse reglene ble fjernet. Stilen jeg hadde hatt i hodet da jeg forsøkte å lage logoen – den tok over. Plutselig var den dominerende i alle illustrasjoner. Ikke planlagt, ikke bedt om eksplisitt, men tydelig nok til at jeg la merke til det.
Hva promptene ble
Forskjellen ble tydelig raskt.
"AI kom ikke gradvis" – som handlet om et skifte i tilgjengelighet og demokratisering – fikk et futuristisk bylandskap med en digital hjerne over skyline. Ikke skog.
"Fra erfaring til bloggpost" fikk en forfatter i et moderne arbeidsrom omgitt av teknologi.
"Hvorfor jeg bestemte meg" fikk en person ved et veikryss mellom teknologi og samfunn.
Det er ikke perfekt. Noen ganger er bildene fortsatt litt generiske – futuristisk bylandskap er jo ikke akkurat hyperspecifikt. Men de henger faktisk sammen med innholdet nå, og det er en annen kategori problem enn "alle bilder ser like ut".
Hva som er igjen å gjøre
Jeg ser for meg tre mulige neste steg – ingen av dem er prioritert ennå, men de ligger i bakhodet:
- Stiler per kategori. Ghost har tags. Det burde gå an å gi teknologiinnlegg én visuell stil og mer personlige refleksjoner en annen.
- Godkjenne prompten før bildet genereres. Nå er flyten fullt automatisk. Et enkelt steg der jeg ser hva prompten ble – og kan justere – ville gitt mer kontroll uten å bryte flyten.
Det er mye som kan forbedres. Men det viktige er at systemet nå faktisk leser det jeg skriver – ikke bare lager et fint bilde ved siden av.