DALL·E mini heeft een mysterieuze obsessie met vrouwen in sari’s

Zoals de meeste mensen die extreem online zijn, is de Braziliaanse scenarioschrijver Fernando Marés gefascineerd door de beelden die worden gegenereerd door het kunstmatige intelligentie (AI)-model DALL·E mini. De afgelopen weken is het AI-systeem een ​​virale sensatie geworden door afbeeldingen te maken op basis van schijnbaar willekeurige en grillige vragen van gebruikers, zoals “Lady Gaga als de Joker”, “Elon Musk aangeklaagd door een capibara,” en meer.

Marés, een ervaren hacktivist, begon begin juni DALL·E mini te gebruiken. Maar in plaats van tekst voor een specifiek verzoek in te voeren, probeerde hij iets anders: hij liet het veld leeg. Gefascineerd door de schijnbaar willekeurige resultaten, voerde Marés de blanco zoekopdracht steeds opnieuw uit. Toen merkte Marés iets vreemds op: bijna elke keer dat hij een blanco verzoek deed, genereerde DALL·E mini portretten van vrouwen met een bruine huid die sari’seen soort kleding die veel voorkomt in Zuid-Azië.

Marés ondervroeg DALL·E mini duizenden keren met de blanco commando-invoer om erachter te komen of het gewoon toeval was. Vervolgens nodigde hij zijn vrienden uit om om de beurt op zijn computer afbeeldingen te genereren op vijf browsertabbladen. Hij zei dat hij bijna 10 uur zonder pauze doorging. Hij bouwde een uitgebreide opslagplaats van meer dan 5.000 unieke afbeeldingen en deelde 1,4 GB aan onbewerkte DALL·E-minigegevens met Rest van de wereld.

De meeste van die afbeeldingen bevatten foto’s van vrouwen met een bruine huid in sari’s. Waarom is DALL-E mini schijnbaar geobsedeerd door dit zeer specifieke type afbeelding? Volgens AI-onderzoekers heeft het antwoord mogelijk iets te maken met slordige tagging en onvolledige datasets.

DALL·E mini is ontwikkeld door AI-artiest Boris Dayma en geïnspireerd door DALL·E 2, een OpenAI-programma dat hyperrealistische kunst en afbeeldingen genereert uit tekstinvoer. Van mediterende katten tot robotdinosaurussen die vechten tegen monstertrucks in een colosseum, de foto’s bliezen ieders geest, sommigen noemden het een bedreiging voor menselijke illustratoren. OpenAI erkende het potentieel voor misbruik en beperkte de toegang tot zijn model alleen tot een zorgvuldig geselecteerde set van 400 onderzoekers.

Dayma was gefascineerd door de kunst geproduceerd door DALL·E 2 en “wilde een open-source versie hebben die voor iedereen toegankelijk en verbeterd kan worden”, vertelde hij. Rest van de wereld. Dus ging hij door en creëerde een uitgeklede, open-source versie van het model en noemde het DALL·E mini. Hij lanceerde het in juli 2021 en sindsdien heeft het model zijn prestaties getraind en geperfectioneerd.


DALL.E mini

DALL·E mini is nu een viraal internetfenomeen. De beelden die het produceert zijn lang niet zo duidelijk als die van DALL·E 2 en vertonen opmerkelijke vervorming en vervaging, maar de wilde weergaven van het systeem – alles van de Demogorgon van Vreemde dingen een basketbal vasthouden aan een openbare executie bij Disney World — hebben geleid tot een hele subcultuur, met subreddits en Twitter-handvatten gewijd aan het samenstellen van zijn afbeeldingen. Het heeft een tekenfilm geïnspireerd in de New Yorker magazine en de Twitter-handle Weird Dall-E Creations heeft meer dan 730.000 volgers. Dayma vertelde Rest van de wereld dat het model ongeveer 5 miljoen prompts per dag genereert en momenteel bezig is om de extreme groei in gebruikersinteresse bij te houden. (DALL.E mini heeft geen relatie met OpenAI en heeft op aandringen van OpenAI zijn open-sourcemodel op 20 juni omgedoopt tot Craiyon.)

Dayma geeft toe dat hij stomverbaasd is over de reden waarom het systeem afbeeldingen van bruine vrouwen in sari’s genereert voor blanco verzoeken, maar vermoedt dat het iets te maken heeft met de dataset van het programma. “Het is best interessant en ik weet niet zeker waarom het gebeurt,” vertelde Dayma Rest van de wereld na het bekijken van de beelden. “Het is ook mogelijk dat dit type afbeelding sterk vertegenwoordigd was in de dataset, misschien ook met korte bijschriften,” vertelde Dayma Rest van de wereld. Rest van de wereld ook contact opgenomen met OpenAI, de maker van DALL·E 2, om te zien of ze enig inzicht hadden, maar nog geen reactie hebben gehoord.

AI-modellen zoals DALL-E mini leren een afbeelding te tekenen door miljoenen afbeeldingen van internet te ontleden met de bijbehorende bijschriften. Het DALL·E minimodel is ontwikkeld op basis van drie belangrijke datasets: Conceptual Captions dataset, die 3 miljoen afbeeldings- en bijschriftparen bevat; Conceptuele 12M, die 12 miljoen afbeeldings- en bijschriftparen bevat, en het corpus van The OpenAI van ongeveer 15 miljoen afbeeldingen. Dayma en DALL·E mini-medebedenker Pedro Cuenca merkten op dat hun model ook is getraind met behulp van ongefilterde gegevens op internet, wat het opent voor onbekende en onverklaarbare vooroordelen in datasets die kunnen doorsijpelen naar modellen voor het genereren van afbeeldingen.

Dayma is niet de enige die de onderliggende dataset en het trainingsmodel vermoedt. Op zoek naar antwoorden wendde Marés zich tot het populaire discussieforum voor machine learning Hugging Face, waar DALL·E mini wordt gehost. Daar woog de computerwetenschappelijke gemeenschap, waarbij sommige leden herhaaldelijk plausibele verklaringen gaven: de AI had kunnen worden getraind op miljoenen afbeeldingen van mensen uit Zuid- en Zuidoost-Azië die “niet-gelabeld” zijn in het corpus van trainingsgegevens. Dayma bestrijdt deze theorie, omdat hij zei dat geen enkele afbeelding uit de dataset een bijschrift heeft.

“Meestal hebben machine learning-systemen het omgekeerde probleem: ze bevatten eigenlijk niet genoeg foto’s van niet-blanke mensen.”

Michael Cook, die momenteel onderzoek doet naar de kruising van kunstmatige intelligentie, creativiteit en gamedesign aan de Queen Mary University in Londen, betwistte de theorie dat de dataset te veel foto’s van mensen uit Zuid-Azië bevatte. “Meestal hebben machinale leersystemen het omgekeerde probleem: ze bevatten eigenlijk niet genoeg foto’s van niet-blanke mensen,” zei Cook.

Cook heeft zijn eigen theorie over de verwarrende resultaten van DALL·E mini. “Eén ding dat bij me opkwam toen ik wat las, is dat veel van deze datasets tekst verwijderen die niet Engels is, en ook informatie over specifieke mensen, dwz eigennamen, verwijderen,” zei Cook.

“Wat we misschien zien, is een raar neveneffect van een deel van deze filtering of voorbewerking, waarbij afbeeldingen van Indiase vrouwen bijvoorbeeld minder snel worden gefilterd door de verbodslijst, of de tekst die de afbeeldingen beschrijft, wordt verwijderd en ze worden zonder labels aan de dataset toegevoegd.” Als de bijschriften bijvoorbeeld in het Hindi of een andere taal waren, is het mogelijk dat de tekst in de war raakt bij het verwerken van de gegevens, waardoor de afbeelding geen bijschrift heeft. “Dat kan ik niet met zekerheid zeggen – het is gewoon een theorie die bij me opkwam tijdens het verkennen van de gegevens.”

Vooroordelen in AI-systemen zijn universeel, en zelfs goed gefinancierde Big Tech-initiatieven zoals Microsoft’s chatbot Tay en Amazon’s AI-rekruteringstool zijn voor het probleem bezweken. Het tekst-naar-beeld-generatiemodel van Google, Imagen, en OpenAI’s DALL.E 2 onthullen expliciet dat hun modellen het potentieel hebben om schadelijke vooroordelen en stereotypen na te bootsen, net als DALL.E mini.

Cook is geweest vocale criticus van wat hij ziet als de groeiende ongevoeligheid en de onthullingen die vooroordelen van zich afschudden als een onvermijdelijk onderdeel van opkomende AI-modellen. Hij vertelde Rest van de wereld dat, hoewel het prijzenswaardig is dat een nieuw stukje technologie mensen in staat stelt veel plezier te hebben, “ik denk dat er serieuze culturele en sociale problemen zijn met deze technologie die we niet echt waarderen.”

Dayma, maker van DALL·E mini, geeft toe dat het model nog steeds een werk in uitvoering is en dat de omvang van zijn vooroordelen nog niet volledig zijn gedocumenteerd. “Het model heeft veel meer belangstelling gewekt dan ik had verwacht”, vertelde Dayma Rest van de wereld. Hij wil dat het model open-source blijft, zodat zijn team de beperkingen en vooroordelen sneller kan bestuderen. “Ik denk dat het voor het publiek interessant is om zich bewust te zijn van wat er mogelijk is, zodat ze een kritische geest kunnen ontwikkelen ten opzichte van de media die ze als beeld ontvangen, in dezelfde mate als media die worden ontvangen als nieuwsartikelen.”

Ondertussen blijft het mysterie onbeantwoord. “Ik leer veel door te zien hoe mensen het model gebruiken,” vertelde Dayma Rest van de wereld. “Als het leeg is, is het een grijs gebied, dus [I] moet nog nader worden onderzocht.”

Marés zei dat het belangrijk is dat mensen leren over de mogelijke schade van schijnbaar leuke AI-systemen zoals DALL-E mini. Het feit dat zelfs Dayma niet kan onderscheiden waarom het systeem deze beelden uitspuugt, versterkt zijn bezorgdheid. “Dat is wat de pers en critici hebben [been] al jaren zeggend: dat deze dingen onvoorspelbaar zijn en dat ze er geen controle over hebben.”

Leave a Comment