Googles AI kan nu skapa en bild från text


” En trött ung man skriver på sitt tangentbord » kommer utan tvekan att tillåta om några år att generera en mycket metabild av att du verkligen skriver den här artikeln. Tack vare Imagen tar Google ett nytt steg i världen av artificiell intelligens och maskininlärning.
I sluten betaversion inom Google Research Lab skulle denna nya kraftfulla algoritm, enligt skaparnas ord, vara ännu effektivare än den imponerande DALL-E 2 från företaget OpenAI.
Allt är möjligt, allt är möjligt
På sin webbplats, som också fungerar som en avsiktsanteckning för verktyget, beskrivs Imagen som en ” text-till-bild leveransmodell med en aldrig tidigare skådad grad av fotorealism och språkförståelse “. Med andra ord skulle den kunna göra absolut vad du vill.
Ett geni av lampan, på ett sätt, benägen att generera en så exakt bild som möjligt från de ord som användaren matat in. Flera exempel till vårt förfogande gör att vi kan beundra resultaten. ” En jättekobra på en gård, men kobran är gjord av majs », « en hjärna som rider en raket till månen “, eller” en mycket arg fågel är bara några exempel hämtade från en webbplats som innehåller dussintals av dem.

För att uppnå ett sådant resultat använder laboratoriet den så kallade diffusionsmetoden. Det hela börjar med en lågupplöst bild, ganska kaotisk, förfinad när AI:n gräver i sin datamodell från de föreslagna orden. Från en första duk på 64 x 64 pixlar, Imagen l’exklusiva för att få en bild på 1024 x 1024 pixlar. Under processen läggs detaljer till genom att harmonisera dem med originalmaterialet.
För att uttrycka det på ett annat sätt, Imagen fungerar som en målare skulle göra. Först genom att skissa ganska grundläggande former, sedan genom att lägga till detaljer och färg till varje pass enligt den mobiliserade datamodellen. Och enligt en panel av observatörer som anlitats av Google är resultaten från Imagen mer exakta än de från DALL-E 2.

Google är medvetet om gränserna och riskerna med dess verktyg
Imponerande, Imagen är uppenbarligen ofullkomlig. De presenterade resultaten erhölls under mycket kontrollerade laboratorieförhållanden. Men även bortsett från dessa försiktighetsåtgärder, är forskningsteamets webbplats rik på reflektioner om potentiella missbruk av ett sådant verktyg som är tillgängliga för det största antalet.
I ett kapitel med rubriken “gränser och samhällelig påverkan” döljer forskarna inte sin oro för att deras teknik ska missbrukas i tvivelaktiga syften. Det är också därför för tillfälletskriv formgivarna, vi har beslutat att inte öppna koden eller erbjuda en offentlig demo. »
Dessutom sägs Imogen mobilisera datauppsättningar där ingen kuration har gjorts. Ett val som gjorde att han kunde utvecklas snabbare, men som lämnar dörren öppen för rasistiska, sexistiska tolkningar eller baserat på pornografiskt innehåll.
En fantastisk möjlighet att komma ihåg att artificiell intelligens, och teknik i allmänhet, aldrig är neutralt. Det är frukten av övertygelser och åsikter från dem som designar det, och detta är desto mer iögonfallande när vi pratar om AI. Ett forskningsfält som vi vet är särskilt fast i rasistiska fördomar.
Om samma ämne:
En AI slår 8 världsmästare i bridge, varför är det så viktigt?
Källa: Google Research Lab