Google Gemini – Ett skrämmande exakt experiment i felaktig information?!

Att jag sitter och leker med AI om dagarna borde inte komma som en överraskning för någon vid det här laget. Att använda kraften i en stor språkmodell kan ibland ge känslor av superkrafter. Dock är dessa känslor kortvariga när man inser att kraften är tillgänglig för alla, samtidigt som vissa har lärt sig att manipulera och utnyttja AI för onda saker också.

Det ger lite rysningar efter ryggraden, samtidigt som man inte kan sluta att ”pilla på såret”. Du känner säkert till känslan.

Jag har börjat experimentera med Googles Gemini plattform för ett tag sedan och är imponerad över hur den tolkar världen runt omkring. Bland annat kan man visa bilder till Gemini och få den att tolka vad den ”ser” och beskriva det tillbaka i text. Att den kan se en häst på en bild och säga att det är en häst är förstås imponerande, men Gemini tar allt mycket längre, kanske lite för långt många gånger.

Den är skrämmande exakt i många avseenden, men den kan också ”hallucinera” rätt så mycket om man inte är redo. Låt oss börja när Gemini är som bäst.

Gemini tolkar alltså bilden både visuellt, att det är en dödskalle med korslagda ben, vilket är uppenbart. Den känner dessutom till att den liknar en Apple logotyp. Förutom detta så fortsätter den att tolka bilden ur en psykologisk aspekt, när den kallar bilden för subversiv eller ironisk. Även den kontrasterande innebörden, där bilden tolkas som en symbol för faran eller riskerna med att använda teknik känns i det närmaste som en analys från en riktig expert.

Att en AI, som i grund och botten är en samling instruktioner, kan tolka och tyda, förstå och spekulera om en bilds innebörd är för mig helt ”mind blowing”.🤯 Det borde det ju förstås inte vara, men jag kan, trots logiskt tänkande, inte komma över hur smart AI har blivit den senaste tiden.

Men allt är förstås inte en dans på rosor med Gemini. Många gånger missförstår den bilder totalt och hittar på egna saker som inte är i närheten av verkligheten. I exemplet nedan så tog jag en bild på ett terrängfordon och frågade Gemini vad bilden föreställde.

Den har rätt i flera avseenden, bland annat att det är en ”Terränghjuling” och att den har ”snö-band” istället för hjul. Sedan spårar det ut lite. Det står inte ”Snow Removal” på den, den har ingen plog framtill och det finns ingen slunga bak på den. Bilden hittas inte på webbplatser, då jag tagit den själv, men jag antar att den gissar var man kan ha hittat liknande bilder, vilket jag inte kan argumentera emot.

Bilden är förstås väldigt komplex att förstå, även om den ser enkel ut, så vi kan testa med en annan sak. Kanske en lite enklare bild av mig, när jag håller en handfull med lingon ute i skogen under ett av våra äventyr.

Precis som med förra bilden så hittar Gemini på saker som helt enkelt inte stämmer. Det är inte blåbär på bilden, det finns ingen skål. Skålen är således inte fylld till bredden. Bären har inte blå färg.

Bevisen som Gemini lägger fram stämmer inte i närheten av vad bilden föreställer.

Att få en beskrivning som i första bilden, där jag visade Apple loggan med form av en döskalle, är rent magiskt exakt. Medan många andra bilder helt enkelt felar otroligt mycket. Det visar också hur Gemini fungerar rent generellt. Även om vi kan få väldigt mycket fakta, väldigt fort, så ställer det krav på att vi måste bli mer källkritiska på alla nivåer.

Ibland kan det vara hårfina detaljer som skiljer verkligheten från vad AI tolkar, medan ibland, som i exemplet ovan, så är det uppenbart att något inte står rätt till. Detta gäller förstås även skriven text och annat man kan få hjälp med från Gemini, inte bara tolkning av bilder.

Det sista exemplet jag tänkte mig testa var en bild på en Manix 2 kniv som ligger på ett bord av trä. Detta trodde jag var den enklaste bilden för Gemini att förstå sig på. Men det var också här jag råkade ut för dom vildaste fantasierna.

Jag blev så förvånad över den otroligt dåliga beskrivningen att jag provade flera gånger.

… och igen.

Till slut, med min hjälp så kunde Gemini säga att det var en kniv av typen fällkniv, att den har ett svart handtag och ett silverfärgat blad. Bänken är gjord av trä och har en mörkbrun färg. Men sedan tappar den tråden lite. Kniven är inte delvis utfälld, det finns ingen ljusgrå bakgrund och ingen vägg syns heller på bilden.

En sista sak jag var tvungen att testa var en klassisk missledning, på en bild som säger en sak i text men föreställer något helt annat. Går det att lura Gemini?

Gemini är helt ute på egen upptäcksfärd bland pixlarna och verkar nu helt borta. Jag gör det enda rätta och testar Geminis ”konkurrent”, Copilot från Microsoft. Med Microsofts GPT-4 ”motor” får vi se om den kan tolka bilden och förstå vad den föreställer… Något dom gick betydligt bättre, vid första försöket.

Triggad av att Copilot analyserade bilden av vargen så bra så utmanade jag den med bilden från exemplet högst upp, där Gemini brilliant analyserade allt på ett mycket professionellt sätt.

Så. Rent generellt kan vi fastställa att Copilot klarade av även detta test utan problem. Gemini hade en betydligt mer poetisk tolkning i sitt svar, men Copilot lyckades identifiera samtliga punkter, samt att logotypen var ”skadad” för att likna en Apple logotyp, vilket var imponerande.

Slutligen
Jag tror personligen att Gemini är på god väg att bli riktigt duktig på att identifiera bilder. Just nu är det ”hit and miss”, men det känns ändå som att det är en sak som kommer att förbättras avsevärt under dom kommande månaderna.

Microsofts CoPilot med GPT 4 (anpassad för Microsoft) i ryggen är fortfarande betydligt bättre och mer utvecklad än Gemini. Dessutom tror jag att Microsoft har ett gediget försprång då deras AI tränas betydligt hårdare på ”Business”-delen av världen, medan Googles Gemini är och förblir ett verktyg för att sälja och marknadsföra saker i Googles namn.

Jag tror att Microsoft kommer att vinna racet när det gäller så exakt och användbar information som möjligt, men jag kan förstås ha fel, det har hänt förr.

Ha en riktigt bra dag så hörs vi snart igen.