bionic hand and human hand finger pointing

Apples nya AI

Apple har precis släppt en open source AI modell som heter ”MGIE”, som kan redigera bilder baserat på instruktioner som man skriver, helt naturligt. MGIE är en förkortning på det annars katchiga namnet ”Multimodal Large Language Model Guided Image Editing”. MGIE är resultatet av ett samarbete mellan University of California och Apple.

Det som är speciellt med MGIE är att den är baserad på tanken att använda MLLM, kraftfulla AI-modeller som kan behandla både text och bilder, för att förbättra instruktionsbaserad bildredigering. MLLM har visat enastående förmågor inom tvärmodal förståelse och generering av visuellt medvetna svar, men de har inte tillämpats brett på bildredigeringsuppgifter.

Vad kan MGIE göra?
MGIE kan hantera ett brett spektrum av redigeringsscenarier, från enkla färgjusteringar till komplexa objektmanipulationer. Modellen kan också utföra globala och lokala redigeringar, beroende på användarens preferenser. Några av MGIE:s funktioner och förmågor inkluderar:

Expressiv instruktionsbaserad redigering: MGIE kan producera kortfattade och tydliga instruktioner som effektivt vägleder redigeringsprocessen. Detta förbättrar inte bara redigeringarnas kvalitet utan förhöjer även den övergripande användarupplevelsen.

Modifiering i Photoshop-stil: MGIE kan utföra vanliga redigeringar i Photoshop-stil, såsom beskärning, ändring av storlek, rotation, spegelvändning och tillägg av filter. Modellen kan också utföra mer avancerade redigeringar, som att ändra bakgrunden, lägga till eller ta bort objekt och blanda bilder.

Global fotooptimering: MGIE kan optimera hela fotons kvalitet, såsom ljusstyrka, kontrast, skärpa och färgbalans. Modellen kan också tillämpa konstnärliga effekter som skissning, målning och teckning.

Lokal redigering: MGIE kan redigera specifika regioner eller objekt i en bild, såsom ansikten, ögon, hår, kläder och accessoarer. Modellen kan också ändra attributen för dessa regioner eller objekt, som form, storlek, färg, textur och stil.

Hur använder man MGIE?
MGIE är tillgängligt som ett öppet projekt på GitHub, där användare kan hitta kod, data och förtränade modeller. Projektet tillhandahåller också en demoanteckning som visar hur man använder MGIE för olika redigeringsuppgifter. Användare kan också prova MGIE online genom en webbdemo som finns på Hugging Face Spaces, en plattform för delning och samarbete kring maskininlärningsprojekt. Jag testade MGIE på Hugging Face och gav den följande bild:

MGIE fick instruktionen att hunden skulle få grå päls och större öron, men inga fler instruktioner än så. Resultatet av processen (som tog kort tid, men krävde väntetid i kö som var extremt lång) blev enligt följande bild:

MGIE är utformat för att vara enkelt att använda och flexibelt att anpassa. Användare kan ge naturliga språkinstruktioner för att redigera bilder, och MGIE kommer då att generera redigerade bilder tillsammans med härledda instruktioner. Användare kan också ge feedback till MGIE för att förbättra redigeringarna eller begära olika redigeringar. MGIE kan utan problem integreras med andra applikationer eller plattformar som kräver bildredigeringsfunktionalitet. Det är därför inte helt omöjligt att Apple användare kommer att få erfara MGIE via SIRI i en nära framtid.

Men varför är MGIE så viktigt? Man kan ju redigera bilder i många AI modeller? MGIE är ett genombrott inom området instruktionsbaserad bildredigering, vilket är en utmanande och viktig uppgift för både AI och mänsklig kreativitet. MGIE visar, trots att det idag bara är en ”test”, potentialen att använda MLLM för att förbättra bildredigering och öppnar upp nya möjligheter för tvärmodal interaktion och kommunikation.

MGIE är inte bara en forskningsframgång utan också ett praktiskt och användbart verktyg för olika scenarier. MGIE kan hjälpa användare att skapa, ändra och optimera bilder för personliga eller professionella ändamål, såsom sociala medier, e-handel, utbildning, underhållning och konst. MGIE kan också ge användare möjlighet att uttrycka sina idéer och känslor genom bilder och inspirera dem att utforska sin kreativitet.

För Apple lyfter MGIE också fram företagets växande styrka inom AI-forskning och utveckling. Apple har som vanligt verkat vara sena till den senaste teknologin men har snabbt utökat sina maskininlärningskapaciteter under de senaste åren, och MGIE är kanske det mest imponerande exemplet hittills på hur AI kan förbättra vardagliga kreativa uppgifter.

Även om MGIE representerar ett stort genombrott säger experter att det fortfarande är mycket arbete för att förbättra multimodala AI-system. Men framstegen inom detta område accelererar snabbt. Om hypen kring MGIE:s lansering är något att gå efter kan denna typ av stödjande AI snart bli en oumbärlig kreativ medhjälpare.

Mina erfarenheter rörande detta system är förstås begränsade och jag anser att MGIE är mer ett tekniskt demo i dagsläget, än något man kan använda för att redigera bilder på professionell nivå.

Ha en riktigt bra dag så hörs vi snart igen.