Un soft inteligent descrie în cuvinte fotografiile

La proiect lucrează și un cercetător din Chișinău
 

Două grupuri de cercetători care au lucrat independent au creat un soft de inteligență artificială capabil să recunoască și să descrie cu acuratețe deosebită conținutul unei imagini. Până acum, cele mai avansate programe recunoșteau obiecte individuale, însă noul soft poate descrie în cuvinte detaliate scene din fotografii și, mai ales, poate interpreta acțiunile din poză. Un grup de ingineri este de la Stanford University, iar celălalt grup este de la Google, unul dintre cercetătorii de acolo fiind un basarabean pe nume Dumitru Erhan.

Soft-urile sunt capabile să înțeleagă în detaliu o poză și pot să o descrie în cuvinte, exemple de titluri fiind: "Două pizza puse pe o sobă", "Un grup de oameni care fac cumpărături la un magazin în aer liber" sau "Cele mai bune locuri din casă".

Descrierile generate de aceste programe s-au dovedit a fi foarte exacte și mai ales foarte apropiate de cele pe care le-ar fi dat un om. Aceste programe sunt extrem de utile pentru a cataloga și eticheta milioanele de poze care se află pe internet, astfel încât să poată fi cât mai ușor gasite. În prezent, multe poze reușite sunt prost etichetate și un soft care să facă descrieri automate complete le-ar face ușor de descoperit.

O echipă care a lucrat la aceste programe inteligente este de la Stanford Artificial Intelligence Laboratory, iar alta este de la Google, iar lucrarea a fost publicată pe arXiv.org.

Soft-ul ar fi foarte util și pentru persoanele fără vedere care ar putea astfel să înțeleagă mult mai bine fotografiile, cu ajutorul unui program text-to-speech care să le comunice vocal descrierea generată de noile programe.

"Consider că datele despre pixelii din imagini și din video-uri reprezintă materia întunecată a internetului", spune Fei-Fei Li, director la Stanford Artificial Intelligence Laboratory. "Acum începem să o luminăm", adaugă el.

Cele mai folosite programe reușesc să recunoască în prezent obiecte, pe modele BMW și Volvo fiind instalate soft-uri ce pot recunoaște în timp real pietoni, bicicliști și animale. Dar nu mai este suficient să fie recunoscute numai verbele, ci trebuie să fie rezolvată și problema verbelor, practic recunoașterea în detaliu a acțiunilor dintr-o fotografie.

Atât grupul de la Stanford, cât și cel de la Google au încercat să rezolve problema cu ajutorul rețelelor neurale, ramură a științei inteligenței artificiale. Aceste rețele sunt formate din foarte multe elemente simple de procesare, puternic legate între ele și operând în paralel. Acestea urmăresc să interacționeze cu mediul înconjurător într-un mod asemănător creierelor biologice și au și capacitatea de a învăța (machine learning). Rețelele sunt compuse din neuroni artificiali, de aici și analogia cu creierul.

Practic au fost "întrețesute" două rețele neurale: una concentrata pe recunoașterea imaginilor și alta pe limbajul uman. În ambele cazuri, cercetători au "antrenat" soft-ul cu mici seturi de imagini digitale adnotate de cercetatori cu mici propoziții descriptive.

După ce softul a "învățat" să recunoască pattern-uri în poze și în descrieri, programele au fost testate pe poze noi și s-a dovedit că au putut identifica obiecte și acțiuni cu o acuratețe dublă față de primele încercări.

La proiectul desfășurat de Google a lucrat și un cercetător care a trăit o bună parte din viață la Chișinău: Dumitru Erhan.

Ce spune Google despre proiect? "O poză face cât o mie de cuvinte, însă uneori cuvintele sunt mult mai folositoare, deci e important să găsim o cale de a traduce automat și cu acuratețe imaginea în cuvinte. Seturile de date potrivite pentru învățarea descrierilor imagistice sunt tot mai multe și mai mature, astfel că și performanța se va îmbunătăți. Vom continua dezvoltările sistemelor care pot "citi" imagini și pot genera descrieri în limbaj cât mai familiar".

Sursa: HotNews.ro

Vote it up
220
Ți-a plăcut acest articol?Voteaza