De la EPFL un nou model multimodal pentru IA mai flexibilă

Poate învăța din text, imagini, video și sunet și, datorită modularității, produce orice număr sau combinație de predicții

Învățare automată: un nou model multimodal pentru IA mai flexibilă de la EPFL
De la EPFL un nou model multimodal pentru IA mai flexibilă (Foto: Brian Penny/Pixabay)

Fie că vorbim despre OpenAI sau ChatGPT, marea majoritate a chatboților inteligența artificială generativă se bazează pe așa-numitele Model de limbaj mare (LLM), modele de învățare profundă pe scară largă instruiți să ofere răspunsuri la întrebările care li se pun prin învățarea informațiilor prin cantități mari de text.

Ultima frontieră aAI generativă sunt eu modele multimodale, care combină înțelegerea limbii și imagini, video și audio pentru a oferi o experiență și un serviciu și mai avansat.

Crearea lor prezintă însă mai multe provocări, mai ales dacă intenția este de a construi modele multimodale la scară mică: frecventele prezența datelor lipsă din cauza indisponibilității informațiilor, aproape întotdeauna din cauza disponibilității parțiale a resurselor.

Pe scurt, riscul este ca modelul să învețe pe baza unei lipse, iar calculele și predicțiile să fie distorsionate. Și de aici a început EPFL cu noul său proiect.

De la Universitatea Tehnică din Lausanne și Zurich o coaliție pentru energie verde
În 3D mănușa tehnologică care va face realitatea virtuală tangibilă

Invatare mecanica
Campusul Politehnicii Federale din Lausanne (Foto: Facebook/EFPL)

MultiModN, modelul multimodal modular născut la Lausanne

Cercetătorii din Politehnica Federală din Lausanne (EPFL), una dintre cele mai bune universități din lume în ceea ce privește inginerie și tehnologia informației, s-au dezvoltat de fapt MultiModN, un model multimodal modular unic prezentat recent la NeurIPS2023.

Cercetătorii de la laboratoarele Machine Learning for Education (ML4ED) și Machine Learning and Optimization (MLO) de la Școala de Informatică și Comunicare a EPFL au decis să dezvolte și să testeze exact opusul unei mari, dar gândiți la o scară mai mică.

Condus de profesor Mary-Anne Hartley, director al Laboratorului Global Intelligent Health Technologies găzduit împreună la MLO și Yale School of Medicine, și profesor Tanja Käser, director al ML4ED, echipa a creat un model multimodal care poate învăța din text, imagini, videoclipuri și sunete dar care, spre deosebire de cele existente, este alcătuit din un număr variabil de module mai mici, autonom și specific intrărilor.

Acesta din urmă poate fi selectat pe baza informațiilor disponibile și apoi adunat într-o secvență de orice număr, combinație sau tip de intrare. Prin urmare, poate produce orice număr sau combinație de predicții.

Am evaluat MultiModN în zece activități reale, inclusiv asistență pentru diagnosticul medical, predicția performanței academice și prognoza meteo”, a explicat Vinitra Swamy, doctorand la ML4ED și MLO și primul coautor al proiectului.

„Prin aceste experimente, credem că MultiModN este prima abordare intrinsec interpretabilă și rezistentă la date lipsă a modelării multimodale.".

„Rețeta” EPFL pentru calculatoare cuantice mai puternice
De la inteligența artificială un impuls decisiv către criptomonede?

Invatare mecanica
Școala de Informatică și Comunicare EPFL (Foto: Facebook/EPFL IC)

Primul caz de utilizare: deciziile clinice pentru personalul medical

Primul caz de utilizare al MultiModN va fi ca sistem de suport pentru decizii clinice pentru personalul medical din medii cu resurse limitate.

În sectorul sănătății, de fapt, datele clinice lipsesc adesea, poate din cauza resurselor limitate (un pacient nu își poate permite un anumit test) sau, dimpotrivă, din cauza abundenței de resurse și informații. MultiModN este capabil să învețe din aceste date din lumea reală fără a-și absorbi așa-numitele părtiniri și să adapteze predicțiile la orice combinație sau număr de intrări.

Datele lipsă sunt un semn distinctiv în contexte limitate de resurse și, pe măsură ce modelele învață aceste modele lipsă, pot codifica erori în predicțiile lor.” a subliniat el Mary-Anne Hartley.

„Nevoia de flexibilitate în fața resurselor disponibile imprevizibil este ceea ce a inspirat MultiModN".

Într-un eveniment de top, impactul AI și al învățării automate asupra serviciilor
Toate motivele pentru influența tot mai mare a AI în arta digitală

Invatare mecanica
Un laborator de analiză (Foto: Michal Jarmoluk/Pixabay)

De la laborator la viața reală: un studiu asupra pneumoniei și tuberculozei este în desfășurare

Publicarea este însă doar primul pas către implementare și testare pe teren. Profesorul Hartley a lucrat cu colegii de la Spitalul Universitar Lausanne (CHUV) și Inselspital, Spitalul Universitar din Berna, pentru a conduce studii clinice concentrat pe diagnosticarea pneumoniei și tuberculozei în medii cu resurse limitate și este în proces de recrutare a mii de pacienți Africa de Sud, Tanzania, Namibia e benin.

Grupurile de cercetare au întreprins o amplă inițiativă de formare, predare peste 100 de medici pentru a colecta sistematic date multimodale, inclusiv imagini cu ultrasunete și videoclipuri, astfel încât MultiModN să poată fi antrenat să fie sensibil la datele reale din regiunile cu resurse reduse.

„Colectăm exact tipul de date multimodale complexe pe care MultiModN este proiectat să le gestioneze”, a spus medicul Noémie Boillat-Blanco, medic specialist boli infecțioase la CHUV.

„Suntem încântați să vedem un model care poate aprecia complexitatea resurselor lipsă în contextele noastre și lipsa sistematică a evaluărilor clinice de rutină”, a adăugat medicul Kristina Keitel al Inselspitalului, spitalul universitar din capitala Elveției.

Siguranța AI? Declarația Bletchley Park este crucială
Axa Axel Springer-OpenAI pentru AI în slujba jurnalismului

Inovația EPFL este concepută pentru a îmbunătăți procesul decizional clinic, oferind acces la cunoștințe medicale specializate (Foto: Irwan/Unsplash)

Machine Learning în slujba binelui public

Dezvoltarea și instruirea MultiModN reprezintă continuarea eforturilor EPFL de a adapta instrumentele de învățare automată la realitate și pentru binele public și vine la scurt timp după lansarea Meditron, un model de inteligență artificială conceput special pentru sectorul medical.

Meditron aparține, de asemenea, categoriei de modele de limbaj mari (LLM), dar spre deosebire de modelele generaliste, care servesc o gamă largă de sarcini, este axat pe domeniul medical, și este mai compact în ceea ce privește dimensiunea, dar la fel de eficient.

Scopul lui Meditron este să democratizarea accesului la informația medicală de înaltă calitate, ajutând astfel deciziile clinice.

Cercetătorii EPFL au dezvoltat două versiuni cu 7 miliarde și, respectiv, 70 de miliarde de parametri, iar modelele au fost instruite pe surse de date medicale selectate, de înaltă calitate, inclusiv literatură științifică revizuită de colegi și diverse ghiduri clinice, asigurând o bază de cunoștințe largă și precisă.

Atât Meditron, prezentat în noiembrie 2023, cât și MultiModN sunt, prin urmare, în conformitate cu misiunea noului Centru AI al EPFL, care se concentrează pe modul în care inteligența artificială responsabilă și eficientă poate promova inovația tehnologică în beneficiul tuturor sectoarelor societății.

Senzorii revoluționari care pot economisi milioane de baterii
AI: războiul care este pe cale să izbucnească nu va fi așa cum ne așteptăm...

Învățare automată: un nou model multimodal pentru IA mai flexibilă de la EPFL
Exteriorul campusului EPFL cu sigla Politehnicii Federale din Lausanne (Foto: Facebook/EFPL IC)