Affinché l'intelligenza artificiale realizzi il suo potenziale - per sollevare gli esseri umani da compiti banali, semplificare la vita e infine inventare soluzioni completamente nuove ai nostri problemi - i computer dovranno superarci in due cose che noi umani facciamo abbastanza bene: vedere il mondo intorno a noi e capire la nostra lingua.
Imparare a vedere e imparare a leggere sono le due cose principali di cui hanno bisogno per i computer per acquisire conoscenza. Questi campi sono chiamati visione artificiale ed elaborazione del linguaggio naturale. Questi due campi si sono evoluti in modo indipendente, ma gli ultimi studi li stanno riunendo in modi interessanti.
Negli ultimi anni, i ricercatori di Princeton e oltre hanno fatto passi da gigante in questi due campi, aprendo rapidi progressi in una varietà di applicazioni. Questa enorme trasformazione è avvenuta nell'ultimo decennio
Migliorare la nostra capacità di catturare e analizzare le immagini è una parte essenziale per portare capacità visive umane, o addirittura sovrumane, a macchine come cellulari, robot e dispositivi sanitari.
Alcuni ricercatori stanno sviluppando metodi di intelligenza artificiale per migliorare l'occhio del computer, la fotocamera. Il suo obiettivo è aiutare le fotocamere a evolversi fino al punto in cui le loro capacità visive eguagliano o superano quelle di esseri umani o animali.
All'università di Washington hanno recentemente costruito una fotocamera così piccola da avere all'incirca le dimensioni di un granello di sale. Il dispositivo è costituito da più di un milione di pali cilindrici su scala nanometrica che interagiscono con la luce per produrre un'immagine. La fotocamera combina l'elaborazione delle immagini e il software sullo stesso chip del computer.
Il team ha utilizzato l'intelligenza artificiale per ottimizzare la forma e la posizione e la posizione degli oggetti e per modulare la luce in modo da registrare l'immagine migliore quando si utilizza l'intelligenza artificiale per ricostruire e perfezionare l'immagine risultante. L'approccio del team si basa su un tipo di intelligenza artificiale nota come rete neurale artificiale, modellata sui neuroni e le connessioni del cervello, combinata con un modello della fisica del trasporto della luce. I neuroni nel modello sono in realtà algoritmi informatici chiamati nodi che raccolgono informazioni, eseguono un calcolo e producono un output.
La combinazione di modelli fisici con reti neurali artificiali è un nuovo paradigma per la progettazione di telecamere per cui potremmo essere in grado di utilizzare l'intelligenza artificiale per aprire uno spazio di progettazione completamente diverso dal punto di vista ottico.
L'intelligenza artificiale ci sta anche aiutando a vedere oggetti che non abbiamo mai visto prima, come le singole proteine, i mattoni della vita e talvolta la causa di malattie tra cui l'Alzheimer. Le proteine sono troppo piccole per essere visualizzate in dettaglio, anche con le apparecchiature più potenti. L'intelligenza artificiale potrebbe cambiarlo.
L'intelligenza artificiale non solo ci aiuta a vedere cose nuove, ma ci aiuta anche a comunicare grazie ai miglioramenti nell'elaborazione del linguaggio naturale. Questi sistemi sono alla base della capacità dei computer di tradurre le lingue, convertire il parlato in testo e rispondere alle domande vocali.
Chen sta lavorando allo sviluppo di macchine in grado di accedere alla conoscenza umana attraverso l'interazione con il linguaggio scritto e parlato, e che abbiano la capacità di comprendere, ragionare e prendere decisioni e giudizi con poca o nessuna guida esterna.
"Studio questioni fondamentali come la rappresentazione del testo nelle reti neurali, l'estrazione e la codifica delle informazioni scritte nel testo, il recupero delle informazioni rilevanti e il loro utilizzo per applicazioni a valle, come la risposta alle domande e i sistemi di dialogo", ha detto Chen.
Negli ultimi due o tre anni, il campo dell'elaborazione del linguaggio naturale si è trasformato grazie all'introduzione di modelli linguistici di grandi dimensioni (LLM), che hanno dato il via a una nuova era di interazioni aperte tra uomo e macchina tramite semplici istruzioni in linguaggio naturale. Nonostante l'entusiasmo, questi LLM possono contenere centinaia di miliardi di parametri, il che li rende mille volte più grandi dei modelli precedenti.
L'addestramento di questi modelli ha un costo finanziario e ambientale enorme e per questo è stato limitato solo a poche grandi aziende e a laboratori di ricerca ben finanziati. "Uno dei problemi principali che sto affrontando è come ridimensionare questi modelli e sviluppare soluzioni più efficienti per l'addestramento e l'adattamento di questi modelli molto grandi", ha detto Chen.
Si stanno sviluppando sistemi autonomi in grado di acquisire il linguaggio attraverso le interazioni con l'ambiente circostante. Vuole anche aumentare la capacità dei computer di recepire informazioni testuali e utilizzarle per prendere decisioni.
"La maggior parte degli attuali modelli di elaborazione del linguaggio naturale si concentra sull'apprendimento di rappresentazioni semantiche dal solo testo, ma la comprensione profonda del linguaggio naturale richiede una consapevolezza della situazione e del contesto per consentire a un sistema di intelligenza artificiale di risolvere le ambiguità, evitare i malintesi e fornire risposte appropriate.
Si sviluppano anche nuovi metodi per far sì che i computer imparino attraverso una combinazione di "fare" e "leggere", proprio come fanno gli esseri umani, in contrapposizione alla natura "per tentativi ed errori" dei paradigmi predominanti dell'intelligenza artificiale, come l'apprendimento per rinforzo, un metodo di formazione basato sulla ricompensa dei comportamenti desiderati.