Da oltre settant’anni, IBM Research inventa, esplora e immagina il futuro. Siamo stati pionieri nel campo dell’intelligenza artificiale (AI) sin dagli albori
Eravamo lì quando fu lanciata nella famosa conferenza di Dartmouth nel 1956. Solo tre anni dopo, un ricercatore IBM pioniere informatico, Arthur Samuel, coniò il termine “machine learning” ovvero apprendimento delle macchine. E da allora, il nostro sguardo si è sempre spinto verso il futuro del settore e su come metterlo in pratica.
In questi giorni è stata pubblicata una retrospettiva del 2018 che offre un’anteprima sul futuro dell’AI. Abbiamo curato la raccolta di un centinaio di articoli di IBM Research pubblicati quest’anno e scritti da ricercatori e scienziati dei nostri dodici laboratori in tutto il mondo. Questi progressi scientifici sono alla base della nostra missione di inventare la prossima serie di tecnologie di intelligenza artificiale che ci porteranno dalla “Narrow AI” di oggi a una nuova era della “Broad AI” in cui il potenziale della tecnologia potrà essere sbloccato grazie a sviluppatori, adopter a livello aziendale e utenti finali. La “Broad AI” sarà caratterizzata dalla capacità di apprendere e ragionare in modo più ampio rispetto ai vari problemi affrontati, di integrare le informazioni da più modalità e domini, presentando al tempo stesso caratteristiche di maggiore “spiegabilità”, sicurezza, equità, verificabilità e scalabilità.
Ecco alcuni dei progressi di quest’anno in tre aree chiave – nuovi metodi, scalabilità e affidabilità dell’AI – e, visto che ci concentriamo sul futuro, anche alcune previsioni su ciò che verrà.
Progressi dell’AI
• Un’AI che comprende realmente ciò che dici: IBM Research ha presentato nuovi metodi di Machine Listening Comprehension per argomentare e dibattere su determinati contenuti. Originata dal lavoro su Project Debater, questa funzionalità estende le attuali capacità dell’intelligenza artificiale di comprensione del parlato oltre le semplici attività di risposta alle domande, consentendo alle macchine di capire meglio quando le persone fanno ragionamenti.
• Se ne hai visto uno, li hai visti tutti: gli attuali metodi di AI richiedono spesso migliaia o milioni di immagini classificate per addestrare con precisione un modello di riconoscimento visivo. IBM Research ha sviluppato un nuovo metodo di apprendimento “rapido” in grado di riconoscere con precisione nuovi oggetti da pochi o addirittura un solo esempio, senza la necessità di informazioni aggiuntive o di etichettare i dati. Questa funzionalità estende l’applicabilità dell’AI a domini applicativi con scarsa disponibilità di dati.
• Lo studente diventa il maestro: due teste sono spesso meglio di una e lo stesso si può dire per agenti intelligenti. Quest’anno, i ricercatori IBM hanno presentato un innovativo framework e un algoritmo per fare in modo che un agente intelligente possa imparare da un altro e viceversa, come in un lavoro di squadra. Attraverso lo scambio di conoscenze, gli agenti sono in grado di apprendere in modo significativamente più rapido rispetto ai metodi precedenti e, in alcuni casi, possono imparare a coordinarsi laddove i metodi esistenti non riescono nell’intento.
• Domande e risposte: IBM Research ha illustrato un miglioramento significativo degli approcci AI di Question & Answer (QA) in domini aperti, con un nuovo metodo che riordina e aggrega le evidenze raccolte, per rispondere alle domande presenti in più passaggi testuali per produrre risposte più accurate. Il team ha ottenuto sostanziali miglioramenti rispetto ai precedenti approcci rispetto allo stato dell’arte dei sistemi QA su dominio aperto.
Scalabilità dell’AI
• La precisione a 8 bit accelera l’addestramento: i modelli di “deep learning” sono estremamente potenti, ma il loro addestramento richiede tipicamente considerevoli risorse computazionali. Nel 2015, IBM presentò un documento di riferimento che descriveva come addestrare i modelli di deep learning usando la precisione a 16 bit (metà della precisione a 32 bit solitamente usata) senza perdere in accuratezza. I ricercatori IBM hanno ora dimostrato per la prima volta la capacità di addestrare modelli di deep learning con solo 8 bit, salvaguardando al contempo l’accuratezza predittiva del modello, questo in tutte le principali categorie di set di dati AI, tra cui immagini, parlato e testo. Queste tecniche accelerano il tempo di addestramento per le reti neurali profonde di 2-4 volte rispetto agli odierni sistemi che basano i calcoli su una precisione a 16 bit. Sebbene in precedenza si fosse ritenuto impossibile ridurre ulteriormente la precisione per l’addestramento, prevediamo che la nostra piattaforma di addestramento a 8 bit diventerà uno standard di settore ampiamente adottato nei prossimi anni.
• Nuovo approccio alla rete neurale: BlockDrop, è un nuovo modo per accelerare le capacità di inferenza in reti neurali a molti livelli. Questo modello ha la possibilità selezionare quali strati o “blocchi” della rete profonda da considerare o ignorare per apprendere, riducendo l’elaborazione totale e conservando al tempo stesso l’accuratezza. Usando BlockDrop, si ottiene un miglioramento delle capacità inferenziali del 20%, che raggiunge il 36% per alcuni tipi di input, mantenendo la stessa accuratezza su benchmark di riferimento come la scelta della categoria top-1 nel dataset ImageNet.
• Progettazione a portata di mano: i ricercatori IBM hanno sviluppato un nuovo metodo per ridurre i tempi di disegno di un’architettura di una rete neurale. Il metodo definisce un modello architetturale basato su un pattern di base chiamato “neuro-cells” che viene evoluto e migliorato per passaggi successivi. Questo metodo innovativo permette di progettare architetture neurali che raggiungono un’eccellente precisione in attività di classificazione delle immagini, senza l’intervento umano, raggiungendo in alcuni casi un miglioramento della velocità fino a 50.000 volte maggiore rispetto ad architetture di reti neurali disegnate con altri metodi.
Affidabilità dell’AI
• La battaglia per bandire i pregiudizi: poiché i sistemi di intelligenza artificiale sono sempre più utilizzati come supporto alle decisioni, è imperativo che essi siano equi e imparziali. Tuttavia, eliminare i pregiudizi è difficile, dal momento che i dati utilizzati per addestrare i sistemi di AI spesso contengono bias e correlazioni intrinseche a livello sociale e istituzionale, elementi che i metodi di apprendimento statistico catturano e riassumono. IBM Research ha delineato un nuovo approccio per ridurre la quantità di bias; secondo questo questo approccio i dati dell’addestramento vengono trasformati in modo da ridurre al minimo la presenza di pregiudizi, in modo tale che qualsiasi algoritmo di intelligenza artificiale che successivamente imparerà da esso perpetui la minore iniquità possibile. Nell’applicare questo metodo a due grandi set di dati pubblici, il nostro team è riuscito a ridurre sostanzialmente il pregiudizio indesiderato a livello di gruppo, senza una significativa riduzione della precisione del sistema.
• Superamento dell’effetto “scatola nera”: le reti neurali organizze su molti livelli sono per molti aspetti “scatole nere”; anche quando una rete arriva a una decisione corretta, è spesso difficile capire perché sia stata presa quella decisione. Questa intrinseca mancanza di possibilità di spiegare rappresenta una barriera nella fiducia degli utenti nei confronti dei sistemi di intelligenza artificiale e rende difficile ragionare sulle potenziali modalità di insuccesso. Nel tentativo di risolvere questi problemi, gli scienziati di IBM Research hanno sviluppato una nuova metodologia di machine learning chiamata ProfWeight, che sonda una rete profonda e costruisce un modello semplificato capace di raggiungere prestazioni simili alla rete originale. In virtù della loro ridotta complessità, questi modelli semplificati possono fornire informazioni su come funzionava la rete originale e perché ha preso una decisione anziché un’altra. Nel testare questa metodologia su due enormi set di dati, il modello ProfWeight è stato in grado di produrre decisioni più spiegabili, pur mantenendo un alto livello di precisione.
• Anticipazione degli attacchi malevoli: i moderni modelli di machine learning possono raggiungere un’accuratezza di previsione senza precedenti, ma sono anche sorprendentemente vulnerabili a essere ingannati da input dannosi progettati con cura e chiamati “esempi malevoli”. Ad esempio, un hacker può alterare in modo impercettibile un’immagine in modo da ingannare un modello di deep learning e indurlo a classificarla nella categoria desiderata dall’hacker. Nuovi attacchi di questo tipo vengono sviluppati ogni giorno in un’ampia gamma di attività, dal riconoscimento vocale all’elaborazione del linguaggio naturale. Un passo fondamentale verso la salvaguardia da questi attacchi è stato fatto da IBM Research con la proposta di una nuova misura di robustezza certificata contro gli attacchi denominata CLEVER (Cross Lipschitz Extreme Value for nEtwork Robustness) che può essere utilizzata per valutare la resistenza di una rete neurale contro gli attacchi. Il punteggio CLEVER stima la “forza” di attacco minima richiesta affinché un attacco riesca a ingannare un dato modello di rete neurale, facilitando la discussione sulla sicurezza dei modelli di AI e fornendo indicazioni per individuare e difendersi dagli attacchi nei sistemi implementati.
Per quanto ci siano stati grandi progressi nel 2018, sappiamo che il prossimo anno ne porterà di ancora più ampi nel settore dell’AI.
Ecco tre tendenze che stiamo osservando:
• I modelli causali emergono sempre più rispetto a quelli basati su correlazioni: mentre l’intuizione umana è parte integrante delle nostre azioni e dei nostri giudizi quotidiani, lo stesso non si può dire per una macchina. La maggior parte dei nostri metodi di AI oggi sono basati fondamentalmente sulla scoperta di correlazioni e mancano di causalità tra fenomeni. I metodi di inferenza causale emergenti ci consentono di dedurre strutture causali dai dati, selezionare in modo efficiente gli interventi per testare le relazioni causali presunte e prendere decisioni migliori sfruttando la conoscenza della struttura causale stessa. Nel 2019, questi miglioramenti nelle tecniche di creazione di modelli causali contribuiranno a far avanzare l’AI di oggi affinché diventi più simile all’intelligenza umana e forniranno un nuovo livello di conoscenza del modello.
• Un’AI affidabile comincia a rompere l’enigmaticità della scatola nera: i progressi dell’intelligenza artificiale sono stati rallentati in gran parte perché le persone non si fidano di ciò che percepiscono come un’indecifrabile scatola nera. Quest’anno, un certo numero di organizzazioni ha risposto a questi timori istituendo comitati consultivi sull’etica, applicando l’intelligenza artificiale per il bene sociale e introducendo strumenti e funzionalità che danno alle organizzazioni fiducia nella loro capacità di comprendere e gestire i sistemi di intelligenza artificiale. Nel 2019, inizieremo a vedere il frutto di queste prime iniziative, mentre esse diventeranno centrali nel modo in cui le aziende costruiscono, addestrano e implementano le tecnologie AI. Si prevede che venga prestata particolare attenzione al trasferimento dei progressi della ricerca in questo spazio in prodotti e piattaforme reali, con un accento sulla promozione della diversità e dell’inclusione nei team tecnici, per fare in modo che molte voci e prospettive orientino il progresso tecnologico.
• Il quantum computing potrebbe accelerare la scalabilità dell’AI: nel 2019 assisteremo a un’accelerazione dell’interesse sia nella ricerca sia nella sperimentazione di sistemi di quantum computing e di come questi potranno giocare, almeno in parte, un ruolo durante la fase di training e esecuzione di modelli di intelligenza artificiale. Un elemento fondamentale degli algoritmi quantistici è nella loro capacità di sfruttare uno spazio rappresentativo e di ricerca esponenzialmente ampio, grazie alle proprietà quantistiche di entanglement e interferenze. Con l’aumentare della complessità dei problemi di intelligenza artificiale, il quantum computing, al quale migliaia di organizzazioni hanno già accesso tramite i servizi di quantum computing nel cloud di IBM, potrebbe cambiare il modo in cui modelliamo i problemi risolti con metodi di AI.