L’intelligenza artificiale impara leggendo tutto il web e costruisce il più grande Knowledge graph mai realizzato.
(contenuto tradotto da technologyreview.com)
Diffbot sta costruendo il più grande knowledge graph mai realizzato applicando il riconoscimento delle immagini e l’elaborazione del linguaggio naturale a miliardi di pagine web.
A luglio, l’ultimo modello linguistico di OpenAI, GPT-3, ha stupito per la sua capacità di sfornare paragrafi che sembrano come se fossero stati scritti da un essere umano. Le persone hanno iniziato a mostrare come GPT-3 potesse anche completare automaticamente il codice o riempire spazi vuoti nei fogli di calcolo. Ma i modelli linguistici come GPT-3 sono imitazioni straordinarie. “Sono davvero bravi a generare storie sugli unicorni”, afferma Mike Tung, CEO della startup Diffbot di Stanford. “Ma non sono addestrati per essere concreti.”
Questo è un problema se vogliamo che le IA siano affidabili. Ecco perché Diffbot adotta un approccio diverso. Sta costruendo un’intelligenza artificiale che legge ogni pagina dell’intero web pubblico, in più lingue, ed estrae quanti più fatti possibile da quelle pagine. Come GPT-3, il sistema di Diffbot impara aspirando grandi quantità di testo scritto da persone trovato online. Ma invece di usare quei dati per addestrare un modello linguistico, Diffbot trasforma ciò che legge in una serie di fatti in tre parti che mettono in relazione una cosa con un’altra: soggetto, verbo, oggetto. I grafici della conoscenza non sono nuovi. Esistono da decenni ed erano un concetto fondamentale nella prima ricerca sull’IA. Ma la costruzione e la manutenzione dei grafici della conoscenza è stata generalmente eseguita a mano, il che è difficile. Ciò ha anche impedito a Tim Berners-Lee di realizzare quello che ha chiamato il web semantico, che avrebbe incluso informazioni per le macchine oltre che per gli esseri umani, in modo che i bot potessero prenotare i nostri voli, fare i nostri acquisti o dare risposte più intelligenti alle domande rispetto ai motori di ricerca.
Cosa sono i grafici della conoscenza o knowledge graph
Alcuni anni fa, anche Google ha iniziato a utilizzare i grafici della conoscenza. Cerca “Katy Perry” e otterrai una casella accanto ai risultati di ricerca principali che ti informano che Katy Perry è una cantautrice americana con musica disponibile su YouTube, Spotify e Deezer. Puoi vedere a colpo d’occhio che è sposata con Orlando Bloom, ha 35 anni e vale 125 milioni di dollari, e così via. Invece di darti un elenco di link a pagine su Katy Perry, Google ti offre una serie di fatti su di lei tratti dal suo grafico della conoscenza. Ma Google lo fa solo per i suoi termini di ricerca più popolari. Diffbot vuole farlo per tutto. Automatizzando completamente il processo di costruzione, Diffbot è stato in grado di costruire quello che potrebbe essere il più grande knowledge graph mai realizzato. Insieme a Google e Microsoft, è una delle sole tre società statunitensi che esegue la scansione dell’intero Web pubblico. “Ha sicuramente senso eseguire la scansione del Web”, afferma Victoria Lin, ricercatrice di Salesforce che si occupa di elaborazione del linguaggio naturale e rappresentazione della conoscenza. “Altrimenti, un grande sforzo umano può essere impiegato per creare un’ampia base di conoscenze.” Heiko Paulheim dell’Università di Mannheim in Germania concorda: “L’automazione è l’unico modo per costruire grafici della conoscenza su larga scala”.
Come funziona
Per raccogliere i suoi dati, l’IA di Diffbot legge il Web come farebbe un essere umano, ma molto più velocemente. Utilizzando una versione super carica del browser Chrome, l’IA visualizza i pixel grezzi di una pagina Web e utilizza algoritmi di riconoscimento delle immagini per classificare la pagina come uno dei 20 tipi diversi, inclusi video, immagine, articolo, evento e thread di discussione. Quindi identifica gli elementi chiave sulla pagina, come titolo, autore, descrizione del prodotto o prezzo, e utilizza la PNL per estrarre fatti da qualsiasi testo. Diffbot estrae fatti da pagine scritte in qualsiasi lingua, il che significa che può rispondere a domande su Katy Perry, ad esempio, utilizzando fatti tratti da articoli in cinese o arabo anche se non contengono il termine “Katy Perry”. Navigare sul Web come un essere umano consente all’IA di vedere gli stessi fatti che vediamo noi. Significa anche che ha dovuto imparare a navigare sul web come noi. L’intelligenza artificiale deve scorrere verso il basso, passare da una scheda all’altra e fare clic sui popup.
“L’intelligenza artificiale deve giocare sul Web come un videogioco solo per visualizzare le pagine”, afferma Tung. Diffbot esegue la scansione del Web ininterrottamente e ricostruisce il proprio grafico della conoscenza ogni quattro o cinque giorni. Secondo Tung, l’intelligenza artificiale aggiunge da 100 milioni a 150 milioni di entità ogni mese quando nuove persone compaiono online, vengono create aziende e lanciati prodotti. Utilizza più algoritmi di apprendimento automatico per fondere nuovi fatti con quelli vecchi, creando nuove connessioni o sovrascrivendo quelli obsoleti. Diffbot deve aggiungere nuovo hardware al proprio data center man mano che il grafico della conoscenza cresce. I ricercatori possono accedere gratuitamente al grafico della conoscenza di Diffbot. Ma Diffbot ha anche circa 400 clienti paganti. Il motore di ricerca DuckDuckGo lo utilizza per generare i propri box simili a Google. Snapchat lo utilizza per estrarre i punti salienti dalle pagine di notizie. La popolare app di wedding planner Zola la utilizza per aiutare le persone a creare liste di nozze, inserendo immagini e prezzi. Il NASDAQ, che fornisce informazioni sul mercato azionario, lo utilizza per la ricerca finanziaria.
Di redazioneSparklingRocks