OpenAI utilizza YouTube per “addestrare” GPT-4
Aprile 07, 2024Secondo un rapporto del New York Times, OpenAI avrebbe trascritto oltre un milione di ore di video di YouTube per addestrare GPT-4
Ben trovati amici di TuttoYouTube, in questo articolo torniamo a parlare di Intelligenza Artificiale, nello specifico di come inizierà l’ “Addestramento” OpenAI. All’inizio di questa settimana, il Wall Street Journal ha riportato che le aziende nell’ambito dell’intelligenza artificiale si sono scontrate con ostacoli nel reperire dati di addestramento di alta qualità. Oggi, il New York Times ha dettagliato alcuni degli approcci adottati dalle aziende per affrontare questa problematica. Non sorprende che ciò coinvolga attività che si collocano in una zona grigia della legge sul copyright relativa all’IA.
Il racconto prende avvio con OpenAI, la quale, nella sua frenetica ricerca di dati di formazione, avrebbe creato il suo modello di trascrizione audio denominato Whisper per superare l’ostacolo, trascrivendo oltre un milione di ore di video da YouTube per addestrare GPT-4, il suo modello linguistico di grandi dimensioni più avanzato. Questo è quanto riportato dal New York Times, il quale indica che l’azienda era consapevole dell’aspetto discutibile dal punto di vista legale, ma riteneva che fosse nell’ambito del fair use. Il presidente di OpenAI, Greg Brockman, è stato personalmente coinvolto nella raccolta dei video utilizzati, secondo quanto scrive il Times.
Il portavoce di OpenAI, Lindsay Held, ha dichiarato a The Verge tramite e-mail che l’azienda cura set di dati “unici” per ciascuno dei suoi modelli al fine di “favorire la loro comprensione del mondo” e mantenere la propria competitività globale nella ricerca. Held ha aggiunto che l’azienda utilizza “numerose fonti, incluse dati disponibili pubblicamente e partnership per dati non pubblici”, e sta cercando di generare i propri dati sintetici.
Secondo quanto riportato dall’articolo del Times, nel 2021 l’azienda avrebbe esaurito le proprie riserve di dati utili e avrebbe quindi considerato la possibilità di trascrivere video, podcast e audiolibri da YouTube dopo aver esaminato altre fonti. A quel punto, avrebbe formato i suoi modelli utilizzando dati che includevano codice informatico da Github, database delle mosse degli scacchi e contenuti dei compiti scolastici di Quizlet.
Il portavoce di Google, Matt Bryant, ha dichiarato a The Verge in un’e-mail che la società ha “visto rapporti non confermati” sull’attività di OpenAI, aggiungendo che sia i nostri file robots.txt che i Termini di servizio vietano lo scraping o il download non autorizzato di contenuti di YouTube”, facendo eco ai termini di utilizzo dell’azienda. Il CEO di YouTube, Neal Mohan, ha detto cose simili sulla possibilità che OpenAI abbia utilizzato YouTube per addestrare il suo modello di generazione di video Sora questa settimana. Bryant ha detto che Google adotta “misure tecniche e legali” per prevenire tale uso non autorizzato “quando abbiamo una chiara base legale o tecnica per farlo”
Google ha anche raccolto trascrizioni da YouTube, secondo le fonti del Times. Bryant ha affermato che la società ha addestrato i suoi modelli “su alcuni contenuti di YouTube, in conformità con i nostri accordi con i creatori di YouTube”.Il Times scrive che l’ufficio legale di Google ha chiesto al team per la privacy dell’azienda di modificare il suo linguaggio di politica per espandere ciò che potrebbe fare con i dati dei consumatori, come i suoi strumenti per ufficio come Google Docs. Secondo quanto riferito, la nuova politica è stata rilasciata intenzionalmente il 1° luglio per sfruttare la distrazione del fine settimana festivo del Giorno dell’Indipendenza.
Nello stesso modo, Meta ha affrontato le sfide legate alla disponibilità di dati di addestramento di alta qualità e, secondo quanto riportato dal Times, il suo team di intelligenza artificiale ha discusso dei potenziali problemi legati all’uso non autorizzato di opere protette da copyright mentre collaborava con OpenAI. Dopo aver esaminato “libri, saggi, poesie e articoli di notizie in lingua inglese quasi reperibili su Internet”, sembra che l’azienda abbia considerato l’idea di adottare misure come il pagamento delle licenze per i libri o persino l’acquisizione di un grande editore in modo permanente. Inoltre, sembra che Meta abbia incontrato delle restrizioni nell’utilizzo dei dati dei consumatori a causa delle modifiche orientate alla privacy implementate in seguito allo scandalo di Cambridge Analytica.
Google, OpenAI e l’intero panorama dell’addestramento dell’IA si trovano di fronte a una rapida evaporazione dei dati di addestramento necessari per i loro modelli, i quali migliorano man mano che assorbono più informazioni. Il Journal ha riportato questa settimana che le aziende potrebbero esaurire i nuovi contenuti entro il 2028.
Conclusione
Le possibili soluzioni a questo problema, come menzionate dal Journal, includono l’addestramento dei modelli su dati “sintetici” generati dai propri modelli o l’adozione del cosiddetto “apprendimento del curriculum”, che implica l’arricchimento graduale dei modelli con dati di alta qualità in ordine, nella speranza che possano sviluppare “connessioni più intelligenti tra i concetti” utilizzando meno informazioni, ma nessuno dei due approcci è ancora stato dimostrato. Tuttavia, un’alternativa per le aziende è di utilizzare tutto ciò che riescono a reperire, indipendentemente dal fatto che abbiano il permesso o meno. Tuttavia, considerando le numerose cause legali intentate nell’ultimo anno o giù di lì, questo approccio è più che problematico.