Apple ha rilasciato oggi diversi modelli LLM (Large Language Model) open source progettati per essere eseguiti sul dispositivo anziché tramite server cloud. Chiamati OpenELM (Open Source Efficient Language Models), i programmi LLM sono disponibili su Il fulcro del viso che abbracciauna comunità per la condivisione del codice AI.
Come mostrato nel Libro bianco [PDF]Esistono otto modelli OpenELM in totale, quattro dei quali sono pre-addestrati utilizzando la libreria CoreNet e quattro sono modelli ottimizzati per le istruzioni. Apple utilizza una strategia di ridimensionamento dei livelli volta a migliorare la precisione e l'efficienza.
Apple ha fornito codice, registri di addestramento e versioni multiple anziché solo il modello di addestramento finale, e i ricercatori dietro il progetto sperano che ciò porti a progressi più rapidi e “risultati più affidabili” nel campo dell’intelligenza artificiale con linguaggio naturale.
OpenELM, un modello linguistico aperto in evoluzione. OpenELM utilizza una strategia di ridimensionamento dei livelli per allocare in modo efficiente i parametri all'interno di ciascun livello del modello del trasformatore, con conseguente maggiore precisione. Ad esempio, con un budget di parametri di circa 1 miliardo, OpenELM mostra un miglioramento della precisione del 2,36% rispetto a OLMo, richiedendo al tempo stesso il doppio dei token per il pre-addestramento.
Allontanandosi dalle pratiche precedenti che fornivano solo pesi del modello, codice di inferenza e pre-addestramento su set di dati privati, la nostra versione include il framework completo per l'addestramento e la valutazione del modello linguistico su set di dati disponibili pubblicamente, inclusi registri di addestramento, checkpoint multipli e pre-addestramento. punti. Configurazioni di allenamento.
Apple afferma che sta lanciando modelli OpenELM per “potenziare e arricchire la comunità di ricerca aperta” con modelli linguistici all’avanguardia. La condivisione di modelli open source offre ai ricercatori un modo per indagare su rischi, dati e bias dei modelli. Gli sviluppatori e le aziende possono utilizzare i modelli così come sono o apportarvi modifiche.
La condivisione aperta delle informazioni è diventata uno strumento importante per Apple per reclutare i migliori ingegneri, scienziati ed esperti perché offre opportunità per documenti di ricerca che normalmente non sarebbero stati pubblicati in base alle politiche di riservatezza di Apple.
Apple deve ancora portare questo tipo di funzionalità IA sui suoi dispositivi, ma si prevede che iOS 18 includa una serie di nuove funzionalità IA e le voci suggeriscono che Apple prevede di eseguire i propri modelli linguistici di grandi dimensioni sul dispositivo per motivi di privacy.
“Esperto di Internet. Lettore. Fanatico della TV. Comunicatore amichevole. Esperto di alcolisti certificato. Appassionato di pancetta. Esploratore. Evil twitteraholic.”