Generazione di modelli 3D da semplici prompt di testo: il sistema Point-E di OpenAI Le cose si stanno muovendo molto rapidamente nel testo nello spazio AI del modello 3D.

La mia storia speculativa dello scorso giugno ha discusso un passo oltre il semplice software di intelligenza artificiale “testo in immagine” e ha contemplato una capacità più avanzata di “testo in 3D”. Non sapevo che sarebbe apparso nella realtà solo pochi mesi dopo. La scorsa settimana Luma AI ha rilasciato uno strumento che può letteralmente generare modelli 3D stampabili in 3D da un prompt di testo .

 
Ora OpenAI, una delle aziende leader nello spazio AI e quella che ha creato GPT e DALL-E, ha rilasciato “Point-E”, un “sistema per la generazione di nuvole di punti 3D da prompt complessi”.

Nota: una “nuvola di punti” è una raccolta di punti nello spazio 3D che rappresentano un oggetto. Possono essere facilmente convertiti in un modello mesh, come il formato STL, con molti strumenti software esistenti.

L’idea qui è che un utente possa inserire semplici richieste di testo (un “richiesta”) per ottenere un modello stampabile in 3D o uno che potrebbe essere utilizzato come risorsa 3D in un gioco. Un prompt di esempio potrebbe essere:

“Una sedia di legno vittoriana decorata, con cuscino di velluto”
Il sistema genererebbe il modello 3D in un modo simile a quello che viene fatto per creare immagini artificiali in diversi sistemi popolari, come MidJourney, DALL-E e Stable Diffusion.

 
Il modo in cui funzionano questi sistemi può essere sconcertante, ma un modo semplice per capirli è confrontarlo con qualcosa che tutti hanno visto: il completamento automatico della ricerca di Google. Durante la digitazione, il sistema tenta di prevedere le seguenti lettere e parole in base all’addestramento precedente.

Nei sistemi di generazione delle immagini iniziano solo con un’immagine disturbata e prevedono quali dovrebbero essere i pixel, più e più volte finché non appare un’immagine. Il processo si chiama “Diffusione” e spesso i risultati possono essere straordinariamente dettagliati e penetranti. Point-E fa lo stesso, tranne che in modalità 3D.

Il testo in 3D è stato fatto in precedenza, ma l’elaborazione necessaria per completare il lavoro richiede molto tempo, anche su attrezzature di grandi dimensioni. Il nuovo sistema Point-E ha un nuovo algoritmo che è molto più veloce. Secondo il documento di ricerca allegato, la velocità è “due ordini di grandezza” superiore. Tuttavia, gli autori dell’articolo ammettono che i risultati “non sono all’altezza dello stato dell’arte in termini di qualità del campione”.

Tuttavia, questo è uno straordinario passo avanti.

Guardando i risultati del campione, possiamo vedere che sono davvero grezzi, ma ci sono forme ben riconoscibili e colori appropriati. Se guardi da vicino puoi vedere che gli oggetti 3D sono in realtà raccolte di punti che sono stati espansi per simulare una struttura solida a scopo di visualizzazione.

OpenAI ha fornito il codice per Point-E per l’accesso pubblico gratuito su GitHub.

Sono forniti due modelli di formazione. Uno accetta messaggi di testo e genera modelli 3D grezzi. L’altro accetta le immagini come input e tenta di ricavarne un modello 3D. C’è anche un modello di regressione SDF per convertire le nuvole di punti generate in mesh che possono essere utilizzate nel software CAD.

Ciò significa che un numero qualsiasi di iniziative prenderà il codice e tenterà di costruire sistemi in grado di eseguire funzioni di testo in 3D di vario tipo. È probabile che alcuni svilupperanno i propri modelli di formazione che potrebbero migliorare la qualità dei risultati o concentrarsi su particolari aree di interesse.

Dove è diretto? Ci si può solo aspettare che questi sistemi aumentino gradualmente in qualità, velocità ed efficacia. Potrebbe davvero esserci un giorno nel prossimo futuro in cui puoi chiedere una parte dettagliata e un modello 3D corrispondente verrà creato quasi istantaneamente per te.

Alla velocità con cui questa tecnologia sta cambiando, potrebbe essere il mese prossimo.

Modelli 3D grezzi generati automaticamente dai messaggi di testo corrispondenti [Fonte: ArXiv

Di Fantasy

Lascia un commento