I ricercatori NVIDIA addestrano DIB-R AI per creare modelli stampabili 3D da immagini 2D in millisecondi
Parte di Kaolin, la nuovissima libreria PyTorch per l’apprendimento profondo 3D di NVIDIA
L’inventore del processore grafico nVidia ha recentemente esaminato molto più da vicino la stampa 3D , specialmente quando i sistemi di intelligenza artificiale basati su GPU diventano sempre più rilevanti per comprendere e gestire l’enorme quantità di dati che vanno alla digitalizzazione del mondo fisico. NVidia ha lavorato con Dyndrite nella gestione dei dati AM . Ora i suoi stessi ricercatori hanno sviluppato il framework DIB-R AI per creare rapidamente modelli 3D da immagini piatte.
I modelli di apprendimento automatico devono essere in grado di vedere gli oggetti in tre dimensioni in modo da poter comprendere con precisione i dati delle immagini. I ricercatori di NVIDIA hanno ora reso possibile tutto ciò creando il framework di rendering chiamato DIB-R – un renderizzatore differenziabile basato su interpolazione – che produce oggetti 3D da immagini 2D.
I ricercatori hanno presentato il loro modello alla conferenza annuale sui sistemi di elaborazione delle informazioni neurali (NeurIPS), a Vancouver. La loro ricerca è stata anche pubblicata in un documento intitolato “Imparare a prevedere gli oggetti 3D con un renderer differenziabile basato su interpolazione” .
DIB-RNella computer grafica tradizionale, una pipeline esegue il rendering di un modello 3D su uno schermo 2D. Ma ci sono informazioni da ottenere facendo il contrario: un modello che potrebbe dedurre un oggetto 3D da un’immagine 2D sarebbe in grado di eseguire un migliore tracciamento degli oggetti, ad esempio.
I ricercatori di NVIDIA volevano costruire un’architettura che potesse farlo integrandosi perfettamente con le tecniche di apprendimento automatico. Il risultato, DIB-R, produce rendering ad alta fedeltà utilizzando un’architettura encoder-decoder, un tipo di rete neurale che trasforma l’input in una mappa caratteristica o vettore che viene utilizzato per prevedere informazioni specifiche come forma, colore, trama e illuminazione di un’immagine.
È particolarmente utile quando si tratta di campi come la robotica. Perché un robot autonomo possa interagire in modo sicuro ed efficiente con il proprio ambiente, deve essere in grado di percepire e comprendere ciò che lo circonda. DIB-R potrebbe potenzialmente migliorare quelle capacità di percezione della profondità.
Ci vogliono due giorni per addestrare il modello su una singola GPU NVIDIA V100, mentre occorrerebbero diverse settimane per allenarsi senza GPU NVIDIA. A quel punto, DIB-R può produrre un oggetto 3D da un’immagine 2D in meno di 100 millisecondi. Lo fa modificando una sfera poligonale – il modello tradizionale che rappresenta una forma 3D. DIB-R lo altera in modo che corrisponda alla forma dell’oggetto reale rappresentata nelle immagini 2D.
Il team ha testato DIB-R su quattro immagini 2D di uccelli (all’estrema sinistra). Il primo esperimento ha usato l’immagine di un warbler giallo (in alto a sinistra) e ha prodotto un oggetto 3D (due file in alto).
I ricercatori di NVIDIA hanno addestrato il loro modello su diversi set di dati, tra cui una raccolta di immagini di uccelli. Dopo l’allenamento, DIB-R potrebbe catturare l’immagine di un uccello e produrre una rappresentazione 3D con la forma e la consistenza appropriate di un uccello 3D.
“Questa è essenzialmente la prima volta in assoluto in cui è possibile acquisire praticamente qualsiasi immagine 2D e prevedere proprietà 3D rilevanti”, afferma Jun Gao, uno dei team di ricercatori che hanno collaborato a DIB-R.
DIB-R può trasformare immagini 2D di animali estinti a lungo come un Tyrannosaurus rex o un uccello Dodo paffuto in un’immagine 3D realistica in meno di un secondo.
Costruito su PyTorch, un framework di machine learning, DIB-R è incluso come parte di Kaolin, la nuovissima libreria PyTorch 3D di deep learning di NVIDIA che accelera la ricerca di deep learning 3D.
L’intero documento di ricerca NVIDIA, “Imparare a prevedere gli oggetti 3D con un renderer basato sull’interpolazione”, è disponibile qui. Il team di ricerca NVIDIA è composto da oltre 200 scienziati in tutto il mondo, concentrandosi su aree quali AI, computer vision, auto a guida autonoma, robotica e grafica.