TRELLIS.2 è un progetto open source per la generazione image-to-3D: partendo da una singola immagine 2D, il sistema produce un asset 3D completo di geometria e informazioni di materiale. Il lavoro nasce nell’orbita di Microsoft Research e coinvolge anche ricercatori di Tsinghua University e della University of Science and Technology of China (USTC), con contributi da Microsoft AI.

Dall’immagine 2D all’asset 3D con materiali PBR
Un punto centrale di TRELLIS.2 è che l’output non si limita alla forma: il modello genera anche parametri di Physically Based Rendering (PBR), cioè attributi di materiale pensati per un rendering coerente con la fisica della luce. In pratica vengono prodotti canali come Base Color, Metallic, Roughness e Opacity/Alpha (trasparenza), utili per asset destinati a visualizzazione, AR/VR e pipeline 3D moderne (ad esempio con materiali PBR tipici dei formati come glTF).

O-Voxel: una rappresentazione “field-free” che unisce geometria e aspetto
Per gestire casi difficili (superfici aperte, geometrie non-manifold, strutture interne chiuse), TRELLIS.2 introduce O-Voxel (Omni-Voxel), una struttura voxel sparsa che memorizza insieme forma e attributi di materiale solo dove l’oggetto “esiste” nello spazio, evitando di riempire un intero volume con dati inutili. L’idea dichiarata nel paper è superare alcuni limiti di rappresentazioni basate su iso-superfici/field (ad esempio SDF) quando entrano in gioco topologie “scomode” come superfici aperte o non-manifold.

Flexible Dual Grid: perché può rappresentare topologie non standard
Sul versante geometrico, O-Voxel usa un approccio definito Flexible Dual Grid: la superficie viene ricostruita tramite una griglia “duale” che può adattarsi a topologie arbitrarie, includendo sia superfici chiuse sia aperte e casi non-manifold. Questo dettaglio conta perché molti workflow “puliti” in CAD assumono mesh manifold e watertight, mentre nel mondo reale (scansioni, asset da dataset, contenuti generati) queste ipotesi saltano spesso.

SC-VAE e latenti compatti: 16× di compressione e ~9.6K token a 1024³
Per rendere la generazione gestibile a risoluzioni elevate, TRELLIS.2 comprime i dati O-Voxel con un Sparse Compression VAE (SC-VAE). La documentazione del progetto indica una compressione spaziale 16× e, come ordine di grandezza, la codifica di un asset texturizzato a 1024³ in circa 9.600 latent tokens, con degrado percettivo limitato nella ricostruzione. Questo è il passaggio che abilita un modello generativo “grande” senza far esplodere memoria e tempi.

Pipeline di generazione: struttura sparsa, geometria, materiali
La generazione viene descritta come una pipeline in più fasi: prima si determina la struttura sparsa (dove attivare i voxel), poi si sintetizza la geometria, infine si generano le informazioni di materiale. Questa separazione è coerente con l’obiettivo di controllare meglio la qualità: la forma ha vincoli diversi dall’aspetto e, in molti sistemi 3D, la parte “material/texture” è proprio quella che introduce incoerenze tra viste o richiede baking complessi.

Prestazioni dichiarate: 512³, 1024³, 1536³ su NVIDIA H100
Sia l’articolo di 3Druck.com sia la project page riportano tempi indicativi di inferenza su NVIDIA H100: circa 3 s a 512³, 17 s a 1024³ e 60 s a 1536³, considerando la generazione complessiva di forma + materiale (con breakdown indicato nella pagina del progetto). Sono numeri presentati come riferimento hardware-specifico, utili per capire l’ordine di grandezza più che come promessa universale.

Conversioni “bidirezionali” mesh ↔ O-Voxel senza rendering e senza ottimizzazione
Un altro elemento operativo citato dal team è la possibilità di convertire rapidamente una mesh texturizzata in O-Voxel e tornare indietro. La project page e il paper parlano di conversioni senza rendering e senza ottimizzazione iterativa; come indicazione prestazionale si menziona la trasformazione Textured Mesh → O-Voxel in meno di ~10 secondi su CPU singola e la ricostruzione O-Voxel → Textured Mesh in tempi dell’ordine dei millisecondi con accelerazione CUDA (valori dichiarati come target/benchmark del progetto).

Codice, licenza e requisiti pratici per provarlo
Il repository ufficiale è pubblicato su GitHub sotto MIT license. Nelle istruzioni viene indicato che il codice è testato su Linux e che serve una GPU NVIDIA con almeno 24 GB di memoria (verificato su A100 e H100). Tra i prerequisiti vengono citati anche Python ≥ 3.8 e la necessità di una toolchain CUDA (con una versione raccomandata riportata nelle note del repo).

Demo e componenti rilasciati
Oltre al codice, il progetto rimanda a una demo su Hugging Face Spaces. In generale, l’impostazione è quella di rendere riproducibile la pipeline (paper + codice + demo), con l’obiettivo esplicito di facilitare sperimentazione e confronto su generazione 3D ad alta risoluzione con materiali.

Limiti dichiarati: dettagli sotto voxel, aliasing e piccoli “buchi”
Tra i limiti citati compaiono effetti tipici di approcci voxel: aliasing su dettagli più fini della dimensione del voxel e la comparsa occasionale di piccoli fori nelle mesh risultanti, che possono richiedere una fase di riparazione/clean-up con strumenti standard di post-processing mesh. Questo è un punto importante soprattutto se l’asset deve diventare geometria “produttiva” e non solo un modello da visualizzare.

Cosa significa per chi fa stampa 3D: un workflow realistico
Per la stampa 3D (FDM/FFF, resina o metallo) il requisito pratico resta avere una mesh adatta allo slicing: spesso chiusa (watertight), con spessori minimi sensati e senza autointersezioni problematiche. TRELLIS.2 dichiara di saper rappresentare anche superfici aperte e non-manifold perché punta a coprire un insieme ampio di asset 3D; però “rappresentabile” non coincide automaticamente con “stampabile”. L’uso più concreto, oggi, è trattarlo come punto di partenza: generazione dell’asset, verifica topologia, riparazione (se serve), eventuale solidificazione/spessore, poi slicing.

Responsible AI e note d’uso sui materiali rilasciati
La pagina del progetto include anche una sezione su Responsible AI (dataset pubblici, attenzione a PII/harmful content ma possibili bias) e un material disclaimer: i materiali messi a disposizione sono indicati come destinati a scopi accademici e di ricerca, con indicazioni su come segnalare eventuali problemi di proprietà intellettuale.

Di Fantasy

Lascia un commento