Dal disegno 2D al G-code: il framework Image2Gcode di Carnegie Mellon

Un gruppo di ricercatori della Carnegie Mellon University – Ziyue Wang, Yayati Jadhav, Peter Pak e Amir Barati Farimani – ha presentato Image2Gcode, un framework di intelligenza artificiale che genera direttamente G-code pronto per la stampa partendo da una semplice immagine 2D, come uno schizzo o una fotografia. L’obiettivo è eliminare una parte consistente della pipeline tradizionale di manifattura additiva a estrusione (MEX), dove il passaggio obbligato attraverso CAD, mesh STL e slicer rappresenta spesso il vero collo di bottiglia, soprattutto per chi deve iterare rapidamente sul design.

Invece di partire da un modello CAD completo, Image2Gcode lavora direttamente su un input visivo bidimensionale e produce traiettorie di estrusione strutturate: il risultato finale è un file G-code che può essere inviato direttamente alla stampante, con la possibilità di adattare scala e parametri senza dover riaddestrare il modello.


Perché togliere il CAD dalla pipeline di stampa 3D

Nella catena classica della progettazione meccanica e della stampa 3D FFF/FDM, la sequenza è chiara: idea → CAD → STL → slicing → G-code. Ogni step richiede strumenti diversi, competenze specifiche e una curva di apprendimento che scoraggia molti potenziali utilizzatori. Piccole variazioni di geometria o di spessore richiedono modifiche manuali al modello 3D e un nuovo slicing, con tempi che mal si conciliano con prototipazione rapida, riparazioni in campo o produzione distribuita.

Image2Gcode nasce proprio per ridurre questa complessità:

  • accetta come input uno schizzo a mano, un disegno tecnico o la foto di un oggetto;

  • estrae dalle immagini le informazioni strutturali essenziali;

  • genera le traiettorie di estrusione strato per strato, senza passare da file STL o mesh intermedie;

  • produce un G-code compatibile con stampanti a estrusione di materiale, riducendo il numero di strumenti software necessari nel workflow.

Per maker, laboratori universitari, service e aziende che operano su serie corte, questo tipo di approccio può abbassare sensibilmente la barriera di ingresso alla stampa 3D: chi sa disegnare o ha una foto del componente da replicare può arrivare più velocemente al pezzo fisico, senza dover padroneggiare un CAD parametrico complesso.


L’architettura: DINOv2 come encoder visivo e modello di diffusione 1D per il G-code

Il cuore di Image2Gcode è una combinazione di vision transformer e modello di diffusione:

  • come encoder visivo i ricercatori usano DINOv2-Small, un modello auto-supervisionato che produce embedding a 384 dimensioni e include 12 layer transformer con patch di 14×14 pixel. Questo consente di estrarre feature gerarchiche dell’immagine – bordi, contorni, regioni di infill – che guidano la generazione del percorso utensile;

  • sul lato G-code, il sistema adotta una U-Net 1D per la diffusione, condizionata tramite cross-attention multi-scala sulle feature prodotte da DINOv2;

  • l’addestramento avviene come classico Denoising Diffusion Probabilistic Model (DDPM): si parte da rumore gaussiano e, attraverso circa 500 step di diffusione, il modello apprende a “pulire” il rumore fino a ottenere una sequenza ordinata di comandi di movimento ed estrusione.

Dal punto di vista pratico, il G-code viene trattato come una sequenza monodimensionale di token (spostamenti, comandi di estrusione, cambi layer, ecc.), su cui il modello di diffusione impara pattern e vincoli geometrici:

  • continuità delle traiettorie;

  • sovrapposizione corretta tra i layer;

  • gestione di contorni, riempimenti e travel moves.

L’implementazione è basata su PyTorch, con addestramento per circa 800 epoche usando l’ottimizzatore AdamW e schemi di noise schedule a coseno su 500 passi di diffusione. Normalizzazioni dedicate sui canali spaziali ed estrusione stabilizzano il training e rendono il modello più robusto a diverse configurazioni di stampante.


Slice-100K: il dataset multimodale che collega CAD, G-code e immagini

Per addestrare e validare Image2Gcode, il team utilizza il dataset Slice-100K, una risorsa multimodale che contiene oltre 100.000 coppie allineate STL–G-code, con relative viste renderizzate, proprietà geometriche e metadati.

Ogni campione del dataset include:

  • il modello CAD triangolato (mesh STL);

  • il file G-code generato tramite slicing;

  • una immagine slice-wise della sezione;

  • informazioni su geometria, categorie, parametri di slicing.

Per Image2Gcode, i ricercatori considerano il problema layer per layer:

  • ogni strato viene trattato come un compito autonomo di generazione 2D → traiettoria;

  • questo riduce la complessità rispetto alla generazione diretta 3D del volume completo, pur mantenendo coerenza geometrica su altezze di layer variabili.

Slice-100K è stato costruito a partire da grandi collezioni di modelli come Objaverse-XL e Thingi10K, con procedure di filtraggio e slicing automatico; è pensato come base per lo sviluppo di foundation model per la fabbricazione digitale, inclusi modelli di linguaggio addestrati direttamente sul G-code.

Per il framework di Carnegie Mellon, questo dataset fornisce:

  • diversità di geometrie (dai piccoli componenti a forme complesse);

  • ricchezza di stili di infill e shell;

  • una base di esempi sufficiente a far emergere pattern generali di pianificazione del percorso.


Prestazioni: toolpath stampabile, generalizzazione e riduzione dei tempi di viaggio

Sul validation set di Slice-100K, Image2Gcode dimostra di saper generare toolpath geometricamente consistenti e stampabili, con risultati fisici confrontabili con quelli ottenuti tramite slicer tradizionali. I test di stampa mostrano:

  • buon legame interlayer e adesione tra i filamenti;

  • contorni precisi e superfici relativamente uniformi;

  • riproduzione di pattern di riempimento complessi (rettilineare, honeycomb, hatching diagonale) senza regole codificate a mano.

Dal punto di vista quantitativo, i ricercatori riportano una riduzione media del 2,4% della distanza di viaggio rispetto a baseline basate su slicer euristici, senza penalizzare qualità superficiale o resistenza meccanica. È un miglioramento moderato, ma significativo perché ottenuto unicamente tramite apprendimento dai dati, senza ottimizzazioni dedicate.

Per valutare la generalizzazione, il team stampa anche oggetti reali partendo da:

  • fotografie di componenti fisici;

  • schizzi disegnati a mano, con bordi imperfetti e rumore visivo.

Dopo una fase di preprocessing (estrazione dei contorni e pulizia dell’immagine), Image2Gcode riesce a produrre G-code stampabile, mantenendo la forma globale e la funzionalità dell’oggetto. Questo suggerisce che le feature di DINOv2 riescono a colmare il divario tra immagini sintetiche derivate dalle slice e input del mondo reale.


Un problema a soluzioni multiple: variabilità degli infill e limiti attuali

La generazione di traiettorie di estrusione è, per natura, un problema a molte soluzioni: per una stessa geometria sono possibili diversi pattern di riempimento e strategie di shell, tutti validi dal punto di vista strutturale. Image2Gcode apprende questa variabilità intrinseca:

  • per la stessa sezione, il modello può proporre infill rettilineari, diagonali o ibridi;

  • può sostituire pattern concentrici con hatching inclinato mantenendo copertura e stampabilità;

  • le traiettorie variano nei dettagli ma rispettano vincoli geometrici e di continuità.

Gli autori sottolineano anche i limiti della formulazione attuale:

  • il modello ragiona strato per strato, con consapevolezza limitata delle dipendenze 3D tra layer, come cavità interne, strutture a sbalzo o canali complessi;

  • non esiste ancora un controllo esplicito su parametri di progetto come densità di infill, prestazioni meccaniche mirate, consumo di materiale o tempi di stampa;

  • il framework non sostituisce l’intero ecosistema CAD/slicer, ma si propone come blocco fondamentale per pipeline più ricche.

Tra i possibili sviluppi futuri, i ricercatori propongono:

  • una generazione gerarchica 3D, in cui un modello globale definisce sezioni chiave e Image2Gcode rifinisce i layer locali;

  • condizionamento esplicito su proprietà target (rigidezza, tempo di stampa, peso del componente);

  • integrazione con framework di controllo e monitoraggio come sistemi multi-agente basati su modelli linguistici, studiati per il controllo adattivo della stampa e la rilevazione di difetti in linea.


Collegamenti con altri sviluppi: dall’ottimizzazione del G-code ai nuovi formati di controllo

Image2Gcode si inserisce in una tendenza più ampia in cui AI e data-driven engineering iniziano a intervenire a livello di G-code:

  • dataset come Slice-100K vengono usati per addestrare modelli di linguaggio in grado di tradurre tra dialetti di G-code e per analizzare pattern di stampa su larga scala;

  • aziende come AON3D propongono moduli di ottimizzazione “consapevoli della fisica” che modificano il G-code a valle dello slicing per ridurre i tempi di lavoro senza degradare proprietà meccaniche;

  • altri gruppi di ricerca, come quelli che studiano formati alternativi al G-code, esplorano rappresentazioni più continue del processo di stampa, basate su timeline invece che su comandi discreti.

In questo panorama, il contributo della Carnegie Mellon University con Image2Gcode è quello di proporre un collegamento diretto tra rappresentazione visiva e traiettoria macchina, trasformando l’immagine – anziché il CAD – nel punto centrale dell’intera pipeline.


Implicazioni per industria, ricerca e applicazioni pratiche

Per l’industria e i service di stampa 3D, un framework come Image2Gcode apre alcuni scenari interessanti:

  • Prototipazione rapida “dal quaderno alla stampante”
    Designer e ingegneri potrebbero passare da uno sketch di concetto alla stampa di un mock-up funzionale senza dover modellare ogni dettaglio in CAD, soprattutto nelle prime fasi di esplorazione.

  • Riparazioni e ricambi in campo
    In contesti di manutenzione – officine, linee produttive, ambito militare – poter ricavare G-code da foto di componenti danneggiati o da schemi tecnici potrebbe ridurre tempi di fermo impianto.

  • Produzione distribuita e fablab
    In reti di fablab o micro-fabbriche, strumenti che generano G-code da immagini rendono più accessibile la produzione locale, anche a operatori con competenze CAD limitate.

  • Ricerca su nuovi criteri di slicing
    Utilizzando Image2Gcode come “motore generativo”, i ricercatori possono studiare diversi compromessi tra velocità, qualità superficiale e robustezza, confrontando toolpath appresi rispetto a quelli tradizionali degli slicer.

Allo stesso tempo, il framework non elimina la necessità di validazione tecnica: per applicazioni critiche (aerospazio, medicale, automotive) restano essenziali controlli su tolleranze, ripetibilità, certificazioni di processo.


 

{ "slotId": "", "unitType": "responsive", "pubId": "pub-7805201604771823", "resize": "auto" }

Di Fantasy

Lascia un commento