MIT sviluppa VideoCAD: il dataset che insegna all’AI a usare il CAD per arrivare più velocemente al file di stampa 3D

Il problema: il CAD come collo di bottiglia nei flussi di stampa 3D

Per chi lavora con la stampa 3D, il modello CAD è spesso il vero collo di bottiglia. Prima del G-code, prima della scelta di materiale e parametri, c’è sempre una fase di modellazione complessa: schizzi, vincoli, estrusioni, fillet, smussi, varianti dimensionali. Le interfacce dei software professionali – da Onshape a Fusion 360, fino a Solidworks – offrono migliaia di comandi e menù annidati, con una curva di apprendimento ripida anche per chi ha una formazione tecnica.

In questo contesto, il team del MIT ha scelto di attaccare il problema in modo diretto: insegnare a un agente di intelligenza artificiale non a “generare mesh” in astratto, ma a usare il CAD come farebbe un progettista umano, cliccando pulsanti, scegliendo piani di schizzo, tracciando linee e lanciando estrusioni. L’obiettivo dichiarato è chiaro: ridurre il tempo che separa una semplice idea – spesso una bozza 2D – da un file STL o STEP pulito e stampabile.

VideoCAD: 41.000 video per insegnare all’AI a cliccare come un progettista

Per arrivare a questo risultato, i ricercatori del MIT hanno creato VideoCAD, un dataset pensato specificamente per l’apprendimento delle interazioni utente in ambiente CAD. A differenza di molti dataset di interfacce grafiche, dove si registrano singoli click o brevi task su app e pagine web, VideoCAD contiene:

  • oltre 41.000 sessioni di modellazione complete;

  • per ciascuna sessione, un video ad alta risoluzione che mostra la costruzione del pezzo in tempo reale;

  • un log dettagliato delle azioni di interfaccia: movimento del mouse, clic, scroll, tasti premuti, valori numerici digitati;

  • l’immagine target del modello finito, vista in isometria.

Ogni video non è una semplice registrazione “passiva”: è legato a una sequenza strutturata di comandi CAD – schizzi, vincoli, estrusioni – ricostruita a partire da modelli parametrici esistenti. Il risultato è un dataset che non si limita a mostrare l’interfaccia, ma espone la logica temporale con cui un modello 3D viene effettivamente costruito.

Dai modelli parametrici all’interfaccia: il ponte con DeepCAD

La base geometrica di VideoCAD arriva da DeepCAD, un grande archivio di modelli parametrici creati da progettisti umani. Ogni modello include la sua “storia di costruzione”: schizzi 2D, operazioni di estrusione, operazioni booleane, modifiche successive.

Il passo chiave del lavoro del MIT è trasformare questa storia astratta in una sequenza di azioni reali sull’interfaccia di Onshape, un CAD cloud-based accessibile da browser. Il processo, semplificando, segue tre fasi principali:

  1. Traduzione del workflow CAD
    Le sequenze di DeepCAD (schizzi ed estrusioni) vengono convertite in istruzioni di alto livello compatibili con Onshape: definizione del piano di schizzo, disegno delle primitive (linee, archi, cerchi), applicazione di vincoli e quote, lancio dell’estrusione con parametri ben definiti.

  2. Esecuzione automatica in Onshape
    Le istruzioni ad alto livello vengono eseguite nel CAD usando una combinazione di automazione DOM (per menù, pannelli e form) e simulazione di input a livello di pixel (per le aree di disegno). In pratica, uno script “pilota” Onshape muovendo il mouse, cliccando sui piani, tracciando segmenti e impostando profondità e direzioni di estrusione, come farebbe un utente.

  3. Registrazione e filtraggio dei risultati
    Durante l’esecuzione, il sistema registra il video a 60 fps e logga tutte le azioni di interfaccia. A fine sequenza, il modello risultante viene confrontato con il modello di riferimento; se la corrispondenza non è sufficientemente buona, il video viene scartato. Solo le sessioni in cui il modello finale rispecchia quello originale entrano in VideoCAD.

In questo modo, ogni elemento del dataset non è solo “un video di qualcuno che disegna”, ma una dimostrazione consistente di come costruire un pezzo CAD complesso a partire da una sequenza coerente di azioni.

VideoCADFormer: il modello che impara sequenze CAD a lungo orizzonte

Su VideoCAD, il team guidato da Faez Ahmed ha addestrato VideoCADFormer, un modello di tipo transformer pensato per gestire sequenze lunghe di azioni. L’idea è trattare l’interazione con il CAD come un processo decisionale sequenziale:

  • l’agente osserva due tipi di informazioni visive:

    • lo stato corrente dell’interfaccia (il modello parziale, i menù aperti, il puntatore);

    • l’immagine target del modello da raggiungere;

  • riceve in ingresso anche la storia delle azioni già eseguite (gli ultimi comandi lanciati, i parametri impostati);

  • a ogni passo deve decidere il prossimo comando (per esempio “traccia linea”, “seleziona piano”, “estrudi”) e i relativi parametri (coordinate sullo schermo, valori delle quote, profondità di estrusione).

In addestramento, il modello impara per comportamento imitativo: date le stesse osservazioni, deve riprodurre le azioni che compaiono nei video di riferimento. Con il tempo diventa in grado non solo di copiare, ma di generalizzare a modelli mai visti, pianificando sequenze che portano a forme nuove a partire da schizzi e obiettivi diversi.

Risultati: verso un “CAD co-pilot” più che verso il CAD a pulsante unico

Nei test di valutazione, VideoCADFormer mostra di saper gestire sequenze molto lunghe, con centinaia di azioni successive, mantenendo una coerenza superiore rispetto ad altri modelli addestrati su interfacce generiche. Ciò si traduce in:

  • maggior percentuale di sequenze in cui tutte le azioni previste corrispondono a quelle “corrette”;

  • minore numero di modelli finali geometricamente non validi o troppo diversi dal target;

  • maggior robustezza quando aumenta la complessità del pezzo (più schizzi, più estrusioni, più superfici da gestire).

Gli stessi ricercatori sottolineano però che non si tratta di un CAD completamente automatico: il sistema non sostituisce il progettista, ma si avvicina al ruolo di assistente in grado di:

  • completare operazioni ripetitive o schematiche (pattern di fori, smussi ricorrenti, raccordi standard);

  • proporre sequenze di comandi per arrivare a una certa geometria a partire da schizzi parziali;

  • ridurre il tempo necessario per ricostruire varianti di una stessa parte con misure diverse.

Per chi lavora con la stampa 3D, questo tipo di automazione riguarda esattamente la porzione di lavoro più lenta e meno creativa: preparare il modello in modo rigoroso, ripetibile e compatibile con i vincoli di fabbricazione.

Impatto sui flussi di lavoro della produzione additiva

L’interesse del mondo della stampa 3D per un progetto come VideoCAD è evidente. Molte aziende di additive manufacturing hanno già ottimizzato i passaggi a valle del CAD – slicing, nesting, gestione delle code, monitoraggio del processo – mentre la fase di progettazione resta spesso un’attività manuale e ad alta intensità di lavoro umano.

Un agente capace di usare il CAD “come un operatore esperto” potrebbe, in prospettiva:

  • automatizzare la preparazione per la stampa: aggiunta di smussi, raccordi, rinforzi, modifiche di spessore in aree critiche;

  • gestire varianti di prodotto: ad esempio, generare serie di supporti, staffe o attrezzaggi con parametri modificati per macchine diverse o per lotti personalizzati;

  • supportare la formazione: mostrando sequenze passo-passo per costruire certi tipi di geometrie, come un tutorial dinamico incorporato nel CAD.

In un contesto di service di stampa 3D o di reparto interno AM, dove si ricevono continuamente file STEP, schizzi o anche semplici screenshot da trasformare in pezzi stampabili, un “co-pilot CAD” potrebbe ridurre sensibilmente tempi di risposta e colli di bottiglia.

Limiti attuali e passi successivi

Il lavoro del MIT pone le basi, ma evidenzia anche alcuni limiti importanti:

  • VideoCAD lavora oggi su un solo CAD commerciale (Onshape), con un focus forte su workflow basati su schizzo + estrusione.

  • Le sequenze del dataset, pur basate su modelli reali, sono generate da uno script; manca ancora la varietà delle vere sessioni umane, con errori, ripensamenti, scorciatoie e stili personali.

  • Funzionalità tipiche di molti progetti AM – ad esempio gestione di grandi assiemi, strutture reticolari avanzate, integrazione con ottimizzazione topologica – non sono ancora coperte da questo agente.

I ricercatori indicano già alcune direzioni di sviluppo:

  • includere altri sistemi CAD molto diffusi in ambito industriale;

  • estendere il dataset a operazioni avanzate (fillet complessi, sweep, loft, vincoli tra parti);

  • raccogliere e integrare sessioni reali di progettisti umani, per catturare stili d’uso meno “ideali” ma più vicini alla pratica quotidiana.

Nonostante questi limiti, VideoCAD dimostra che è possibile addestrare un modello che non si limita a “sputare una mesh”, ma impara la grammatica dell’interfaccia CAD. Per la produzione additiva, dove il tempo di preparazione dei modelli è spesso un costo nascosto, è un segnale concreto che i futuri strumenti AI potrebbero inserirsi direttamente nei software già usati in azienda, anziché sostituirli.


 

{ "slotId": "", "unitType": "responsive", "pubId": "pub-7805201604771823", "resize": "auto" }

Di Fantasy

Lascia un commento