Robot che scolpiscono la sabbia con l’RL: il lavoro dell’Università di Bonn
Nel loro studio “Interactive Shaping of Granular Media Using Reinforcement Learning”, i ricercatori dell’Università di Bonn presentano un framework di apprendimento per rinforzo (RL) che addestra un braccio robotico a modellare materiali granulari come la sabbia in forme bersaglio (rettangoli, L, poligoni, “negativi” di frammenti di affresco), raggiungendo precisioni dell’ordine dei millimetri e superando due baseline classiche. Il lavoro è stato accettato a IEEE-RAS Humanoids 2025.
Contesto e obiettivo
La manipolazione di materiali granulari è rilevante per cantieristica, scavo, movimentazione suoli ed anche scenari di produzione additiva; tuttavia il comportamento collettivo delle particelle rende fragile la modellazione regola-per-regola e costose le simulazioni particellari. Gli autori propongono un’osservazione compatta (mappe di quota) e funzioni di ricompensa concise per guidare l’apprendimento di politiche visive in grado di plasmare la sabbia fino a una configurazione obiettivo.
Setup sperimentale (hardware e rappresentazione)
Il sistema usa un braccio UR5e (Universal Robots) a 6 DoF con effettore terminale cubico (2×2×15 cm) e una stereo-camera ZED 2i (Stereolabs). Le immagini di profondità vengono convertite in height map per confrontare stato corrente e obiettivo; il controllo impara incrementi del movimento dell’EE, perciò è trasferibile ad altri robot.
Algoritmo: perché TQC
Per l’RL gli autori utilizzano Truncated Quantile Critics (TQC), una variante off-policy che mitiga l’overestimation bias tramite rappresentazione distribuzionale e troncamento dei quantili, mostrando convergenza più stabile rispetto a SAC e fallimento di TD3 nel loro setting.
Benchmark e risultati quantitativi
Test su 400 shape goal mostrano che la policy DELTA ottiene 3,4 mm di differenza media di altezza nella zona obiettivo (vs 4,8 mm per il baseline di Boustrophedon Coverage Path Planning e 7,2 mm per una policy casuale), con esecuzione media 23,5 step (vs 44,0 per B-CPP). Inoltre la policy modifica ~97% delle celle rilevanti, contro ~54% del random. Le differenze sono supportate da test Mann-Whitney U.
Dal simulatore al robot reale: trasferimento zero-shot
Addestrata interamente in simulazione (MuJoCo/robosuite, Stable-Baselines3), la policy viene deployata zero-shot sul UR5e mantenendo prestazioni simili ai test simulati, a conferma della robustezza della rappresentazione a mappe di quota e del design delle ricompense.
Legami con la tutela dei beni culturali (RePAIR) e i laboratori coinvolti
Il set di shape include “negativi” di frammenti di affresco, in linea con gli obiettivi del progetto europeo RePAIR (H2020, GA n. 964854) per la ricostruzione robotica di reperti archeologici (Pompei). Il lavoro vede coinvolti Humanoid Robots Lab e Autonomous Intelligent Systems Lab dell’Università di Bonn e il Lamarr Institute.
Perché interessa anche alla produzione additiva
Pur non “stampando” direttamente, il controllo adattivo della sabbia è strategico dove la sabbia funge da mezzo di lavorazione o supporto (p.es. formatura rapida di cavità o negativi, pre-lavorazioni per colata; integrazione con processi su scala architettonica). Una policy RL che scolpisce con pochi passaggi e feedback visivo può ridurre tempi di preparazione di forme/negativi rispetto a pianificatori deterministici.
Stato e prossimi passi
Lo studio è accettato a Humanoids 2025; la pagina AIS riporta la venue. È ragionevole attendersi il rilascio di codice/dataset (già indicato un sito supplementare nel paper) e studi su robustezza a rumore/occlusioni e generalizzazione a altri granulari.
