Mentre i moderni Large Language Models (LLM) si sono dimostrati validi per la programmazione software, ad esempio per scrivere singole funzioni o per il completamento automatico del codice, essi faticano ancora a risolvere problemi di ingegneria software complessi e reali. Per rispondere a questa esigenza, la startup francese Mistral AI, insieme ai tecnici di All Hands AI, ha lanciato Devstral, un agente AI open source progettato specificamente per affrontare sfide di sviluppo software su larga scala.
Caratteristiche tecniche di Devstral
Devstral si basa su Mistral Small 3.1 ed è un modello linguistico di 23,6 miliardi di parametri, decisamente più leggero rispetto ad altri modelli di dimensioni decisamente più imponenti (67 miliardi di parametri o più). Ciò ne favorisce l’utilizzo anche su hardware consumer avanzato come una singola GPU NVIDIA RTX 4090 o un Mac con 32 GB di RAM.
La leggerezza è un punto di forza cruciale perché rende possibile un’implementazione locale — on-premises — del modello, eliminando così rischi di sicurezza legati all’invio di codice su server esterni, aspetto fondamentale per le aziende soggette a stringenti requisiti di compliance e privacy.
Devstral è rilasciato sotto licenza Apache 2.0, quindi disponibile per la comunità su piattaforme come Hugging Face, Ollama, Kaggle e Unsloth, oltre che tramite API commerciali con un sistema pay-as-you-go.
Funzionalità avanzate per lo sviluppo di software reale
A differenza dei LLM tradizionali, Devstral non si limita a generare “snippet” di codice isolati, ma è addestrato su problemi reali tratti da repository GitHub, inclusi 500 problemi verificati manualmente contenuti nel benchmark SWE-Bench Verified. Questo dataset consente di valutare la capacità del modello di comprendere il contesto complessivo di grandi basi di codice, di identificare relazioni tra componenti software distanti e di individuare bug “sfuggenti” annidati dentro funzioni complesse.
Nei test comparativi condotti da Mistral AI e All Hands AI, Devstral ha ottenuto un punteggio del 46,8% sul benchmark SWE-Bench Verified, superando il miglior modello open source precedente di oltre 6 punti percentuali. Sorprendentemente, Devstral ha superato anche modelli closed-source come GPT-4.1-mini di OpenAI, con un margine superiore al 20%, e si è posizionato a livello di Claude 3.5 Haiku e SWE-smith-LM 32B.
Integrazione e scenari d’uso
Il modello Devstral è concepito per funzionare in combinazione con piattaforme come OpenHands, sviluppata da All Hands AI. L’obiettivo è fornire un’interfaccia in grado di interagire direttamente con il codice in locale, accelerando la risoluzione dei problemi e il debugging.
Il funzionamento locale e la “abilità agentiche” rendono Devstral ideale non solo per sviluppatori singoli, ma anche per grandi realtà aziendali che richiedono strumenti di AI per coding in ambienti a elevata sicurezza e conformità normativa.
Devstral è attualmente in fase di research preview: Mistral AI sta già lavorando a versioni più grandi e potenti del modello per lo sviluppo software, che saranno rilasciate a breve. La startup invita la comunità e le aziende a fornire feedback per migliorare ulteriormente le capacità di Devstral.