Tenere sotto controllo i costi dell’Intelligenza Artificiale è diventata una priorità concreta per molte aziende.
L’adozione di modelli generativi in sviluppo, assistenza clienti e analisi documentale ha fatto crescere rapidamente il consumo di token e le spese operative. In molte organizzazioni il problema emerge solo a fine mese, quando le fatture dei provider AI mostrano importi elevati senza indicare quali team o applicazioni abbiano generato i costi maggiori.
Per rispondere a questa esigenza, Cloudflare ha introdotto in AI Gateway una nuova funzione chiamata Spend Limits, progettata per applicare limiti di spesa direttamente all’utilizzo dei modelli AI.
Cos’è AI Gateway e come funzionano gli Spend Limits
Cloudflare AI Gateway opera come livello intermedio tra le applicazioni aziendali e i modelli AI.
Invece di collegarsi direttamente ai provider come OpenAI, Anthropic o Google, le richieste transitano attraverso il gateway, che registra utilizzo, costi e numero di chiamate.
Il sistema supporta anche caching, routing e limitazione del traffico. Prima degli Spend Limits, gli amministratori potevano osservare il consumo complessivo ma non disponevano di uno strumento integrato per assegnare budget a singoli utenti, reparti o applicazioni, un problema evidente soprattutto dove le chiavi API erano condivise tra molti dipendenti.
La nuova funzione introduce un modello di controllo basato sul denaro effettivamente speso e non sul numero di richieste inviate. Ogni regola definisce un budget in dollari e un intervallo temporale, giornaliero, settimanale o mensile.
Il sistema calcola il costo di ogni richiesta usando i token consumati e il listino del modello impiegato, monitorando la spesa in tempo reale. Quando una soglia viene superata, AI Gateway può bloccare ulteriori richieste con un errore HTTP 429 oppure attivare percorsi alternativi configurati dall’amministratore. Cloudflare precisa che il monitoraggio si basa su una stima e che per la rendicontazione definitiva è necessario confrontare i dati con quelli dei singoli provider.
Budget granulari, fallback automatico e identità digitali
Gli amministratori possono applicare limiti in base al provider, al modello o a metadati personalizzati come identificativi utente, gruppi aziendali o applicazioni specifiche.
La piattaforma supporta due modalità: una divide automaticamente il budget tra valori differenti creando un plafond separato per ciascun utente, l’altra applica la regola a un valore specifico come un reparto o un modello linguistico. Cloudflare cita esempi pratici come budget mensili differenziati tra sviluppatori junior e senior, o restrizioni che consentono al team di machine learning di accedere ai modelli più avanzati lasciando agli altri soluzioni meno costose.
Bloccare un’applicazione quando esaurisce il budget non è sempre la scelta migliore. Per questo la funzione si integra con il routing dinamico di Cloudflare: raggiunto il limite su un modello costoso, il traffico viene reindirizzato automaticamente verso un’alternativa più economica, mantenendo il servizio attivo. Spend Limits è disponibile in open beta per tutti i piani, configurabile via dashboard o API, con un massimo di venti regole per gateway.