Banche e LLM on-premise: una breve guida all'implementazione - Gruppo RES

Compatibilità
Salva(0)
Condividi
Salta al contenuto

12 Settembre, 2025

Banche e LLM on-premise: una breve guida all’implementazione

Banche e LLM on-premise: una breve guida all’implementazione
  • Fino a poco tempo fa l’adozione di LLM on-premise non era conveniente, sia per i costi delle GPU sia per la scarsa maturità dei modelli open source.
  • Dal 2023 al 2025 i modelli open weights sono diventati più potenti e general purpose, rendendo realistico l’uso on-premise anche in produzione.
  • L’architettura richiede cluster GPU ridondati separati dai nodi CPU, con comunicazione tramite API compatibili con gli standard più diffusi.
  • L’ecosistema software si è consolidato: strumenti come Ollama o LangChain semplificano il deployment e permettono un passaggio graduale dal cloud all’on-premise.
  • Le banche possono adottare una strategia progressiva, partendo da piccoli test fino a infrastrutture resilienti, con la prospettiva di costi hardware in calo e software sempre più maturo.

Fino a un anno fa, l’ipotesi di ospitare un LLM all’interno di un’infrastruttura proprietaria non appariva conveniente. I motivi principali erano due: da un lato i costi elevati, dall’altro la maturità ancora insufficiente dei modelli open weights disponibili. 

In quelle condizioni, la scelta più sensata era spesso destinare il budget a proof of concept o MVP: progetti più agili, mirati a validare casi d’uso e pipeline applicative, piuttosto che impegnarsi subito in un’infrastruttura privata per l’inferenza su larga scala. 

Oggi qualcosa è cambiato e il settore bancario si trova davanti a un’occasione concreta: avviare un percorso graduale verso infrastrutture LLM proprietarie per essere pronti a sfruttare appieno le potenzialità delle tecnologie che arriveranno nei prossimi anni.

Riassumiamo in questo articolo i principali cambiamenti degli ultimi due – tre anni e raccontiamo le considerazioni che oggi un istituto bancario deve fare per installare in sicurezza un LLM on-premise, trasformando la sperimentazione in un progetto solido e sostenibile nel tempo.

Le evoluzioni dei modelli LLM negli ultimi due anni

Dalla primavera del 2023 fino ad oggi abbiamo attraversato un periodo di sperimentazione intensa, in cui l’ecosistema ha prodotto modelli sempre più capaci. Tra il 2023 e il 2024 si sono succeduti nuovi modelli dotati di emergent capabilities, ovvero capacità che non esistevano nei modelli precedenti e che aprivano la porta a scenari applicativi del tutto nuovi. 

Prima di GPT-4 era quasi impossibile ottenere una programmazione autonoma realmente “agentica”. Con GPT-4 e le successive evoluzioni, è diventato possibile sfruttare i modelli per attività di sviluppo software in modo realmente efficace. Questa è la prova di come le capacità emergenti abbiano cambiato radicalmente il perimetro di ciò che un LLM può fare. 

Solo negli ultimi mesi, però, abbiamo iniziato a vedere modelli open weights installabili on-premise. Con tale livello di prestazioni si può realisticamente mettere in piedi un cluster da 3-5 nodi nel proprio data center e sfruttarlo a pieno carico su una vasta gamma di casi d’uso, senza il timore di avere hardware costoso fermo nel rack, ma con la certezza di poterlo impiegare in più applicazioni contemporaneamente, dalle sperimentazioni interne alla produzione. 

Dal concetto alla messa in opera: architetture e strumenti degli LLM

I modelli installabili su infrastruttura proprietaria hanno ormai raggiunto un livello qualitativo sufficiente a supportare un’ampia gamma di use case. Non parliamo più di modelli “narrow” o fine-tuned per scenari molto specifici, ma di modelli general purpose caricabili in RAM sui nodi dedicati, configurabili in ridondanza e pronti a servire un’ampia gamma di applicazioni diverse all’interno della stessa organizzazione. Così l’hardware viene sfruttato appieno, evitando investimenti in risorse destinate a restare inutilizzate. 

Il costo dell’hardware, però, non è cambiato: resta uno dei motivi per cui in passato era spesso preferibile affidarsi ai provider di API, capaci di saturare al massimo i propri nodi GPU e renderli più cost-effective. 

Anche l’architettura di base rimane la stessa: un LLM non gira sugli stessi nodi che gestiscono i carichi applicativi. Questi ultimi – come l’elaborazione massiva di dati da un database – si eseguono su hardware general purpose (CPU), mentre l’inferenza LLM richiede nodi GPU dedicati. Allocare GPU costose per logiche general purpose significa sottoutilizzarle, quindi non è cost-effective, così come non ha senso eseguire l’inferenza LLM su CPU. 

Di fatto, una soluzione on-premise replica lo schema tipico dei provider cloud specializzati in LLM: nodi CPU per le applicazioni, nodi GPU per i modelli, e comunicazione tramite API interne. Queste API – ormai lo standard de facto è il formato proposto inizialmente dalle API di OpenAI – permettono ai sistemi applicativi di interagire con il modello senza vincoli infrastrutturali – ogni workload sull’hardware più adatto.  

 LLM on-premise: la maturità dell’ecosistema software 

Nell’ultimo anno è cambiata la maturità dei progetti software pensati per esporre modelli LLM tramite API. Nel 2024, strumenti come Ollama erano utili ma ancora acerbi: potevano scaricare e avviare modelli compatibili con le API di OpenAI, ma mancava un ecosistema completo per il deployment e la gestione in ambienti enterprise complessi. 

Oggi, invece, Ollama (ma come lui esistono altri progetti equivalenti) è un progetto stabile e consolidato. Sono disponibili deployment descriptor e pacchetti di installazione ufficiali per Kubernetes e OpenShift, funzioni di autoscaling integrate e procedure di integrazione pronte all’uso. Questo riduce al minimo – in certi casi azzera – l’investimento in sviluppo per l’infrastruttura software. 

E così, anche altri strumenti simili offrono API sostanzialmente compatibili con quelle di OpenAI, permettendo un passaggio graduale dal cloud all’on-premise. Il vantaggio è che si può partire da un proof of concept usando direttamente le API di un provider esterno e, in un secondo momento, reindirizzare le chiamate alla propria infrastruttura interna, senza modificare il codice applicativo. 

Strategie scalabili per adottare LLM on-premise nel settore bancario

L’ecosistema è oggi molto più maturo: soluzioni come Ollama, LangChain, Spring AI e simili consentono di sviluppare una sola volta l’integrazione con un qualunque LLM e sostituire il modello aggiornando solo la configurazione, senza modifiche al software. 

I modelli on-premise hanno raggiunto capacità realmente general purpose, adatte a supportare un’ampia gamma di applicazioni. Per i test in fase di sviluppo può bastare un singolo nodo; per un pilota in produzione è consigliata una configurazione minima di tre nodi con ridondanza, così da seguire le best practice e massimizzare l’investimento. 

L’adozione di un LLM in locale non deve essere un salto nel vuoto. Si può partire da un singolo nodo per test interni (50–300 mila euro di CAPEX), passare a tre nodi per un progetto pilota in produzione e arrivare progressivamente a un’architettura resiliente per la produzione. 

La chiave è saturare il carico dei nodi, evitando sprechi su GPU costose, e mantenere la flessibilità di cambiare modello o provider semplicemente aggiornando la configurazione, senza riscrivere il software applicativo. 

Il futuro degli LLM on-premise: considerazioni finali

Guardando avanti, è probabile che la barriera economica legata all’hardware si ridurrà progressivamente, grazie a GPU più performanti e a tecniche di ottimizzazione sempre più efficienti. Parallelamente, l’ecosistema software continuerà a maturare, semplificando ulteriormente l’installazione e la gestione dei modelli.  

Le banche, che per natura richiedono massimi livelli di sicurezza, resilienza e conformità normativa, si trovano quindi davanti all’occasione concreta di avviare oggi un percorso graduale verso infrastrutture LLM proprietarie così da essere pronte a sfruttare appieno le potenzialità delle tecnologie che arriveranno nei prossimi anni. In altre parole, questo è il momento giusto per fare il passo. 

Sono aspetti che accompagneranno le scelte tecnologiche delle banche nei prossimi anni, e che discuteremo anche a Forum Banca, il prossimo 2 ottobre, dove Federico Bonelli interverrà in una sessione dedicata proprio agli LLM on-premise. 

Condividi questo articolo

Page load link
modal-check

Scarica il white paper Low Code a supporto della modernizzazione dei processi

COMPILA IL FORM PER RICEVERE IL CASO DI SUCCESSO

Questo si chiuderà in 0 secondi

Torna in cima
Recapiti
Federica Squaiella