Tutti i principali player che si occupano dello sviluppo di modelli generativi e soluzioni basate sull’intelligenza artificiale sono alle prese con la realizzazione di agenti AI in grado di automatizzare le operazioni sia a livello di browser Web che di sistema operativo. La disponibilità di un vasto numero di LLM (Large Language Models) aperti, tuttavia, sta sostenendo iniziative virtuose di singoli sviluppatori che propongono approcci innovativi e personalizzabili. È il caso di BrowserBee, una soluzione open source orientata alla privacy, che fonde l’elaborazione del linguaggio naturale con la potenza dell’automazione browser basata su Playwright.
A differenza di molte soluzioni concorrenti che si appoggiano a infrastrutture cloud centralizzate o richiedono l’esposizione di credenziali su server remoti, BrowserBee opera quasi interamente in locale, ponendo una solida barriera tra l’utente e i rischi di sicurezza.
Un approccio ibrido: LLM nel cloud, automazione nel browser
L’architettura di BrowserBee è intelligente e ben bilanciata: l’elaborazione delle istruzioni in linguaggio naturale è delegata a un LLM. L’intero processo di automazione del browser è tuttavia eseguito localmente tramite il protocollo Chrome DevTools (CDP) e il motore Playwright. Questo consente a BrowserBee di eseguire attività su siti che richiedono l’autenticazione dell’utente – come caselle email, profili social o gestionali aziendali – senza mai trasmettere dati sensibili a server esterni.
Uno degli aspetti più interessanti di BrowserBee consiste nel fatto che il software è in grado di riconoscere azioni critiche, come acquisti o pubblicazioni su social network, e chiedere all’utente un’approvazione esplicita prima di procedere. Questa funzionalità non solo rafforza la sicurezza, ma contribuisce anche a instaurare un rapporto di fiducia.
Compatibilità multi-provider: OpenAI, Anthropic, Gemini e oltre
BrowserBee è agnostico rispetto al provider del LLM, supportando un’ampia gamma di backend tra cui OpenAI GPT, Anthropic Claude, Google Gemini e Ollama.
Di fatto, quindi, se si utilizza un runner come Ollama non è neppure necessario scambiare alcun dato in rete. Ollama consente infatti di scaricare ed eseguire localmente uno o più LLM open source, facendo da intermediario tra il modello AI e l’utente o le applicazioni in esecuzione.
L’utente può configurare in BrowserBee uno o più provider LLM, selezionando quello più adatto per il tipo di attività da svolgere (ad esempio, Claude per ragionamenti step-by-step, GPT-4 per attività generaliste e così via).
Un sistema integrato tiene traccia del consumo di token e dei costi, fornendo all’utente una visione chiara del budget AI utilizzato.
Un arsenale di strumenti per dominare il browser
BrowserBee, che si presenta sotto forma di estensione per Google Chrome, mette a disposizione un ricco set di strumenti organizzati per categorie funzionali, tra cui:
- Navigazione e gestione delle schede: apertura, chiusura, switch e gestione del contesto.
- Interazione: click, inserimento testo, scrolling, compilazione di moduli.
- Osservazione: scraping del DOM (corpo delle pagine Web), rilevamento elementi visibili, stato delle interazioni.
- Input utente: simulazione di mouse e tastiera.
- Memoria locale: salvataggio di sequenze operative riutilizzabili, memorizzazione di contenuti chiave.
Questi strumenti permettono a BrowserBee di comportarsi come un assistente virtuale capace di esplorare, capire e modificare l’interfaccia utente del browser, proprio come farebbe un utente reale.
Casi d’uso concreti e ad alto valore
BrowserBee si distingue per la sua capacità di tradurre il linguaggio naturale in azioni reali all’interno del browser, rendendolo uno strumento estremamente versatile per una vasta gamma di scenari ad alto valore aggiunto.
Tra i casi d’uso più significativi troviamo l’assistenza automatizzata sui social media: l’estensione può leggere messaggi e notifiche, sintetizzarne il contenuto e persino suggerire risposte appropriate, sempre sotto il controllo dell’utente.
Nel contesto dell’informazione, agisce come assistente personale, raccogliendo e riassumendo notizie dai propri siti preferiti, trasformandole in briefing personalizzati. Per chi lavora nel digital workspace, può diventare un vero e proprio assistente personale, capace di gestire email, compilare form, prenotare voli o cercare prodotti online.
Nell’ambito della ricerca, BrowserBee è utile per raccogliere e organizzare informazioni su aziende, opportunità lavorative e trend di mercato, mentre per l’apprendimento continuo offre funzionalità di sintesi e bookmarking intelligente che permettono di salvare e richiamare facilmente i concetti chiave letti sul Web. Ogni interazione è gestita localmente e nel rispetto della privacy, garantendo sicurezza anche in contesti sensibili come account autenticati o attività personali.
Come usare BrowserBee con Google Chrome
Per avere un assaggio delle potenzialità di uno strumento come BrowserBee, è possibile fare riferimento al repository GitHub ufficiale.
A questo indirizzo, cliccando su Assets, potete invece trovare la versione più aggiornata dell’estensione (da considerarsi al momento come uno strumento del tutto sperimentale).
Per provare BrowserBee e installarlo in Chrome, è necessario scaricare il file compresso, estrarne il contenuto quindi digitare chrome://extensions
nella barra degli indirizzi.
In alto a destra va quindi attivata la Modalità sviluppatore; è quindi possibile fare clic su Carica estensione non pacchettizzata. Dopo aver selezionato la cartella contenente i file estratti dall’archivio compresso di BrowserBee, è poi necessario indicare i LLM da usare con l’estensione.
Si possono digitare una o più API key per i vari modelli di OpenAI, Anthropic e Google. In aggiunta (o in alternativa), BrowserBee consente di impostare la configurazione locale di Ollama in modo tale da dialogare con i modelli AI senza scomodare il cloud.