Con la nuova generazione di smartphone Galaxy S26, Samsung ha evoluto la funzione Audio Eraser da semplice strumento di editing post-produzione a sistema di separazione audio in tempo reale applicato anche allo streaming. L’integrazione in One UI 8.5 consente infatti di intervenire sull’audio di app come YouTube, Instagram o Netflix direttamente durante la riproduzione, senza modificare il file originale.
Il contesto è quello di un mercato in cui oltre l’80% dei video fruiti su smartphone proviene da piattaforme social e streaming, rendendo sempre più rilevante la qualità percepita dell’audio in ambienti rumorosi.
Estensione dell’Audio Eraser alla riproduzione
Sui dispositivi della serie Galaxy S26, la funzione Audio Eraser non è più limitata ai video registrati in locale. L’elaborazione è applicata allo stream audio in uscita dalle app, consentendo di filtrare o attenuare componenti come rumore di fondo, musica o effetti ambientali mentre il contenuto è in riproduzione.
L’interfaccia utente prevede un attivatore rapido, un controllo di intensità e un interruttore dedicato alla modalità Voice Focus, che privilegia la componente vocale rispetto al resto del flusso audio.
L’assenza di un elenco ufficiale di applicazioni compatibili è compensata da test pratici che dimostrano il funzionamento con piattaforme come YouTube, Instagram, Netflix e TikTok.
L’implementazione si appoggia con ogni probabilità alla pipeline audio di Android, intercettando il flusso tramite i servizi di sistema come AudioFlinger e applicando effetti in una sessione globale o per stream, in modo analogo alle AudioEffect API usate per equalizzazione e miglioramento vocale.
Elaborazione in tempo reale e architettura hardware
La caratteristica più rilevante è la natura in tempo reale del processamento. Per mantenere una latenza impercettibile durante la riproduzione video, Samsung sfrutta i blocchi dedicati presenti nei SoC moderni, in particolare la NPU e i DSP audio.
L’algoritmo si basa su tecniche di separazione delle sorgenti audio, simili ai modelli neurali di speech enhancement: il segnale è scomposto in componenti spettrali e ricostruito privilegiando la voce o attenuando bande di frequenza associate a rumore e musica.
L’elaborazione locale consente di evitare l’invio dei dati a server remoti, con vantaggi evidenti per la privacy e la reattività. Tuttavia, il compromesso è una maggiore richiesta di risorse computazionali e un certo consumo energetico, che il sistema gestisce riducendo la precisione del modello o limitando l’intensità dell’effetto in base al carico.
Qualità percepita e artefatti
Durante le dimostrazioni pratiche, ad esempio su video sportivi con forte rumore del pubblico in sottofondo, la funzione Audio Eraser consente di isolare la voce dei commentatori con buona chiarezza.
Disattivando l’effetto, il suono ambientale torna a dominare la scena sonora. Lo si nota in maniera evidente, ad esempio, in questo video di test.
Come accade in tutte le soluzioni di soppressione del rumore, emergono comunque artefatti: emergono leggere distorsioni o un timbro artificiale nelle parti in cui l’algoritmo rimuove componenti non desiderate.
Si tratta di un limite tipico dei modelli di filtraggio spettrale e delle reti neurali di denoising, soprattutto quando la voce e il rumore condividono bande di frequenza sovrapposte.
Come funziona davvero la cancellazione intelligente del suono
Samsung Audio Eraser può essere descritto, in termini strettamente tecnici, come un flusso ibrido DSP più deep learning che parte da uno stream audio (da un file video nella galleria oppure da un’uscita di riproduzione in tempo reale) e lo trasforma in una rappresentazione tempo-frequenza per stimare e manipolare selettivamente più sorgenti sonore.
Il segnale PCM, tipicamente a 48 kHz, è suddiviso in frame sovrapposti e convertito tramite STFT in uno spettrogramma complesso, su cui opera un modello di audio source separation.
Tale modello produce una serie di maschere spettrali o direttamente stime separate delle componenti principali, come voce, musica, rumore ambientale, vento o folla. A differenza dei sistemi classici di noise reduction, qui interviene un livello semantico: un classificatore di eventi sonori analizza le caratteristiche spettrali, la periodicità e la distribuzione energetica per etichettare ogni componente, consentendo all’interfaccia di offrire controlli distinti per ciascun tipo di suono.
L’intervento non agisce quindi in senso distruttivo, ma modifica il guadagno delle componenti stimate, applicando scalari dinamici per classe sonora che permettono di attenuare o enfatizzare selettivamente gli elementi del flusso audio.
Ricostruzione del segnale e ottimizzazione in tempo reale su NPU
Una volta applicate le maschere e i livelli di attenuazione, il sistema procede alla ricostruzione del segnale audio finale. In questa fase intervengono diversi moduli DSP di post-processing progettati per minimizzare gli artefatti tipici della separazione.
Nella modalità in tempo reale, utilizzata anche durante lo streaming, l’intera elaborazione è ottimizzata per operare su buffer molto piccoli e con latenza ridotta, sfruttando modelli quantizzati eseguiti direttamente sulla NPU del SoC e un routing audio a livello di sistema che intercetta il flusso in uscita dalle applicazioni e reinserisce il segnale filtrato nel mixer audio.
L’approccio consente di intervenire sull’audio senza interrompere la riproduzione, ma introduce compromessi legati al minor contesto disponibile per l’inferenza: come spiegato brevemente in precedenza, quando le sorgenti sono fortemente sovrapposte, la separazione diventa meno precisa e possono emergere residui o effetti artificiali.
In sostanza, Audio Eraser realizza una stima probabilistica della scena sonora e ne modifica l’equilibrio in modo dinamico, offrendo un controllo granulare sull’ascolto.
Scenari d’uso e limiti operativi
L’utilità pratica della funzione emerge in ambienti rumorosi, durante la visione in mobilità o quando si desidera comprendere meglio dialoghi e commenti in video complessi. Può essere impiegata anche per migliorare la fruizione di contenuti in lingua straniera o per ridurre distrazioni in clip social con colonna sonora invadente.
Esistono comunque limiti tecnici: contenuti protetti da DRM potrebbero impedire l’accesso allo stream audio a basso livello, alcune app potrebbero usare flussi audio proprietari che riducono l’efficacia del filtro e in presenza di tracce audio già fortemente compresse l’algoritmo ha meno informazioni su cui operare. Inoltre, l’elaborazione continua può incidere sulla durata della batteria nelle sessioni prolungate.
Distribuzione e disponibilità
La serie Galaxy S26 è proposta in preordine con disponibilità commerciale a partire da marzo, con le consuete promozioni di lancio e programmi di trade-in.
La funzione Audio Eraser in tempo reale è una delle caratteristiche distintive di questa generazione e rappresenta un ulteriore passo verso l’integrazione di capacità di elaborazione audio avanzate direttamente sul dispositivo mobile.