Hard disk SMR: perché sembrano sani ma mandano in crisi RAID e NAS

Gli hard disk SMR aumentano la capacità ma penalizzano pesantemente le scritture casuali. In RAID, NAS e server possono causare rallentamenti imprevedibili, rebuild interminabili e problemi difficili da diagnosticare, pur risultando “sani” dai test SMART.

Tra le numerose tecnologie di registrazione magnetica usate negli hard disk moderni, una delle più controverse è SMR (Shingled Magnetic Recording). Ideata per aumentare la densità di memorizzazione, SMR ha una logica di funzionamento diversa rispetto alla tecnologia tradizionale CMR (Conventional Magnetic Recording). Tuttavia, questa differenza – se da un lato permette maggiore capacità – dall’altro introduce limitazioni sostanziali nelle prestazioni reali, soprattutto in scenari server, NAS e RAID.

Il caso tipico è subdolo. L’hard disk, preso singolarmente, sembra sano: valori SMART normali, throughput sequenziale accettabile, nessun errore evidente nei log. I test preliminari non mostrano anomalie. Al momento, ad esempio, della costruzione di un array RAID iniziano i sintomi: latenze imprevedibili, throughput che collassa a pochi MB/s, pause di minuti interi senza alcun messaggio d’errore. Poi, improvvisamente, durante un’operazione di rebuild o una fase di scrittura intensa, il controller perde contatto con uno o più dischi e il RAID li espelle come se fossero difettosi. Formalmente non lo sono, almeno non nel senso tradizionale.

Cos’è esattamente SMR e come funziona

La tecnologia SMR registra i dati sovrapponendo parzialmente le tracce magnetiche sul piatto, in modo simile alle tegole di un tetto (da cui il nome shingled). Questo stratagemma aumenta la quantità di dati immagazzinabili per superficie magnetica ma ha un impatto diretto sulla dinamica delle operazioni di scrittura: le tracce sovrapposte non possono essere riscritte in modo indipendente e ogni modifica richiede una riscrittura aggregata di porzioni più ampie di disco.

Significato acronimo SMR hard disk

In parole semplici, mentre un disco CMR scrive tracce indipendenti e gestisce bene le modifiche in posizioni casuali, un hard disk SMR riordina porzioni più vaste di dati ogni volta che deve modificare anche solo un settore. Questo causa latenze molto più alte su operazioni di scrittura intensiva e nei carichi di lavoro non sequenziali.

In un altro nostro articolo abbiamo messo in luce tutte le principali differenze tra le tecnologie di memorizzazione dati su hard disk CMR, SMR, MAMR, HAMR e HDMR.

Dove SMR funziona bene: perché gli hard disk sono spesso venduti come normali unità

I vantaggi più evidenti di SMR sono la capacità superiore su unità di piccola/media taglia e il costo per gigabyte più basso rispetto a CMR. Per scopi di cold storage o backup poco modificati, dove i dati vengono scritti una sola volta e raramente riscritti, SMR può risultare una soluzione economicamente interessante.

Molti produttori, però, non etichettano chiaramente quali modelli impiegano SMR: un disco può apparire come “classico” nella scheda tecnica online, ma sotto il cofano adottare SMR. Questo porta spesso a scelte di acquisto errate anche da parte di professionisti che non verificano la tecnologia di registrazione, con conseguenze pesanti in produzione.

Differenza hard disk CMR SMR

Perché SMR è spesso sconsigliato in RAID, NAS e server

Tra gli amministratori di sistema e nel mondo dello storage professionale, l’uso di hard disk SMR in configurazioni RAID, ZFS o sistemi NAS è comunemente sconsigliato per motivi precisi:

Prestazioni di scrittura casuale drasticamente inferiori

SMR è progettato per scritture sequenziali efficienti ma quando il carico include molte scritture casuali o sovrascritture di piccoli file, le prestazioni possono diminuire drasticamente. Il disco deve prima salvare i dati in una cache, poi riorganizzarli nelle regioni sovrapposte quando il drive è inattivo, con un enorme impatto sul throughput reale.

Rebuild RAID estremamente lento

Nei sistemi RAID (hardware o software) se un disco si guasta o è degradato il processo di ricostruzione può coinvolgere scritture massive su tutti gli altri dischi. Su SMR, dove la scrittura è penalizzata, un rebuild di RAID può richiedere decine di volte più tempo rispetto a dischi CMR e può perfino fallire perché il controller interpreta la lentezza come un malfunzionamento.

Test empirici mostrano che o la ricostruzione richiede giorni o addirittura settimane (dipendendo dalla capacità), con un rischio reale di perdita di integrità dei dati.

Comportamento non all’altezza con file dinamici e file system moderni

File system avanzati come ZFS e Btrfs effettuano frequentemente snapshot, riscritture e aggiornamenti di metadati: gli effetti negativi di SMR possono quindi risultare accentuati.

In alcuni casi, la lentezza di scrittura porta a timeout del controller oppure a un drop del disco dal pool di storage, aggravando ulteriormente l’affidabilità complessiva del sistema.

Frammentazione e inefficienza nel tempo

Sebbene SMR funzioni bene subito dopo la formattazione, nel tempo – con operazioni di cancellazione e riscrittura – le tracce occupate diventano sempre più frammentate e ciò può causare un aumento dell’uso della cache, di risorse CPU e di latenza nelle richieste complessive gestite sull’array.

Da qui nasce lo schema noto a molti sysadmin: un hard disk (magari scoperto solo dopo che trattasi di un SMR…) funziona benissimo per anni, poi improvvisamente crolla. Non per usura classica, ma perché il firmware, superata una certa soglia di frammentazione interna, entra in uno stato in cui ogni operazione comporta una riscrittura massiva. A quel punto neanche un file system nuovo o un fstrim tardivo possono fare miracoli.

Perché SMART dice “tutto bene” mentre l’array collassa

Il danno collaterale più grave è la perdita di fiducia nei segnali diagnostici. SMART continua a dire che va tutto bene, i test superficiali non rilevano nulla e l’istinto porta a sospettare controller, cavi, backplane, kernel,…

In realtà, come abbiamo visto, il problema è strutturale e nasce dalla mancata corrispondenza tra tecnologia del disco e carico di lavoro. Un disallineamento che sarebbe evitabile con una sola riga chiara nella scheda tecnica.

Alcuni produttori di hard disk hanno contribuito in modo significativo a questa confusione, immettendo sul mercato modelli SMR drive-managed (tutta la gestione delle zone shingled, aree del disco in cui le tracce magnetiche sono sovrapposte come tegole, è nascosta all’host ovvero a sistema operativo, file system, RAID, ecc.) senza una chiara distinzione commerciale rispetto ai CMR.

Chi progetta infrastrutture ha bisogno di sapere esattamente come si comporterà un componente sotto stress, non di scoprirlo in produzione.

Quando SMR ha senso e come evitare gli effetti collaterali

Nonostante le critiche, SMR non è intrinsecamente cattivo, anzi: negli ambiti giusti può offrire un eccellente compromesso tra capacità e costo. Ad esempio:

  • Archiviazione di dati freddi o backup a lungo termine con pochi cambiamenti.
  • Carichi write-once e solo lettura (come storage di media digitali, backup offline).
  • Sistemi dove le scritture sono quasi totalmente sequenziali.

Tuttavia, in server NAS, sistemi RAID o volumi business-critical con operazioni costanti di I/O misto, SMR è quasi sempre la scelta sbagliata. E ciò, come abbiamo visto, sia in termini di performance che di affidabilità complessiva.

La raccomandazione generale è optare per CMR o tecnologie equivalenti in tutte le applicazioni mission-critical, verificare sempre tramite datasheet ufficiali ed evitare l’uso di SMR nei dischi destinati a volumi RAID primari.

Ti consigliamo anche

Link copiato negli appunti