Už ne SSHD, ale pevné disky s NAND využitou inteligentněji
Poslední dobou (čím teď myslíme několik let) míváme méně zpráv o magnetických pevných discích. Teď tu ale příležitost psát o nové inovaci i v této oblasti je. Western Digital představil technologii OptiNAND, která vylepšuje fungování mechanických disků pomocí integrace paměti NAND Flash – ale nejde o dříve existující SSHD, kde šlo jednoduše o cache. OptiNAND ji používá k jiným účelům a ve finále by to mělo být o dost užitečnější.
OptiNAND spočívá v tom, že se na PCB disku s elektronikou přidá flashové úložiště, přičemž by mělo jít o standardní řešení s rozhraním UFS, jinak používané jako úložiště v mobilech (WD pro něj má značku iNAND). Oproti dřívějším SSHD nejsou do této paměti ale ukládaná uživatelská data, ale metadata. To dovoluje dostat víc užitečné kapacity na samotné plotny, ale také zlepšit výkon a údajně i spolehlivost. Zatímco SSHD se jen ne moc úspěšně pokoušela suplovat v počítači systémové SSD, OptiNAND používá NAND pro zlepšení té funkce HDD, ke které jsou primárně určená, tedy k ukládání velkých množství data.
V příštích generacích disků používajících technologii OptiNAND bude Western Digital zvyšovat hustotu stop na plotně, což si mimochodem také vyžádá použití trojstupňového ovládání polohy čtecí hlav (samotný motor hlavy, elektronická střední fáze, které lehce ohýbá rameno do potřebné polohy a také miniaturizovaná verze téhož na špičce, která koriguje polohu ještě u samotné hlavy).
Navýšení kapacity ale bude vedle toho dosaženo eliminací metadat, která dnes musí být v samotných stopách uložená. Z dřívějších dob si asi pamatujete, že zmenšení objemu metadat navíc bylo už důvodem pro zavedení 4KB sektorů, čímž se ušetřilo na režii pro signalizaci začátku sektorů a ECC. Na plotnách je ale stále uloženo množství metadat, mimo jiné různé informace o kalibraci potřebné pro fungování HDD, které je technologicky velmi složitým a jemným zařízením. Například tzv. Repeatable Run Out (RRO) informace, která se do disku nahrává při kalibraci v továrně a dosahuje gigabajtů.
Přesun těchto a dalších metadat do NAND jednak ušetří místo v samotných stopách, takže plotna udrží více uživatelských data i při nezměněné technologii a zachované hustotě dat. Vedle toho by mělo být zjednodušeno fungování mechanické části disku, kdy nebude třeba během samotných čtecích a zapisovacích operací nejdřív číst uložená metadata – ta totiž firmware/elektronika disku bude brát nezávisle ze zabudovaného flashového úložiště UFS.
„Bottleneck“ kvůli refreshům stop
Přesun metadat do vlastního prostoru NAND úložiště má umožnit ještě jedno zlepšení. Technologie HDD musí při svém magnetickém zápisu hlídat to, aby zápis do jedné stopy interferencí nerušil již zapsaná data. Přesněji řečeno k tomu nevyhnutelně dochází, takže elektronika disku musí občas přečíst již zapsaná data a znovu je zapsat, pokud byly vedlejší stopy vícekrát změněné a toto magnetizování opakovaně oslabovalo úroveň signálu dotyčné stopy (podobný mechanismus jako útok RowHammer u DRAM – mimochodem tímto trpí i NAND, takže přechodem na SSD si moc nepomůžete).
Jak už bylo řečeno, HDD s tímto jevem umí pracovat a periodicky stopy přepisují, aby se „oživily“. Problém je v tom, že čím jsou stopy na disku hustěji, tím horší toto rušení je, a proto je nutné refresh dělat častěji. Teď už to údajně dokonce je po jednociferném počtu zápisů do okolních stop (podle WD je to dnes někdy jen šest zápisů). Toto ale začíná být překážka, protože takto časté nucené obnovování je už značný zářez do výkonu. Disky dnes tyto refreshe dělají na úrovni stop, takže se musí přepsat celá stopa i kvůli velmi malým zápisům, směřujícím jen do pár sektorů.
I metadata ukládající informaci o tom, kde a za jak dlouho bude třeba provést refresh, bylo třeba někam ukládat, a doteď si je disk při provozu drží ve své poměrně malé DRAM. A malá dostupná kapacita silně omezovala granularitu, s jako mohla být ukládána. I tato informace bude v architektuře OptiNAND přenesena na přidané flashové úložiště. To umožní držet informace pro účely těchto refreshů s mnohem větší granularitou.
Disk tak už nebude muset kvůli jednomu 4KB souboru refreshovat (přečíst a znovu zapisovat) celou ovlivněnou stopu vedle, ale bude mu stačit obnovit jen její část související s místem interferujícího zápisu, protože si bude moci pamatovat přesné adresy dotčených míst. Dopady refreshů na výkon budou výrazně zredukované a toto umožní dál zmenšit rozteč stop a uložit tak víc dat – odstraňuje se tedy jedna z překážek, která bránila dalšímu zahušťování stop a tím zvyšování kapacity na jednu plotnu.
Lepší výkon a a spolehlivost
Přítomnost paměti NAND flash v poměrně velké kapacitě také pevným diskům s architekturou OptiNAND dodá lepší kombinaci výkonu a spolehlivosti. To, že čtení a zápis metadat a částečně (zredukovaný) refresh stop nebudou zaměstnávat mechanickou/magnetickou část disku, samozřejmě znamená, že se zvýší I/O výkon dostupný pro uživatele. Ale pomoci má také to, že úložiště UFS bude umožňovat uložit více dat z buferů v případě výpadku napájení. Když se disk náhle vypne kvůli výpadku napájení, je velmi důležité uložit zejména kritická metadata. Vedle nich jsou tu ale i uživatelská data čekající na zápis do permanentního úložiště v DRAM mezipaměti disku.
Kvůli tomu, že disk musí neustále počítat s tím, že napájení může kdykoliv vypadnout, nemůže nikdy nechávat ve své DRAM zas tak moc dat. Tím je dost omezen jeho zapisovací výkon. Disky s OptiNAND ale budou v případě výpadku napájení schopné nouzově uložit větší objem dat, což jim dá víc prostoru k agresivnějšímu optimalizování zapisovacích operací. Největší rozdíl ve výkonu nastane, pokud by HDD bylo provozováno v režimu, kdy operační systém nepoužívá zapisovací cache a všechny zápisy jsou okamžitě „flushovány“ do disku. Ale i s aktivní zapisovací cache se má výkon pořád zlepšit, byť méně (WD uvádí, že s OptiNAND by se měl značně zmenšit rozdíl ve výkonu mezi stavem se zapisovací cache a bez).
Podle WD disk dokáže při náhlém výpadku napájení zachránit až 50× dat, které ve chvíli problému byly ve volatilní paměti (DRAM disku) ve srovnání s dnešním konvenčním HDD.
Zatím ve fázi vzorků, nasazení přijde u 20TB a větších HDD
První disky s technologií OptiNAND už existují, ale zatím ještě nejsou veřejně na trhu. Jejich vzorky ale WD dává k vyzkoušení velkým zákazníkům, což budou asi výrobci serverů a pak jejich velcí provozovatelé. Tyto první vzorky mají kapacitu 20 TB a používají technologii energeticky asistového zápisu ePMR (či také EAMR), výslovně je uvedeno, že jsou bez SMR. Kapacita jedné plotny musí být někde nad 2,2 TB, protože jde o devítiplotnové héliové disky. Zda se tyto modely disků budou nakonec i volně prodávat, není jisté.
Až 50TB disky tuto dekádu?
Ale WD uvádí, že tuto technologii komerčně nasadí u jejich následníků s kapacitami 20 TB a vyšších. V druhé polovině nynější dekády by se prý mohlo nakonec dojít i k diskům s kapacitou 50 TB a byť to bude dosaženo asi hlavně pomocí záznamu HAMR, také OptiNAND má pomoci.
Nicméně pokud sledujete hardwarové zpravodajství delší dobu, tak asi víte, že bombastické plány o škálování kapacity HDD nahoru spíš nevycházejí než vycházejí, jak se lze přesvědčit pohledem na některé takto historicky překonané roadmapy. Moc bychom se proto nedivili, kdyby takto velká HDD byla až hudbou vzdálenější budoucnosti.
Jan Olšan, redaktor Cnews.cz