En partenariat avec Kingston Technology.
Pendant des années, de nombreux centres de données d’entreprise à cadences élevées et à faible latence ont fait confiance aux disques durs (HDD) pour leurs serveurs et font à présent face à des problèmes de performance. Aujourd’hui, ceux-ci considèrent les lecteurs à l’état solide (SSD) comme une solution de stockage viable pouvant améliorer la performance, l’efficacité et la fiabilité de leurs centres de données tout en abaissant les coûts de fonctionnement. (OpEx).
Afin de comprendre les différences entre chaque classe de SSD, nous devons d’abord distinguer les deux éléments clés d’un lecteur SSD, le contrôleur de stockage flash et la mémoire flash NAND non volatile utilisée pour stocker les données.
Dans le marché actuel, la consommation des lecteurs SSD et de la mémoire flash NAND est partagée en trois groupes principaux :
- Les appareils de consommation (tablettes, appareils photo, téléphones mobiles),
- Les systèmes clients (netbook, notebook, ultrabook, AIO, PC de bureau), intégrés / commerciaux (borne de jeux, systèmes spécialisés, affichage numérique),
- Les plateformes informatiques d’entreprise (HPC, serveur de centre de données).
Choisir le bon appareil de stockage SSD pour un centre de données d’entreprise peut s’avérer un processus d’apprentissage fastidieux et complexe. Il est donc conseillé de tester différents distributeurs et types de produits SSD afin de s’assurer qu’ils sont adaptés, sachant que lecteurs SSD et mémoires flash NAND ne sont pas tous faits de la même façon.
Les lecteurs SSD sont fabriqués pour une installation facile, en remplacement ou en complément des disques durs magnétiques (HDD) et se présentent sous différentes formes, dont le format 2,5 pouces, et sont dotés de protocoles et interfaces de communication, dont le Serial ATA (SATA), le Serial Attached SCSI (SAS) et, plus récemment, le PCIe pour transférer les données depuis ou vers le processeur central (CPU) d’un serveur.
Bien que les SSD soient faciles à installer, il n’est pas garanti qu’ils conviendront tous aux applications pour lesquelles l’entreprise les a choisis pour le long terme. Si les SSD s’usent de façon précoce à cause d’une surcharge en écriture, si la puissance d’écriture prolongée est nettement trop faible au cours de leur durée de vie prévue, ou s’ils provoquent une latence supplémentaire dans la matrice de stockage et doivent par conséquent être remplacés prématurément, le coût entraîné par un mauvais choix de SSD annule souvent les économies réalisées et les avantages en matière de performance.
Afin de vous aider à décider de votre prochain achat si vous souhaitez remplacer ou compléter votre système de stockage pour un centre de données d’entreprise, cette étude considère les trois caractéristiques clés permettant de distinguer un SSD de classe entreprise d’un SSD de classe client : performance, fiabilité et endurance.
Performance
En utilisant une architecture à plusieurs canaux et un accès parallèle du contrôleur SSD et des puces flash NAND, les SSD peuvent atteindre des vitesses en écriture et en lecture extrêmement élevées aussi bien pour les requêtes de données séquentielles qu’aléatoires du processeur.
Le scénario typique d’un centre de données est le traitement de millions de bytes de données de différentes entreprises, tels que des dessins industriels CAO, des données d’analyses sismiques (par ex. Big Data), ou l’accès mondial de clients aux transactions bancaires (par ex. OLTP). L’accès aux appareils de stockage doit être fait avec un minimum de latence, et il peut également être nécessaire que de nombreux clients aient accès aux mêmes données au même moment, sans allongement des délais de réponse. L’expérience utilisateur est basée sur une faible latence, ce qui augmente la productivité des utilisateurs.
Une application client n’affecte qu’un utilisateur ou une application, et la limite de tolérance entre le délai de réponse minimum et le délai de réponse maximum (ou latence) pour les activités des utilisateurs ou du système est plus élevé.
Une performance inégale peut nuire aux matrices de stockage SSD complexes (dans le cas du stockage en réseau, du stockage en connexion directe, ou du réseau de stockage) et faire des ravages en ce qui concerne la latence des matrices de stockage, les performances dans la durée, et pour finir, la qualité de service perçue par les utilisateurs.
Contrairement aux SSD clients, les SSD de classe entreprise sont non seulement optimisés pour une performance maximale dans les quelques premières secondes d’accès, mais ils offrent également une performance plus stable sur des périodes de temps plus longues en utilisant un espace surdimensionné (OP). Pour obtenir davantage d’informations concernant chaque lecteur, veuillez consulter le site web Kingston dans la rubrique SSD entreprise.
Ceci permet de garantir que la performance de la matrice de stockage est adaptée à la qualité de service (QoS) attendue par l’entreprise, même pendant les heures de pointe.
Fiabilité
Il existe un certain nombre de problèmes liés à la mémoire flash NAND, les deux plus importants étant l’espérance de vie limitée, sachant que les cellules flash NAND s’usent au cours des processus d’écriture répétés, ainsi que l’apparition d’un taux d’erreurs normal.
Chaque module flash NAND est testé au moyen de plaquettes de silicium pendant le processus de fabrication d’une mémoire flash NAND et étiqueté avec un taux d’erreurs sur les bits bruts (BER ou RBER). BER définit le taux auquel les erreurs de bits normales se produisent dans le flash NAND sans compensation du code de correction d’erreurs (ECC) et que les contrôleurs SSD corrigent avec l’ECC avancé spontané (généralement appelés BCH ECC, Strong ECC ou LDPC par les différents fabricants de contrôleurs SSD) sans interruption de l’accès utilisateur ou système.
La capacité du contrôleur SSD à corriger ces erreurs de bits peut être interprétée par le taux d’erreurs de bits incorrigibles (UBER), « une mesure du taux de corruption des données correspondant au nombre d’erreurs de données par bit lu après usage de certaines méthodes de correction des erreurs ». [1]
Comme défini et unifié par l’Industry Standards Association JEDEC en 2010 avec les documents JESD218A : Solid State Drive (SSD) Requirements and Endurance Test Method and JESD219 : Solid State Drive (SSD) Endurance Workloads, les SSD de classe entreprise diffèrent sous plusieurs aspects des SSD de classe client, en particulier pour leur capacité à supporter une utilisation plus intense en écriture, à supporter des conditions environnementales extrêmes, et à récupérer un taux BER plus élevé. [2] [3]
Classe d’application |
Charge de travail (voir JESD219) |
Utilisation active (activé) |
Rétention des données (désactivé) |
Exigences UBER |
Client |
Client |
40° C 8 heures/jour |
30° C 1 an |
≤10 - 15 |
Entreprise |
Entreprise |
55° C 24 heures/jour |
40° C 3 Mois |
≤10 - 16 |
Tableau 1 - JESD218A Solid State Drive (SSD) Requirements and Endurance Test Method Copyright JEDEC. Réimprimé avec l’autorisation du JEDEC.
Avec les exigences UBER pour les SSD proposées par le JEDEC, il est établi que lorsque l’on compare le SSD entreprise au SSD client, avec un ratio d’erreurs de 1 bit pour 10 quadrillions de bits (~ 1,11 petabytes), seulement 1 erreur de bit incorrigible se produit avec un SSD entreprise, contrairement au SSD client, pour lequel 1 erreur de bit est traitée pour 1 quadrillion de bits (~ 0,11 petabytes).
Les SSD entreprise Kingston sont également dotés de technologies supplémentaires qui permettent la récupération de blocs de données corrompus avec des données de parité stockées dans d’autres modules NAND (de façon similaire aux lecteurs RAID, qui permettent la récupération de certains blocs associés aux données de parité, qui sont stockées dans un autre bloc, pour une reconstruction).
Pour compléter les technologies de récupération de paquets de données redondantes des SSD entreprise Kingston, des points de contrôles réguliers, un contrôle de redondance cyclique (CRC), ainsi qu’une correction des erreurs ECC sont également implémentés dans un système de sauvegarde interne permettant de garantir l’intégrité des données transférées de l’appareil hôte vers la mémoire flash et de nouveau vers l’appareil hôte. Une confidentialité complète signifie que l’intégrité des données reçues de l’appareil hôte sont vérifiées lorsqu’elles sont stockées dans le cache interne du SSD et lorsqu’elles sont écrites ou retournées par les zones de stockage NAND.
De la même façon que la protection EEC améliorée contre les erreurs de bits des SSD de classe entreprise, les SSD de classe client sont également dotés de circuits de détection des pertes d’énergie qui gèrent les condensateurs de stockage d’énergie des SSD. Un système d’assistance en cas de panne d’alimentation contrôle l’énergie entrante vers le SSD et alimente temporairement ses circuits avec des condensateurs au tantale en cas de panne d’électricité soudaine afin de terminer les écritures en attente internes ou externes avant l’arrêt du SSD. Les circuits de protection en cas de panne d’alimentation sont généralement requis pour les applications pour lesquelles une perte de données serait irréversible.
Une protection en cas de panne d’alimentation peut également être implémentée dans le firmware du SSD en déplaçant régulièrement les données contenues dans les zones de cache des contrôleurs SSD (par ex., sa table de couche FTranslation) vers la mémoire NAND. Bien que ce processus ne garantisse pas qu’aucunes données ne seront perdues si une panne d’alimentation se produit, il peut minimiser les conséquences d’une panne d’alimentation soudaine. La protection contre les pannes d’alimentation à l’intérieur du firmware garantit également que le SSD reste en état de marche après une panne d’alimentation soudaine.
Dans de nombreuses situations, l’utilisation du stockage défini par logiciel ou de la mise en cluster des serveurs peut limiter le besoin d’une assistance matérielle en cas de panne d’alimentation parce que toutes les données sont dupliquées vers un appareil de stockage séparé et indépendant sur un ou plusieurs serveurs différents. Les centres de données à l’échelle du web renoncent souvent à l’assistance en cas de panne d’alimentation et utilisent le stockage défini par logiciel sur des serveurs RAID pour stocker de façon efficace des copies redondantes des mêmes données.
Endurance
Pour tous les types de mémoires flash NAND des appareils à mémoire flash, la fiabilité des données stockées diminue avec chaque cycle d’écriture ou d’effacement (P / E) d’une cellule de mémoire flash NAND jusqu’à ce que les blocs flash NAND ne puissent plus stocker les données de façon fiable. Lorsque cela arrive, un bloc dégradé ou usé est retiré du bassin de stockage destiné à l’utilisateur et l’adresse logique de bloc (LBA) déplacée vers une nouvelle adresse physique dans la matrice à mémoire flash NAND. Un nouveau bloc de mémoire remplace le mauvais en utilisant le réservoir de blocs de rechange qui fait partie de la mémoire surdimensionnée (OP) du SSD.
Comme la cellule est en permanence programmée ou effacée, le BER augmente également de façon linéaire, et par conséquent, un ensemble complet de techniques de gestion doit être implémenté sur le contrôleur SSD entreprise pour gérer la capacité des cellules, ce qui permet de déterminer fiablement la durée de vie du SSD. [4]
La durée de vie P / E d’une mémoire flash NAND à une autre peut varier de façon importante, en fonction du processus de fabrication lithographique actuel et du type de flash NAND fabriqué.
NAND- Flash Memory Type |
TLC |
MLC |
SLC |
Architecture |
3 Bits par cellule |
2 Bits par cellule |
1 Bit par cellule |
Capacité |
Capacité la plus élevée |
Capacité la plus élevée |
Capacité la moins élevée |
Durée de vie (P/E) |
Durée de vie la moins élevée |
Durée de vie moyenne |
Durée de vie la plus élevée |
Prix |
$ |
$$ |
$$$$ |
Taux d’erreurs de bits NAND approximatif (BER) |
10^4 |
10^7 |
10^9 |
Table 2 - NAND flash memory types [5] [6]
Le SSD entreprise se distingue également du SSD client en matière de cycle de service. Un SSD de classe entreprise doit être en mesure de prendre en charge l’activité élevée en lecture ou en écriture imposée par un serveur de centre de données qui exige l’accès aux données 24 heures sur 24 et 7 jours sur 7, contrairement à un SSD de classe client, qui n’est en général utilisé que 8 heures par jour. Le SSD entreprise a un cycle de travail de 24x7, tandis que le SSD client a un cycle de travail de 20/80 (20 % du temps actif, 80 % en mode standby ou veille pendant l’utilisation de l’ordinateur).
Comprendre la résistance en écriture des applications ou des lecteurs SSD peut s’avérer très complexe. Ainsi, la Commission du JEDEC a proposé un système de mesure de la durée de vie qui utilise la valeur des terabytes écrits (TBW) pour afficher la quantité de données brutes pouvant être inscrites sur un SSD avant que la mémoire flash NAND du SSD ne commence à stocker de façon non fiable et doive être changée.
Les méthodes d’essai JESD218A et les charges de travail du SSD de classe entreprise JESD219 proposées par le JEDEC simplifie la manière d’interpréter les calculs du cycle de vie des fabricants SSD à l’aide du TBW en extrapolant une mesure de la durée de vie plus compréhensible pouvant être appliquée aux centres de données.
Comme indiqué dans les documents JESD218 et JESD219, des charges de travail différentes dans la classe d’application peuvent également subir un facteur d’amplification en écriture (WAF), qui est d’une magnitude plus grande que les écritures fournies par l’appareil hôte. Ceci peut facilement entraîner une usure incontrôlable du flash NAND au fil du temps, à cause d’une description trop longue, d’un BER plus élevé du flash NAND et d’une performance plus lente due aux pages non valides dispersées dans le SSD.
Tandis que le TBW est un sujet de discussion important entre les SSD de classe entreprise et de classe client, il s’agit simplement d’un modèle de prédiction pour la durée de vie du flash NAND, et le temps moyen de bon fonctionnement (MTBF) est considéré comme le composant du modèle de prédiction de la durée de vie basé sur la fiabilité des composants utilisés dans l’appareil. Les attentes des composants SSD de classe entreprise incluent un travail continu et plus difficile pour gérer les tensions de toutes les mémoires flash NAND au cours de l’espérance de vie du SSD. Tous les SSD de classe entreprise doivent être évalués à au moins un million d’heures MTBF, ce qui équivaut à plus de 114 années ! Kingston reste très prudent lorsqu’il s’agit de donner les spécifications de ses SSD, et il n’est pas rare de voir des spécifications MTBF plus élevées sur les SSD. Il est important de noter que 1 million d’heures est plus qu’un bon point de départ pour un SSD entreprise.
Avec la surveillance et les rapports générés par la fonction S.M.A.R.T. pour les SSD de classe entreprise, l’appareil peut facilement remettre en question son espérance de vie en se basant sur le facteur d’amplification en écriture (WAF) ainsi que sur son état d’usure avant de tomber en panne. Des avertissements préventifs de défaillances tels qu’une panne d’alimentation, des erreurs de bits se produisant sur l’interface physique, ou une usure inégale sont généralement pris en charge également. L’utilitaire Kingston SSD Manager peut être téléchargé sur le site de Kingston et utilisé pour indiquer l’état d’un lecteur.
Pour les SSD de classe client, les services S.M.A.R.T. permettant de surveiller le SSD au cours d’une utilisation normale ou après une panne peuvent être moins développés.
En fonction de la classe d’application et de la capacité du SSD, une capacité de réserve augmentée de la mémoire flash NAND peut également être allouée en tant que capacité de réserve surdimensionnée (OP). La capacité OP est cachée en accès utilisateur et système d’exploitation et peut être utilisée de façon temporaire comme tampon d’écriture pour une performance plus élevée et durable et comme remplacement des cellules de mémoire flash défectueuses sur toute l’espérance de vie du SSD afin d’augmenter la fiabilité et la longévité du lecteur (avec un nombre important de blocs de rechange).
Récapitulatif
Les différences entre les SSD de classe entreprise et de classe client sont importantes, qu’il s’agisse des cycles en écriture et en effacement de leurs mémoires flash NAND ou des techniques de gestion complexes pour accommoder les charges de travail dans les différentes classes d’application.
Comprendre ces différences de classes application peut être un outil efficace en vue de minimiser et gérer les temps d’arrêt gênants dans un environnement d’entreprise exigeant et stratégique, où performance, fiabilité et longévité sont des facteurs clés. Pour obtenir davantage d’informations, veuillez contacter votre représentant Kingston, ou utiliser la rubrique « Demandez à un expert » ou la fonctionnalité Assistance Technique sur Kingston.com.
En savoir plus sur les services Ontrack de récupération de données de disque SSD.
[1] Kingston Technology
[2] Uncorrectable Bit-error-rate (UBER) dictionnaire JEDEC
[3] Commission du JEDEC JESD218A: JESD218A: Soli State Drive (SSD) Requirements and Endurance Test Method, Commission du JEDEC
[4] Commission du JEDEC JESD219: JESD219: Solid State Drive (SSD) Endurance Workloads Commission du JEDEC
[5] The Bleak Future of NAND Flash Memory, Université de Californie
[6] 10. Characterization and Error-Correcting Codes for TLC Flash Memories, Université de Californie
[7] NAND Flash Qualification Guideline, Institute of Technology de Californie.