Monday, October 20, 2014

Hortonworks sort Ozone

Hortonworks (www.hortonworks.com), éditeur de la distribution open source Hadoop Data Platform rencontré à 2 reprises par l'IT Press Tour, dévoile Ozone dans un blog post sur son propre site accessible ici. Ozone est un Object Store qui se veut une extension naturelle de HDFS. HDFS est depuis l'origine synonyme de scalabilité, pour ceux qui en doutent, il suffit de voir les tailles de cluster chez Yahoo ou ailleurs et on comprend par le nombre de noeuds ou la capacité de stockage cumulé ce que cela signifie. Et pour ceux qui n'aiment pas le terme cluster qu'ils estiment réservé à des petites grappes de machines en haute-disponibilité, il se reconnaitront, je maintiens le terme cluster même pour des centaines de noeuds.
HDFS est bien le file system hyper-scalable pour le data lake d'entreprise, il lui restait à devenir Web-scale. Il lui manque certes quelques points comme des fonctionnalités globales géographiques, une dimension key/value (objet)... mais l'adoption est là. Et je ne trahirai rien en insistant sur mon adage constant qu'il n'y a qu'une seule vérité celle du marché qui a toujours raison. Le marché le montre tous les jours, HDFS est le File System le plus prometteur pour les data centers d'entreprise au-delà des file systems des postes de travail ou des serveurs applicatifs, le rouleau compresseur a été lancé dès 2006. Vous le savez, mon préféré des file system était VxFS, je rappelle juste que Veritas a dévoilé VxFS en 1991 avec des fonctionnalités uniques qui sont arrivés que bien plus tard dans les autres systèmes de fichiers.
Il est bon de noter qu'Hortonworks et d'autres acteurs reconnaissent et valident le besoin d'un object store avec l'introduction d'Ozone. Comme beaucoup de réflexions autour des object stores, celle-ci passe par le besoin:
  • de supporter un nombre colossal d'objets (on parle de trillions),
  • de traiter des tailles différentes d'objets allant de quelques Ko à des centaines de Mo,
  • de garantir l'intégrité des données (fondamentale pour les entreprises),
  • d'exposer une API REST pour l'accès et la manipulation des données
  • et de fournir un mécanisme de protection géographique des données.
Hortonworks ajoute à cette liste la contrainte ou la nécessité de s'appuyer sur HDFS. Effectivement, HDFS est largement présent, déployé et éprouvé, il suffira donc d'upgrader sa couche HDFS pour bénéficier d'Ozone. Bien vu.

Ozone s'appuie sur les data nodes HDFS pour supporter des informations autres que des fichiers ici les objets. La notion de bucket est introduite ici, un bucket possède un nom, chaque objet est unique dans un bucket car sa clef est unique par bucket. La fonction de metadata de l'objet, habituelle dans HDFS, sert à identifier et accéder de façon unique à l'objet ainsi le nom du bucket combiné à la clef de l'objet souhaité pointe vers un seul et unique lieu de résidence de la data. Un block sur HDFS appartient exclusivement à un bucket nommé. Nous obtenons un modèle asymétrique, assez similaire au name node HDFS, où il existe des services de metadata qui permet de localiser les data nodes qui hébergent les données elles-mêmes. Pour en savoir plus, je vous renvoie à la page du projet Apache accessible ici, ce n'est à ce jour qu'une proposition. HDFS confirme avec ce développement son rôle central pour le stockage des données d'entreprise de façon finalement universelle de part l'adoption du file system par tout le monde et partout.
Ce message arrive quelques jours après celui de Caringo qui avait déjà annoncé SwarmFS pour supporter HDFS 2+. Le marché se resserre, les acteurs object storage se multiplient, tout le monde veut son offre, il y aura des morts peu d'élus mais le marché est large pour que plusieurs puissent s'exprimer et s'épanouir librement au moins pour un temps. Mais pour le data center d'entreprise du futur, il y aura ceux qui ignorent Hadoop et ceux qui surfent dessus...
Share:

0 commentaires: