Dec 18, 2014

Surprise, Teradata acquires Rainstor

RainStor (, ISV specialized in Hadoop archiving, just announced its move under Teradata's umbrella. With RainStor, Teradata made 4 acquisitions this year: Revelytix, developper of Hadoop data management tools, Hadapt, a builder of SQL on Hadoop, and Think Big, for data science and engineering services. It's a surprise, at least it was kept confidential for the last few months, the company received a 12M$ for its 3rd financial round in October 2012. We met RainStor in March 2012 with the IT Press Tour and we realized that the company jumped in the Hadoop wagon as the opportunity is so huge and the cake is so big that every company even a small could expect to have just a small piece of it. If you read carefully the press release, there is no quote of the RainStor CEO John Bantleman. Teradata indicates that RainStor will strengthen the Hadoop portfolio. More globally, classic big data players like Teradata essentially known before the Hadoop wave have had some difficulties to manage the transition to this new model based on open source technologies. At the same time, innovations continue to be propelled by small agile startups a few times acquired by big vendors, again it just illustrates that big irons have too much inertia to adapt to the market dynamic. Good catch.

Nov 30, 2014

A few IT Press Tour statistics

A few hours before we'll officially kick-off the 14th edition of The IT Press Tour, it's time to evoke some interesting statistics about the event. In fact, it gives perspective but also reasons why it attracts some many EMEA press publications, journalists and reporters and vendors to reflect a growing success. In 2 words, the event is established, recognized and delivers real value for everyone.

FR Edition Rest of Europe EMEA Edition
Grand total14

Some statistics:
  • 105 different companies (including 14th edition),
  • 155 sessions in total (including 14th edition) as several companies integrate the event in their EMEA communication strategy,
  • Total coverage (press articles in print or online, blog posts, video posts...) = 3600 (excluding 14th edition),
  • Average coverage per company = 37+ (=3600/95, excluding 14th edition not yet occurred),
  • Average coverage per session = 25+ (=3600/145, excluding 14th edition not yet occurred),
  • Group of 50+ EMEA journalists with 15 at each EMEA edition,
  • Total CEO met = 70+,
  • Total CTO met = 50+,
  • Among them: Lee Chen (CEO A10 Networks), Jayshree Ullal (CEO Arista Networks), Aaron Levie (CEO Box), Doug Cutting (father of Hadoop Cloudera), Mike Olson (former CEO Cloudera), Jedidiah Yueh (CEO Delphix), Sujal Patel (former CEO Isilon), Fred van den Bosch (CEO Librato), Gary Bloom (CEO MarkLogic), Suresh Vasudevan (CEO Nimble Storage), Nir Zuk (CTO Palo Alto Networks), Scott Dietzen (CEO Pure Storage), John Colgrove (CTO Pure Storage), Don Basile (former CEO Violin Memory) and John W. Thompson (CEO Virtual Instruments and Chairman Microsoft),
  • Total IPO = 6 (after we met): A10 Networks, Arista Networks, Nimble Storage, Palo Alto Networks, Varonis and Violin Memory,
  • Total Acquisitions = 17 (after we met) by alpha order: Arkeia by WDC, Blade Network Technologies by IBM, Copiun by Good Technology, eMeter by Siemens, Firebase by Google, Fusion-IO by Sandisk, High Cloud Security by HyTrust, Isilon by EMC, NexGen Storage by Fusion-IO, Nicira by VMware, Nine Technology by Imation, Starboard Storage by SGI, Storsimple by Microsoft, Symform by Quantum, TwinStrata by EMC, Virsto by VMware and Whiptail by Cisco.
The next edition starting today will be amazing as well, with a fantastic press group and 12 companies covering the 3 hot topics Cloud, Storage and Big Data: Cloudera, Cloudian, Diablo Technologies, Elasticsearch, Exablox, Nimble Storage, ObjectiveFS, Platfora, Platform9, Primary Data, Qubole and Spanning Cloud Apps.

Nov 19, 2014

Primary Data delivers the promises of universal storage

Primary Data (, recent storage vendor founded by David Flynn and Rick White one year ago, made a big splash at DEMO conference a few hours ago. To put things in perspective, Primary Data raised 50M$ in Nov. 2013 from several VCs: Accel Partners, Battery Ventures, Pelion Venture Partners, Lightspeed Venture Partners and Wing Capital Group. With this first company iteration, Primary Data absorbed Tonian Systems (Nov 2011, Nov 2012 and Aug. 2013), pioneer in Parallel File System with pNFS and key contributor of Open-pNFS. The company also announced today the appointment of Steve Wozniak as Chief Scientist a few days later the nomination of Lance Smith as CEO. Fusion-io band is now grouped again for a new venture, a new storage adventure.
Primary Data just launched its product and announced a data center storage strategy. As many end-users and CIOs expect and wish to deploy, Primary Data promotes a very highly scalable storage agnostic data virtualization platform with several key points to keep in mind as they will serve as references for others:
  • 1 single global dataspace across all resources,
  • storage agnostic with file, block and object back-ends,
  • seamless linear scalability with independence between performance and capacity,
  • data mobility across local and cloud tiers thanks to a policy-based automation engine and a real time data placement mechanism,
  • and the support of block, file and object storage mode.
Primary Data uses a asymmetric model and provides essentially 2 components: Data Hypervisor installed on client machines and Data Director, a Meta Data Server (MDS) like the pNFS MDS, with the famous data policy engine. If you read pNFS specification, the protocol supports file, block and object storage back-ends and Primary Data delivers that promises from one product.

What is less clear are the use cases where you can consider Primary Data solution, it's probably too early to establish a clear matrix where the product excels and delivers the right value. Time will give us visibility in that angle but we can anticipate high-end NAS services for cross industries when capacity and throughput are required.
For sure, Primary Data leveraged the good work made by Tonian Systems with their pNFS Meta Data Server, people from this company continue to contribute to the pNFS project. Benny Halevy, former CTO of Tonian and active in pNFS, was CTO of Primary Data before the shift started with Lance Smith arrival, Ron Asher, former Engr. VP at Diligent and IBM/XIV, is SVP Engr and very interesting, Jeff Rothschild, co-founder of Veritas Software, now at Facebook, is on the board. We'll learn more about Primary Data with our visit at their HQ during the 14th IT Press Tour 1st week of December.
Before the next meeting, here is the short video of the interview of David Flynn I made this evening at the Primary Data party:

Nov 10, 2014

14ème édition de l’IT Press Tour

14, vous avez bien lu. Véritable marronnier et devenu une référence depuis quelques saisons, l’IT Press Tour va reprendre ses quartiers dans la vallée première semaine de Décembre. 15 journalistes et reporters européens vont converger vers la Californie dans le but de rencontrer de belles pépites comme toutes les éditions passées l’ont permises. Pour cette tournée, nous allons nous concentrer sur 3 thèmes majeurs: le Stockage, le Cloud et le Big Data et visiterons par ordre alpha:
  • Cloudera, locomotive incontestée du Big Data à la sauce Hadoop et fidèle parmi les fidèles, cette visite sera la 5ème,
  • Cloudian, acteur de Cloud Storage prometteur à base de technologie ring,
  • Diablo Technologies, développeur d’une solution de stockage hyper rapide,
  • Elasticsearch, leader en moteur de recherche hyper évolutif,
  • Exablox, référence en stockage SMB hyper scalable à base de technologie ring aussi,
  • Nimble Storage, leader du stockage hybride, un fidèle également qui participe pour la 4ème fois,
  • ObjectiveFS, acteur récent qui surfe sur le stockage Amazon S3 en mode file system,
  • Platfora, pour une meilleure compréhension des données collectées toujours avec Hadoop,
  • Platform9, nouvelle pépite du Cloud Management,
  • Primary Data, surprise par les fondateurs de Fusion-IO David Flynn et Rick White,
  • Qubole, innovateur en matière de plateforme Hadoop,
  • Spanning, leader en backup cloud, qui vient de se faire acheter par EMC, bien vu de notre part.
Suivez le tour grâce au hashtag #ITPT, en me suivant sur Twitter @CDP_FST et les autres membres du groupe et en lisant les articles sur les différents supports qui participent à cette édition pleine de promesses.

Nov 3, 2014

Scality frappe un grand coup

Scality (, activiste des nouvelles infrastructures de stockage hyper-scalable, profite de l'OpenStack Summit à Paris pour annoncer Numergy comme référence client sur Swift via le connecteur Scality Swift mais surtout dévoile le projet Open Source REST Block Driver (SRBD) en license LGPL. Il convient de ne pas confondre le RBD de Ceph qui signifie RADOS Block Device avec celui de Scality que nous désignerons dorénavant SRBD. Scality RING, solution pensée comme un object store consommé au travers d'API comme Amazon S3, Swift, CDMI ou l'API Scality, s'est au cours du temps émancipé avec des interfaces fichiers comme FUSE, NFS et SMB et dorénavant un mode bloc utilisable via Cinder dans l'environnement OpenStack ou simplement via un besoin "classique" bare-metal. SRBD s'appuie sur CDMI et illustre parfaitement la souplesse et les usages possibles du standard.

La mise en place est bluffante de simplicité en quelques lignes de commande et l'agrandissement à chaud de volume est possible que les les volumes soient attachés ou non. Les devices logiques dynamiques instanciés sont aussi utilisables via un gestionnaire de volumes type LVM. Ils peuvent bien sûr être consommés en mode bloc natif ou recevoir un système de fichiers type xfs, ext2FS, ext3fs... Le projet, très bien reçu par les utilisateurs et la communauté, va aussi recevoir des développements dans plusieurs directions. Pour en savoir plus, reportez-vous à la page du projet sur GitHub. Bravo.

Oct 26, 2014

Un nouveau venu Peaxy

Peaxy (, éditeur d'une solution de stockage innovante, vient de dévoiler son offre Hyperfiler 2.0. La société, fondée en 2012, a levée 17M$ en tour A en août 2013 en plus de son tour initial de 2,5M$ et nous noterons la présence des anciens leaders techniques de MaxiScale comme Francesco Lacapra, CTO et VP Engr, de quoi penser que la solution possède certains héritages intéressants. Hyperfiler est un serveur de contenu qui se présente sous forme purement logicielle pour gérer de grands volumes de données sur du matériel standard et qui cible les environnements verticaux. Sur le papier, l'offre est séduisante, dédiée au monde non structuré et marketée autour de 3 axes forts: l'agrégation de stockage pour stocker plus de volumes, le search et l'accès aux données.
Le produit introduit la notion d'Hyperserver, une instance de serveurs de fichiers purement logique, qui peut exister en millions d'exemplaires et qui est distribué sur 4 noeuds maximum. Un seul namespace, maintenu en mémoire, est accessible aux clients, il est distribué entre tous les hyperservers dédiés à la gestion du name space. Ainsi les accès disques sont limités pour favoriser un service rapide des données. Il existe 2 types d'Hyperservers, ceux dédiés aux data space et ceux dédiés au name space. Pour chaque namespace, le système peut maintenir jusqu'à 3 copies des données et l'intégrité est assurée par un mécanisme de scrubbing qui facilite le maintien en conditions opérationnelles.
Le produit permet de créer des Data policies et des Migration policies qui jouent sur le placement de données et le cycle de vie au sein du cluster pour déplacer les données vers le bon sous-ensemble de stockage. Le fonctionnement est super simple grâce à la mise en place du concept de classes de stockage, la policy met en relation la classe et les données entrantes ou existantes au cluster lors d'un besoin éventuel de migration vers une autres classe, moins coûteuse, moins rapide ou simplement plus durable... La policy de Migration est programmable, celles de placement de données entrantes sont actives dés leur création.

Le produit s'installe sur des serveurs x86 très standards qui tournent une distribution Linux 64 bits type Centos 6.4 ou RHEL 6.4. Pour fournir une performance d'accès optimale, Peaxy a envisagé une méthode par client dédié pouvant tiré parti de l'Hyperfiler. Ainsi, sur Linux, l'accès aux données se fait grâce à un mode FUSE, pour Windows un client spécifique est nécessaire et un mode gateway est possible avec Samba.
En terme de protection, Hyperfiler est assez limité puisque seule la réplication au sein du cluster ou entre clusters en mode asynchrone est proposée. Suivant la densité des serveurs, le mode RAID est possible donc des méthodes assez rustiques et pas tournées vers la super scalabilité. Peaxy ne propose pas d'erasure coding par exemple. Cela l'offre semble bien née, le produit existe, Peaxy annonce quelques clients, attendons une confirmation par le marché, le seul juge de paix...

Oct 16, 2014

Hortonworks sort Ozone

Hortonworks (, éditeur de la distribution open source Hadoop Data Platform rencontré à 2 reprises par l'IT Press Tour, dévoile Ozone dans un blog post sur son propre site accessible ici. Ozone est un Object Store qui se veut une extension naturelle de HDFS. HDFS est depuis l'origine synonyme de scalabilité, pour ceux qui en doutent, il suffit de voir les tailles de cluster chez Yahoo ou ailleurs et on comprend par le nombre de noeuds ou la capacité de stockage cumulé ce que cela signifie. Et pour ceux qui n'aiment pas le terme cluster qu'ils estiment réservé à des petites grappes de machines en haute-disponibilité, il se reconnaitront, je maintiens le terme cluster même pour des centaines de noeuds.
HDFS est bien le file system hyper-scalable pour le data lake d'entreprise, il lui restait à devenir Web-scale. Il lui manque certes quelques points comme des fonctionnalités globales géographiques, une dimension key/value (objet)... mais l'adoption est là. Et je ne trahirai rien en insistant sur mon adage constant qu'il n'y a qu'une seule vérité celle du marché qui a toujours raison. Le marché le montre tous les jours, HDFS est le File System le plus prometteur pour les data centers d'entreprise au-delà des file systems des postes de travail ou des serveurs applicatifs, le rouleau compresseur a été lancé dès 2006. Vous le savez, mon préféré des file system était VxFS, je rappelle juste que Veritas a dévoilé VxFS en 1991 avec des fonctionnalités uniques qui sont arrivés que bien plus tard dans les autres systèmes de fichiers.
Il est bon de noter qu'Hortonworks et d'autres acteurs reconnaissent et valident le besoin d'un object store avec l'introduction d'Ozone. Comme beaucoup de réflexions autour des object stores, celle-ci passe par le besoin:
  • de supporter un nombre colossal d'objets (on parle de trillions),
  • de traiter des tailles différentes d'objets allant de quelques Ko à des centaines de Mo,
  • de garantir l'intégrité des données (fondamentale pour les entreprises),
  • d'exposer une API REST pour l'accès et la manipulation des données
  • et de fournir un mécanisme de protection géographique des données.
Hortonworks ajoute à cette liste la contrainte ou la nécessité de s'appuyer sur HDFS. Effectivement, HDFS est largement présent, déployé et éprouvé, il suffira donc d'upgrader sa couche HDFS pour bénéficier d'Ozone. Bien vu.

Ozone s'appuie sur les data nodes HDFS pour supporter des informations autres que des fichiers ici les objets. La notion de bucket est introduite ici, un bucket possède un nom, chaque objet est unique dans un bucket car sa clef est unique par bucket. La fonction de metadata de l'objet, habituelle dans HDFS, sert à identifier et accéder de façon unique à l'objet ainsi le nom du bucket combiné à la clef de l'objet souhaité pointe vers un seul et unique lieu de résidence de la data. Un block sur HDFS appartient exclusivement à un bucket nommé. Nous obtenons un modèle asymétrique, assez similaire au name node HDFS, où il existe des services de metadata qui permet de localiser les data nodes qui hébergent les données elles-mêmes. Pour en savoir plus, je vous renvoie à la page du projet Apache accessible ici, ce n'est à ce jour qu'une proposition. HDFS confirme avec ce développement son rôle central pour le stockage des données d'entreprise de façon finalement universelle de part l'adoption du file system par tout le monde et partout.
Ce message arrive quelques jours après celui de Caringo qui avait déjà annoncé SwarmFS pour supporter HDFS 2+. Le marché se resserre, les acteurs object storage se multiplient, tout le monde veut son offre, il y aura des morts peu d'élus mais le marché est large pour que plusieurs puissent s'exprimer et s'épanouir librement au moins pour un temps. Mais pour le data center d'entreprise du futur, il y aura ceux qui ignorent Hadoop et ceux qui surfent dessus...

Scality signe avec HP

Scality (, éditeur de SDS avec son produit RING, annonce un accord global de revente avec HP ( Illustrant une nouvelle fois parfaitement que l'innovation vient des petits acteurs agiles et réactifs, le deal démontre la difficulté persistante des géants IT à s'adapter et à fournir une solution en ligne avec les attentes du marché. HP avait acquis Ibrix en 2009 et avait depuis proposer le produit sous différents modes avec la possibilité de l'utiliser en mode objet. Là encore, le terme objet était utilisé pour signifier le mode d'accès à la donnée mais n'impliquait pas une organisation interne du produit dans un tel mode. Le produit était (est) toujours limité à moins de 20PB ce qui n'est pas l'esprit d'une solution objet pensée pour être très évolutive en capacité voire illimité. Scality arrive donc au catalogue HP couplé avec les serveurs ProLiant SL4500 et DL380/360 pour cibler les 5 grands cas d'usage: Active Archives, Content Distribution, Web et Services Cloud, Distributed Computing and Global Enterprise Cloud. A lire les différents supports au sujet de SDS, on comprend la difficulté à définir le terme et le concept, une bonne idée serait simplement de suivre Scality très en ligne avec les attentes du marché et la vraie volonté d'indépendance vis-à-vis du matériel et de la valeur apportée par le logiciel. Nouvelle étape clef pour Scality, nouvelle ère dirons-nous, nouvelle espérance aussi...

Oct 7, 2014

Après le SDS voilà le Software-based Storage

Gag ou pas, certains y vont de leur petit discours. Après les errements de Wikibon sur le Server SAN qui finalement se résume à un SDS en mode bloc, voici que Chuck Hollis, dans son post du 9 Septembre, décline le SDS en Software-Based Storage. On croit rêver, on va avoir bientôt le Software-Controlled Storage ou un autre truc du genre comme si nous n'avions pas assez d'acronymes ou de termes que les utilisateurs ne comprennent pas et finalement rangent comme nouveau jargon marketing. Pour lui le SBS est différent du SDS car il tolère et se base sur des serveurs x86 standard. Et boom ! Maintenant le SBS de Chuck Hollis est synonyme du terme Server SAN de Wikibon si on garde le mode bloc. Et que dire si la même approche est conservée avec un mode d'accès fichier ou object, on n'est plus alors en Server SAN mais en Server File ou Server Object. Et que dire des modes unifiés bien réels sur le marché. Quelle pagaille ! Et le gag continue avec un nouvel acronyme qu'IDC aurait sorti le SDS-P pour Software-Defined Storage Platform. Disons tout net, si c'est pour considérer des unités de stockage qu'on vient agréger, virtualiser, "pooler", segmenter alors il s'agit de Virtualisation de Stockage. Nous connaissons ça depuis la fin des années 90 avec DataCore, FalconStor, Store-Age, StorageApps... pour parler du mode bloc. Nous nous souvenons du FAN (File Area Network) qui avait tenté de décliner le SAN pour la partie fichier avec quelques acteurs comme Acopia, Attune, Nuview, NeoPath ou Rainfinity. Admettons que les travaux récents et les initiatives à base d'API REST influent un peu le modèle et alors nous obtenons une version 3 du même concept. Tous les acteurs qui viennent du stockage matériel ont le même souci, ils ne comprennent et n'admettent pas que l'on puisse faire du stockage avec des serveurs équipés de disques internes et plus avec des baies de disques. C'est incroyable, Chuck Hollis vient d'EMC qui a acquis FilePool en 2001 (cf. mon post en Mai 2007) pour devenir Centera et c'était déjà l'approche d'unités de serveurs indépendantes avec des disques internes. Il existe bien Atmos chez EMC... Et l'article de Chuck est encore plus éloquent quand il évoque les modes de protection avec 2 copies au sein des serveurs. Si vous faites une recherche sur le terme RAIN, il n'y a rien non plus. Et pourtant Rainfinity a été achetée par EMC en 2005 ayant prolongée des travaux de la NASA (cf. mon post d'Avril 2006 ou de Février 2007). Belle confusion qui continue à être alimentée par ce type de post, allez, disons presque inutile. C'est navrant...

Sep 15, 2014

Ericsson s'offre Fabrix Systems

Fabrix Systems (, éditeur d'une solution NAS purement logicielle et fortement évolutive dédiée au monde vidéo, vient de se faire absorber par Ericsson 8 ans après sa création. J'avais déjà couvert Fabrix en Juin 2013. La transaction a été dévoilée à hauteur de 95M$, un peu décevant mais elle s'explique par la verticalité de la solution et son manque d'universalité. Ericsson met donc la main sur une solution déjà au catalogue d'IBM et reconnue dans le segment des médias grâce à des offres comme Cloud DVR ou VOD. Fabrix Systems sera intégrée au département Solution Area Media au sein de la Business Unit Support Solutions. Bien vu.