Bonjour à tous. Je vais vous parler de la société dans laquelle je travaille, qui s'appelle Criteo, et qui est notamment cliente d'Isilon, mais qui fait bien d'autres choses. On s'est certainement déjà rencontrés. Je vous ai mis quelques exemples de nos bannières publicitaires, puisque c'est notre secteur d'activité. Je vais rentrer dans les détails. Nous travaillons avec un grand nombre de clients internationaux que vous avez tous forcément déjà rencontrés : Price Minister, Zalando, Sears, et d'autres. Voilà quelques exemples de la partie visible de notre travail.
Quelques mots rapides sur Criteo. Criteo est une société française fondée en 2005, qui est aujourd'hui le leader mondial du retargeting personnalisé, notion que j'expliquerai dans quelques instants. Aujourd'hui, nous avons plus de 1200 clients dans 20 pays, en Europe, aux États-Unis, en Asie. Notre chiffre d'affaires en 2011, l'année étant déjà bien entamée, se situera aux alentours de 200 millions d'euros. Nous avons aujourd'hui 400 et quelques collaborateurs, dont une centaine en R&D, la majorité de ces effectifs R&D étant en France.
Qu'est-ce que le retargeting personnalisé ? C'est un ensemble de techniques qui permet à nos clients, principalement les grands sites e-commerce, de marquer leurs visiteurs et de pouvoir leur reproposer, lorsque ces visiteurs se rendent sur d'autres sites web, des sites sociaux, des sites d'information, etc., des bannières publicitaires personnalisées via Criteo. Le mécanisme est assez simple : vous allez sur un site e-commerce, celui que vous préférez, et on travaille avec les principaux. Si c'est votre première visite, on vous identifie. Je tiens à rassurer l'interlocuteur précédent : nous ne conservons absolument aucune donnée personnelle. Cet identifiant anonyme nous permet de collecter des données sur l'utilisateur, qui serviront par la suite pour le reconnaître sur un site éditeur de notre réseau, de savoir quelles sont ses préférences en termes d'annonceurs et de produits, et de lui proposer des bannières publicitaires personnalisées. Chaque bannière est unique et générée en temps réel. Deux internautes visitant la même page du même site au même instant verront des bannières différentes.
C'est une conférence sur le Big Data, donc je devais parler un peu de volumétrie. À chaque instant, nous livrons des quantités de bannières considérables, plusieurs centaines de millions par jour. On a des pics supérieurs à 1 million de bannières par minute, et une croissance actuelle de 25% par mois. Le graphe que vous voyez en dessous représente le nombre de bannières délivrées par jour. Chaque pic est une journée. Vous constaterez qu'entre le pic tout à gauche, début septembre, et le pic tout à droite, début octobre, on a augmenté de 25%. Nous entrons dans la période de fin d'année, la plus grosse période de l'année pour l'e-commerce et pour nous. Je n'ai aucun doute que nous allons continuer à exploser ces chiffres jour après jour et semaine après semaine.
Notre problème particulier est une augmentation très violente et permanente du trafic et donc de la quantité de données à stocker, avec une saisonnalité importante. Même si vous regardez bien le graphe, on voit que d'un jour à l'autre, il y a de grosses différences. Le dimanche est une grosse journée, le mardi est une plus petite journée, etc. Des à-coups assez importants.
Pour faire simple, chaque visite d'un internaute sur un site annonceur génère des événements. Via du code Criteo présent dans les pages des sites marchands, on collecte des informations sur les produits vus, cliqués, achetés, et parfois des données spécifiques. Par exemple, si vous êtes sur le site d'un voyagiste et que vous cherchez un voyage à Rome, on récupère cette information, ainsi que les dates de votre recherche. Il ne sert à rien de présenter des dates pour un voyage dans six mois si vous voulez partir la semaine prochaine.
Sur la partie éditeur, c'est-à-dire les sites sur lesquels on affiche les bannières, on logue les choix faits par la plateforme : quel annonceur, quelle campagne, quel produit, et surtout sur quoi les gens cliquent. Cela nous permet de faire le reporting pour nos clients et d'améliorer nos statistiques. Tous ces événements sont reçus en temps réel, avec deux flux de données : un flux annonceur et un flux éditeur. La collecte et l'analyse de ces données nous permettent de prédire les taux de clics et de recommander des produits en fonction de l'historique de l'utilisateur.
La volumétrie chez nous est de plusieurs teraoctets incrémentaux par jour. En données brutes, agrégées sur tous nos serveurs et data centers, c'est relativement important. Nous conservons une grosse partie de ces données, certaines agrégées et d'autres au format brut. La volumétrie de données est vraiment importante.
En termes d'architecture technique, nous avons précédemment une architecture relativement simple : des serveurs web qui loguaient toutes ces informations, transférées vers des serveurs back-office pour être analysées et agrégées par des applications développées en interne, puis stockées dans des bases de données relationnelles. L'architecture web était relativement classique. Le problème principal était la montée en charge : au fur et à mesure de la croissance de la société, on ajoutait du trafic et des serveurs web, ce qui augmentait la quantité de données à consolider. Le stockage total nécessaire devenait déraisonnable, la durée de traitement par nos outils augmentait trop fortement, et même après l'agrégation, il restait beaucoup de données à insérer en base de données, ce qui ralentissait et dysfonctionnait, freinant le développement du business.
Nous sommes passés à une architecture différente, où l'archivage ne se fait plus sur les serveurs frontaux, mais directement vers des serveurs de stockage réseau centralisé, puis consolidé sur un cluster de stockage, en l'occurrence un cluster Isilon, qui sert de point d'entrée pour l'analyse des données. Ensuite, on charge ces données sur un cluster de calcul. Nous utilisons Hadoop et Hive, qui nous permettent d'avoir une puissance de calcul phénoménale et de gérer correctement notre volumétrie. Une fois cela fait, on peut insérer les données agrégées en base, mais aussi les stocker dans des systèmes non transactionnels, voire directement dans des systèmes de cache pour une exploitation rapide par notre infra-web. Nous sommes sortis de l'infrastructure classique web-back-office-database pour répondre à des besoins différents.
L'avantage pour nous maintenant, c'est que nous avons vraiment découpé notre infrastructure en couches claires : une couche web, une couche d'agrégation, une couche de crunching de données, et des data stores différents pour nos besoins. Cela nous permet d'optimiser nos configurations serveurs et de les standardiser, ce qui nous fait gagner du temps en termes d'achat, de transfert, et de déploiement. Nous avons mutualisé nos ressources de stockage et de calcul, et nous sommes capables, sur chaque couche, d'avoir une approche scale-out, où nous achetons des serveurs classiques en grande quantité et les mettons en production facilement et rapidement.
Pourquoi Isilon ? Isilon m'a gentiment invité à venir vous parler aujourd'hui. Le point important est que je les connais depuis un certain temps, et j'ai dans mon équipe des personnes qui les connaissent et les suivent depuis quelques années. Nous avons des expériences très positives avec eux et nous nous sommes naturellement tournés vers eux pour ce besoin. Ce qu'on aime chez Isilon, c'est que la mise en production est absolument facile et l'administration est légère. J'ai mis en production un cluster de 4 ou 500 teraoctets en 2 heures, ce qui était le plus long étant d'installer physiquement les machines. L'administration est légère, et dans mon équipe, je n'ai pas d'administrateur de stockage. Nous n'en avons pas besoin. La montée en charge a été démontrée jusqu'à plus d'un pétaoctet sans problèmes. Les performances sont excellentes, y compris en charge. Nous avons trouvé chez Isilon une bonne culture R&D, avec des équipes locales et américaines, et un accès facile aux experts. C'est important pour nous d'avoir des fournisseurs capables de rentrer vite dans les détails et de ne pas passer à travers 18 couches d'account manager ou de support technique.
Isilon convient très bien au contexte de Criteo. C'est une architecture en scale-out, avec de nombreux nœuds identiques, ce qui nous convient bien. Nous avons des quantités phénoménales de données non structurées, et nous voulons pouvoir les déplacer facilement dans notre infrastructure. Nous avons une croissance très rapide et imprévisible de notre volumétrie, donc nous avons besoin d'un système qui monte en charge rapidement, facilement, sans interruption de service. Isilon offre des débits élevés en lecture-écriture, et nous apprécions la possibilité d'intégrer des applications tierces sur le cluster.
Voilà, j'en ai fini. Je vous remercie de votre attention. Si vous avez des questions, je serais ravi d'essayer d'y répondre. Merci.
Si vous visitez Sarenza, choisissez une paire de chaussures, et que vous êtes poursuivi par des publicités de chaussures sur Le Figaro, Libération, Le Monde.fr, La Tribune des Échos, c'est grâce à nous. Le plus simple, c'est de les acheter. Je pense que vous ne les verrez plus. Ah, c'est pas sûr ! Mesdames, faites-vous plaisir. C'est un bon vendeur. Avez-vous des questions ?
Est-ce que vous êtes, parce que Criteo, vous êtes le seul dans ce cas-là à faire ça ? Dans le monde de la publicité en ligne, il y a des centaines de sociétés. Sur le segment du retargeting, nous sommes aujourd'hui le leader. Nous sommes les seuls à pouvoir proposer nos services au niveau mondial. Il y a quelques sociétés qui nous chatouillent localement, mais en pratique, elles sont assez loin derrière. Nous n'en sommes pas inquiets, mais nous gardons un œil sur elles. Vous voyez, une bonne start-up française, après 5 ans, avec 200 millions de dollars de chiffre d'affaires, c'est quand même pas mal. On peut l'applaudir. Merci beaucoup. Je vous remercie.