Big Data chez Criteo Salon E marketing Paris 01 2013
January 31, 2013
Interview de Julien Simon, VP Engineering de Criteo, réalisée le 29/01/2013 par Silicon TV (itweb.tv) sur le salon E-marketing Paris 2013
Transcript
Julien Simon, bonjour. Bonjour. Alors, vous êtes vice-président en charge de l'ingénierie chez Criteo, une jeune pousse française spécialisée dans le ciblage publicitaire. Quelle est la composante technologique de cette société ? Pouvez-vous nous rappeler, en gros, quel volume de données vous devez gérer chaque jour ?
Bien sûr. Avant de parler des données, on peut mentionner les effectifs. 40% des effectifs de Criteo sont des ingénieurs et des docteurs, soit environ 300 personnes. Cette taille d'équipe nous donne la capacité d'attaquer des problèmes complexes comme le big data. En termes de volumétrie, chaque jour, Criteo doit stocker et traiter environ 20 téraoctets de données supplémentaires. 20 téraoctets par jour. C'est ça, concrètement, le Big Data.
Pour bien comprendre, l'un de vos gros enjeux est d'afficher des publicités à la volée qui correspondent aux intérêts des internautes, c'est ça ?
C'est ça. On essaie d'afficher la bonne publicité à la bonne personne au bon moment. Pour cela, il faut extraire des informations utiles de cette avalanche de données pour, en temps réel, construire la bannière la plus adaptée, performante, et intéressante pour l'internaute. Un aspect quantitatif, un aspect qualitatif. Si on parle de quantité, quelle est votre infrastructure informatique aujourd'hui pour gérer une telle avalanche de données ?
Aujourd'hui, on sert du trafic dans 35 pays en Amérique, en Europe, et en Asie. Pour avoir les meilleures performances en termes de temps de réponse et de délai de livraison des bannières, nous avons des data centers proches de nos clients et de nos marchés. Nous avons trois data centers en Europe, deux aux États-Unis, et deux en Asie, tous reliés par des fibres optiques pour transférer les données et accéder à nos machines.
Et concrètement, combien de machines et comment sont-elles équipées ?
Nous avons une infrastructure composée de plus de 2000 machines. Ça change tous les jours, on en rajoute constamment. On utilise des serveurs commodity, un peu comme Google. On n'utilise pas de gros serveurs issus de constructeurs spécifiques. Notre approche est de déployer des serveurs commodity, basés sur des processeurs Intel, et d'en mettre beaucoup. Nous avons une approche scale-out pour étaler la charge entre nos data centers et nos serveurs.
Quel logiciel avez-vous retenu ?
Pour la partie Big Data, nous avons une architecture à peu près 100% open source. Nos serveurs tournent sous Linux et utilisent Hadoop, ainsi qu'une série de technologies NoSQL comme MongoDB, Couchbase, Storm (une déclinaison temps réel d'Hadoop), et Kafka (un logiciel open source par LinkedIn pour le transfert de données en flux). Nous sommes vraiment à la pointe de ces technologies et avons un appétit pour les versions bêta et les technologies en développement.
Criteo est donc bien armé pour faire face à cette avalanche de données. Sur la partie plus qualitative, j'imagine que vous avez également développé des algorithmes propriétaires extrêmement sophistiqués pour comprendre le comportement des internautes et anticiper leur décision d'achat ?
Exactement. Ces opérations se passent en deux temps. Un premier temps de back-office où, sur la base de données traitées et agrégées, on extrait des informations et des choix possibles. Puis un deuxième temps en temps réel, celui de la construction et de l'affichage de la bannière, où on prend la meilleure décision en quelques millisecondes. Ces décisions concernent l'achat d'espace, la prédiction du taux de clic, et la construction de la bannière, en choisissant le bon annonceur, les bons produits, et le rendu de la bannière. Nous avons donc deux classes d'algorithmes : prédictions et recommandations, déclinées entre back office et front office.
Combien d'ingénieurs travaillent sur ces algorithmes ?
Pour la partie moteur, nous avons une cinquantaine de personnes concentrées sur les algorithmes, la partie théorique, avec des docteurs en informatique théorique, en statistique, et en machine learning. Nous avons aussi des ingénieurs de développement pour implémenter ces algorithmes. Sur les 300 ingénieurs de Criteo, une cinquantaine est vraiment concentrée sur la recherche.
Pour bien comprendre, vous avez des attentes en matière de mathématiques et d'informatique qui sont au plus haut niveau mondial. Vous êtes dans les mêmes problématiques qu'un Google ou un Facebook, avec des équipes parfois similaires.
C'est exactement ce que j'essaie d'expliquer. Nous sommes en première division du web en termes de trafic, de volumétrie, et de chiffres. Nous avons des centaines de millions d'euros de chiffre d'affaires, et en pic, 500 000 requêtes HTTP par seconde. Ce sont des chiffres difficiles à appréhender. Nous nous comparons naturellement à des acteurs comme LinkedIn et Twitter, qui sont confrontés aux mêmes problèmes. Nous utilisons donc les mêmes technologies et ciblons des ingénieurs et des docteurs de haut niveau, avec un processus de recrutement assez strict, y compris des concours comme Code of Duty.
On sait que la France n'est pas mauvaise en matière de mathématiques ou d'informatique, avec des gagnants récents de la médaille Fields, l'équivalent du prix Nobel pour les mathématiques. Trouvez-vous les talents dont vous avez besoin pour le développement de Criteo en France ?
En France, nous avons la chance d'avoir de très bons ingénieurs et de bons théoriciens, avec des formations de haut niveau en maths, stats, et machine learning. Nous recrutons beaucoup d'ingénieurs, y compris ceux qui viennent du back-office bancaire et financier, car il y a un lien entre ces deux activités. Nous attribuons un prix à un espace publicitaire en temps réel, ce qui est une problématique bien connue dans la finance. On peut dire que la technologie a pris le pouvoir dans le marketing, et Criteo en est un excellent exemple.
Criteo a investi énormément en technologie et continuera à le faire. Nous pensons que c'est le levier de la performance.
Très bien. Julien Simon, je vous remercie. C'est moi.
Tags
Big DataCriteoData CentersMachine LearningOpen Source Technology
Julien Simon is the Chief Evangelist at Arcee AI
, specializing in Small Language Models and enterprise AI solutions. Recognized as the #1 AI Evangelist globally by AI Magazine in 2021, he brings over 30 years of technology leadership experience to his role.
With 650+ speaking engagements worldwide and 350+ technical blog posts, Julien is a leading voice in practical AI implementation, cost-effective AI solutions, and the democratization of artificial intelligence. His expertise spans open-source AI, Small Language Models, enterprise AI strategy, and edge computing optimization.
Previously serving as Principal Evangelist at Amazon Web Services and Chief Evangelist at Hugging Face, Julien has helped thousands of organizations implement AI solutions that deliver real business value. He is the author of "Learn Amazon SageMaker," the first book ever published on AWS's flagship machine learning service.
Julien's mission is to make AI accessible, understandable, and controllable for enterprises through transparent, open-weights models that organizations can deploy, customize, and trust.