Data Scientist (H/F)
Rakuten France

Data Scientist (H/F)

Rakuten France
  • Full time Position
  • Paris (France)
  • Published on September 1 2021

[English version below]


L'équipe Catalogue est garante de la bonne qualité des données produit constituant le catalogue de 100 millions de références proposées sur Rakuten France.
En qualité de Market Place, les sources de données alimentant le catalogue de Rakuten France sont diverses et hétérogènes. Afin d'améliorer l'expérience utilisateur et optimiser le référencement du catalogue, l'équipe a su inventer et gère au quotidien différents process d'enrichissement : extraction d'attributs, recatégorisation, normalisation de données, clustering, déduplication.
Pour remplir ses missions de façon autonome, proactive et innovante, l'équipe, constituée de 8 personnes, est organisée en deux pôles travaillant en étroite collaboration : une partie fonctionnelle et une partie développement.
De par son périmètre varié, l'équipe est amenée à travailler régulièrement avec les autres pôles du service technique, ainsi que les services marketing, SEO, et commercial.


En tant que Data Scientist au sein de l’équipe Catalogue, vous pensez et accompagnez le développement d'algorithmes de type NLP et CV qui permettront de relever les défis de demain, en améliorant notre capacité à concilier qualité et quantité des données produits constituant le catalogue de Rakuten France.
Notre objectif commun : optimiser nos process de déduplication de data, de clustering, d'enrichissement des données produits, et de catégorisation de fiches-produits

Vos principales missions sont notamment les suivantes :

  • Vous vous appropriez et adaptez des algorithmes existants d'extraction d'information des fiches produits constituant le catalogue de Rakuten France - à partir detexte (NLP), d'images (CV) et de données référentielles (attributs produits).
  • Vous lancez des phases d'apprentissages de Machine Learning afin d'améliorer la performance des algorithems existants (NLP et CV) visant à catégoriser, enrichir et clusteriser les fiches-produits.
  • Vous organisez au sein de l'équipe des phases d'annotation et de validation de la pertinence des algorithmes.
  • En collaboration constante avec l'équipe, vous êtes force de proposition et participez à la création d'outils innovants visant à améliorer la productivité et la qualité des traitements.
  • Vous pilotez l’avancement de vos recherches: vous savez analyser l’impact de vos algorithmes et suivre les KPIs afin d'adapter les modèles.

----------------------------------------------------------------------------------

The Catalog team is responsible for the quality of the product data that makes up the 100 million items in the Rakuten France catalog.
As a Market Place, the data sources feeding the Rakuten France catalog are diverse and heterogeneous. In order to improve the user experience and optimize the referencing of the catalog, the team has invented and manages various enrichment processes on a daily basis: attribute extraction, recategorization, data normalization, clustering, deduplication.
To fulfill its missions in an autonomous, proactive and innovative way, the team, made up of 8 people, is organized in two poles working in close collaboration: a functional part and a development part.
Due to its varied scope, the team works regularly with the other divisions of the technical department, as well as the marketing, SEO, and sales departments.

As a Data Scientist in the Catalog team, you will think and develop NLP and CV algorithms that will allow us to meet tomorrow's challenges by improving our ability to reconcile the quality and quantity of the product data that makes up the Rakuten France catalog.
Our common goal: to optimize our data deduplication, clustering, product data enrichment, and product file categorization processes.

Your main missions are the following:

  • You will appropriate and adapt existing algorithms for extracting information from the product sheets that make up the Rakuten France catalog - from text (NLP), images (CV) and referential data (product attributes).
  • You will launch Machine Learning phases to improve the performance of existing algorithms (NLP and CV) aimed at categorizing, enriching and clustering the product sheets.
  • You will organize annotation and validation phases of the algorithms within the team.
  • In constant collaboration with the team, you are a driving force and participate in the creation of innovative tools to improve productivity and the quality of processing.
  • You manage the progress of your research: you know how to analyze the impact of your algorithms and monitor the KPIs in order to adapt the models.

Profil :

De formation Bac+5, vous avez le goût du web, êtes un(e) navigateur(trice) éclairé(e) et parcourez régulièrement des sites internet ou diverses marketplaces.

Vous savez conceptualiser des algorithmes complexes selon différentes sources de donnée en pratiquant le Natural Language Processing.

Vous avez des connaissances et souhaitez développer vos compétences dans le domaine de la Computer Vision.

Vous parlez le digital même en anglais, et le fonctionnement d’un site web n’a plus de secret pour vous... ou vous êtes très curieux de le découvrir !

Vous n’avez pas peur de communiquer avec l’ensemble des équipes, vous savez défendre vos projets auprès d’elles, convaincre vos interlocuteurs et mobiliser l’intelligence collective.


Vous avez idéalement :

  • Une expérience réussie en traitement du langage naturel (NLP)
  • Des connaissances ou une forte appétence pour le domaine de l'analyse d'images (Computer Vision)
  • Des connaissances en développement (Python, Java)
  • Un compréhension du web et de l’E-Commerce

Les plus :

  • Une première expérience dans le web, pour s’adapter plus vite à notre contexte.
  • Un bon niveau d’anglais, pour parler avec tous les autres Data Scientist du groupe.
  • Un bon relationnel, afin de promouvoir vos réflexions & implémentations dans tout le groupe.
  • Des bases en SQL & noSQL.


----------------------------------------------------------------------------------

You have a taste for the web, you are an enlightened navigator and regularly browse websites or various marketplaces.
You know how to conceptualize complex algorithms according to different data sources by practicing Natural Language Processing.
You have knowledge and wish to develop your skills in the field of Computer Vision.
You speak digital even in English, and the functioning of a website has no secret for you... or you are very curious to discover it!
You are not afraid to communicate with all the teams, you know how to defend your projects to them, convince your interlocutors and mobilize the collective intelligence.

You ideally have:

  • A successful experience in natural language processing (NLP)
  • Knowledge of or a strong interest in the field of image analysis (Computer Vision)
  • Knowledge in development (Python, Java)
  • An understanding of the web and E-Commerce

Plus :

  • A first experience in the web, to adapt more quickly to our context.
  • A good level of English, to speak with all the other Data Scientists of the group.
  • Good interpersonal skills, to promote your thoughts & implementations throughout the group.
  • Basic knowledge of SQL & noSQL.