Intelligence des avis mondiale — sentiment unifié sur chaque site, langue et variante produit.
Un système ML multi-pipeline qui collecte les avis produits sur des sites e-commerce dans plusieurs pays, harmonise les noms de produits par embeddings et clustering, et livre des signaux de sentiment structurés à grande échelle sur Google Cloud.
L'Oréal vend le même produit sous des noms légèrement différents sur Sephora, Amazon, Douglas, Boots et de nombreux autres distributeurs — dans différents pays et volumes. Aucun site ne décrit un produit de manière identique.
Sans identité produit unifiée, agréger le sentiment des consommateurs sur les sites était impossible. Les avis étaient fragmentés, inexploités et inexploitables à grande échelle.
Consumer Loop est construit comme trois pipelines ML indépendants mais interconnectés sur Vertex AI — chacun gérant une étape distincte : collecte de données, entraînement du modèle et inférence en direct. Tous partagent un store central BigTable.
L'innovation clé est la couche d'harmonisation des produits : des embeddings multilingues + clustering qui relie les variantes de produits entre les sites avant toute analyse de sentiment.
Les arêtes en pointillés représentent les flux de données inter-pipelines. BigTable est le store partagé — il alimente les pipelines d'entraînement et d'inférence. L'artefact de modèle entraîné circule depuis le registre vers l'inférence par lots.
Arêtes pleines = flux pipeline · Arêtes pointillées = partage de données inter-pipelines
Le défi central n'est pas l'analyse de sentiment — c'est de savoir que deux avis de sites différents parlent du même produit. Consumer Loop résout cela avec une approche en deux étapes : harmonisation des produits via des embeddings, puis classification de sentiment multilingue.
Les noms de produits de différents sites sont encodés dans un espace vectoriel partagé à l'aide d'un modèle d'embedding multilingue. La similarité cosinus + clustering regroupe les variantes de produits représentant le même article, quelle que soit la langue ou la convention de nommage.
Un modèle XLM-RoBERTa de base est affiné sur des avis de produits de beauté annotés. Le modèle classifie le sentiment au niveau de l'avis (positif / négatif / neutre) et extrait des signaux au niveau des aspects — texture, parfum, efficacité, emballage.
Deux niveaux de clustering sont utilisés dans le pipeline — l'un pour la résolution d'identité produit, l'autre pour la découverte de thèmes dans les avis.
Les embeddings de titres de produits sont regroupés avec K-Means pour regrouper les variantes du même produit. Le nombre de clusters K est estimé par ligne de produit. Le score de silhouette valide la qualité du regroupement.
Les embeddings de texte d'avis sont regroupés avec DBSCAN pour faire remonter les thèmes récurrents au sein d'un cluster produit — sans prédéfinir le nombre de sujets. Les points de bruit (avis aberrants) sont filtrés automatiquement.
Tout fonctionne sur Google Cloud. Vertex AI gère l'orchestration des pipelines, l'entraînement et le service des modèles. BigTable fournit la colonne vertébrale à faible latence. BigQuery expose les sorties aux analyses en aval.