Gold in Stars: « Mining reviews » pour améliorer les produits

Publié le Publié dans Non classé

Gold in Stars : "Mining reviews" pour améliorer les produits

Ce sera un court message, car je veux simplement signaler un article extrêmement intéressant de Michael Graber intitulé «Utiliser les commentaires des clients en tant que point de vue du consommateur». Je pense qu'il résume très efficacement le processus humain derrière une analyse efficace des examens:
Tout d'abord, décidez de la zone problématique ou du territoire d'opportunité que vous souhaitez explorer. Ensuite, localisez vos sources d'évaluation (...) puis rassemblez les données. (...) Commencez par les critiques stellaires et cinq étoiles et les menez pour des déclarations magiques telles que "si cela ne l'a fait que ..." (...) Maintenant, les besoins réels et les lieux que vous pouvez apprendre sur la catégorie sont intégrés dans les critiques étoiles simples ou nulles. Rassemblez tous les éléments pertinents. (...) trier par thèmes (...) Mettez en évidence les thèmes et trace les sous-catégories inhérentes à chacune des familles thématiques.
J'ai pris la liberté de citer les passages les plus cruciaux et de marquer quelques pièces avec des couleurs. En effet, alors que Michael semble évacuer un processus complètement manuel, je tente ici de distinguer ce qui doit être manuel (bleu) de ce qui peut être automatisé par un logiciel spécialisé (rouge). En particulier, la phase que nous pourrions appeler «modélisation de domaine» devrait toujours être axée sur l'homme: elle se compose principalement de la définition de la source, de la déclaration des problèmes et de la définition des catégories (bien que la décision sur l'arbre de catégorisation soit beaucoup plus facile et efficace en utilisant certains algorithmes de traitement de langue tels que l'extraction automatique des caractéristiques du produit et le clustering sémantique). D'autres tâches peuvent être effectuées par un logiciel spécialisé: bien sûr, la tâche de ramper et de nettoyer les données, ainsi que la sélection d'examens pertinents sur la base d'attributs structurés tels que «étoiles» est assez banal pour un ordinateur. Ce qui est moins trivial, c'est l'analyse de la langue qui sous-tend la phase d'exploration des connaissances. La langue est une chose complexe, et on pourrait douter de la capacité d'une machine à la comprendre. Toujours ces dernières années, le domaine de Natural Language Processing (NLP) a fait d'énormes progrès et il est maintenant possible de produire des analyses fiables. Bien sûr, cela n'exclut pas le rôle de l'humain: mais lorsque vous avez dix milles d'évaluations de zéro étoiles, un logiciel qui peut les catégoriser automatiquement, par exemple, en «manque de robustesse», «déchets esthétiques», «problèmes de livraison» , "coût déraisonnable" etc. pourrait accélérer le travail humain et augmenter la qualité (parfois, l'analyse humaine tend à introduire un biais). Je voudrais conclure avec une mise en garde sur les capacités d'analyse de la langue: l'analyse sémantique automatique est possible, comme je l'ai dit, mais c'est difficile. Par exemple, mieux ne pas faire confiance aux approches qui prétend être "indépendant de la langue": vous pouvez automatiquement extraire l'or (idées) des étoiles (critiques), mais le faire indépendamment de la langue des critiques est juste de la science-fiction.