Les fausses notes de la recommandation musicale en ligne

Les goûts musicaux spécialisés posent problème aux algorithmes de recommandation sur les sites de streaming. Les amateurs de genres spécifiques ne bénéficient pas tous de la même pertinence.

Recommandation musciale

Page d’accueil du service de streaming musical Last.fm.

Last.fm

Il existe un mythe tenace en matière de consommation sur Internet : celui de la « longue traîne ». Ce phénomène permettrait sur le long terme à des produits de niche, objets d’une faible demande, donc difficiles à se procurer dans le commerce physique, de trouver leur public et de représenter au final une part de marché significative. Sauf qu’en réalité, ça ne marche pas vraiment. Et c’est de ce constat que partent des chercheurs autrichiens et néerlandais dans un article consacré à la pertinence de la recommandation musicale sur les sites de streaming et publié dans la revue EPJ data science fin mars.

Les algorithmes de recommandation, par leur logique même, perturbent le mécanisme théorique de « longue traîne ». Ils privilégient les produits, en l’occurrence les morceaux de musiques, les plus populaires, les plus fréquemment écoutés et partagés. C’est particulièrement le cas des algorithmes dits de « filtrage collaboratif » qui suggèrent à un internaute de s’intéresser aux produits achetés/vues/écoutés par des internautes ayant consommé les mêmes choses que lui (c’est le principe bien connu de la recommandation sur Amazon).

Pas assez de données pour être recommandé

Le problème, expliquent les chercheurs, c’est que pour faire des recommandations, il faut disposer de beaucoup de données relatives à la manière dont sont consommés les produits en question. Or, par définition, un produit de niche n’en génère pas assez pour permettre aux algorithmes de les inclure dans leurs recommandations. Sur les sites d’écoute de musique cela se traduit par une sur-recommandation des musiques les plus populaires et des goûts musicaux « mainstream », c’est-à-dire non spécialisés dans un genre bien précis. Mais les chercheurs se sont aussi rendus compte que les niches musicales elles-mêmes n’étaient pas égales entre elles en matière de pertinence de recommandation.

L’équipe s’est servie des données du service Last.fm. Ils ont enrichi les métadonnées décrivant les morceaux, et se sont basés sur des historiques d’écoute pour identifier 2.074 auditeurs dont les usages trahissent des goûts précis. Ils ont été subdivisés en quatre sous-groupes, qui ne recouvrent pas uniquement le genre musical stricto sensu auquel semble renvoyer chaque dénomination : « folk » (caractérisé par les instruments acoustiques), « hard » (le plus nombreux, avec 919 internautes privilégiant les morceaux énergiques comme en hard rock ou hip-hop), « ambient » (musique acoustique mais avec peu de parties vocales) et « électronique » (beaucoup d’énergie mais sans chant).

Ils ont constaté que les amateurs d’ »ambient » étaient les plus susceptibles d’écouter des musiques des trois autres groupes, notamment « électronique » et « folk » (ce que les chercheurs appellent l’ »ouverture ») mais constituaient une population très homogène (critère de la « diversité ») : ils cumulent les écoutes 39.600 titres de 6.800 artistes différents, soient le niveau de diversité le plus faible des quatre sous-groupes.

Les internautes « folk » vont aussi voir du côté des musiques « hard » et « ambient » et le groupe « électronique » écoute ce qui relève de l’ »ambient » et de la catégorie « hard ». Par contre, les internautes classés « hard » sont les plus nettement repliés sur leur catégorie. Pourtant, leurs écoutes témoignent du plus fort niveau de diversité : près de 12.000 artistes pour plus de 107.000 morceaux. C’est là aussi que l’on écoute le plus de genres différents, soit plus de 1200, quand les internautes « folk » en sont à 811.

Quatre algorithmes de recommandation testés

Partant de là, les chercheurs ont utilisé quatre algorithmes de recommandations différents pour voir comment ils se comportaient pour chacune de quatre catégories d’auditeurs. Et ont noté que le sous-groupe « hard » écopaient des suggestions d’écoute les moins pertinentes avec les quatre algorithmes. Le taux d’erreur (ou de non-pertinence) allant de 59 à 73%. Le mieux loti étant le groupe « ambient ». Deux algorithmes fournissent même à ces internautes des recommandations mieux ciblées que pour les internautes correspondant aux pratiques grand public.

Pour les chercheurs, ces résultats tendent à prouver que le critère de l’ouverture est un point prépondérant pour les algorithmes. L’équipe reconnaît que ce travail reste limité à l’analyse d’un seul service de streaming et ne préjuge en rien de ce qui peut se passer sur Spotify ou Deezer par exemple. Mais il montre que même pour les goûts musicaux de niche, les données existent pour en tirer des systèmes de recommandations pertinents, quitte à bâtir des modèles de recommandation spécifiques.

Source: Sciencesetavenir.fr
laissez un commentaire