Cartographier le web pour mieux le comprendre

Après avoir évoqué le traitement de Data Facts au service de la Business Intelligence, nous vous proposons de nous pencher sur les graphes, notamment la cartographie en tant qu’outils de datavisualisation. A partir d’études concrètes, nous verrons comment est construit un graphe et quels sont les outils associés à ce type de représentation.

Qu’est-ce qu’une cartographie ?

Définition

Une cartographie est un outil de datavisualisation. C’est un graphe qui permet de mettre en image des données pour mieux les comprendre et les analyser.

Deux principaux paramètres composent sa structure :

  • Les nœuds, qui représentent la donnée brute ;
  • Les liens, qui représentent les relations entre les données.

Un nœud est une entité simple, qui n’a besoin que d’un nom pour exister. Toutefois, divers paramètres facultatifs, propres au type de données peuvent le composer. Ces paramètres vont complexifier et affiner son traitement.

Liste non exhaustive de données que nous utilisons.

Les liens sont, quant à eux des variables plus complexes. 4 paramètres minimum les composent :

✔ Une source : le point de départ du lien,

✔ Une cible : le point d’arrivée du lien,

✔ Un poids : indique la force de la relation entre les nœuds,

✔ Une direction : si le lien est dirigé, alors il va forcément de la source vers la cible. Sinon source et cible peuvent être interchangées.

Épaisseur = poids
Flèche = direction

Méthodologie

Une fois la structure réalisée, il est nécessaire de spatialiser le graphe pour le rendre lisible. Pour ce faire, il faut appliquer des algorithmes de spatialisation au graphe. Ils vont alors calculer la proximité ou l’éloignement des acteurs. Par exemple, il est possible d’utiliser des algorithmes comme Force atlas 1 (efficace sur les petits réseaux) ou Force Atlas 2 (pour les réseaux plus complexes).

Ainsi, pour obtenir un graphe, il suffit donc de définir un objectif d’analyse en amont, de collecter les données pertinentes, puis de les lier via un algorithme.

Cette structuration de la donnée fait du graphe un outil très souple, qui permet d’analyser les relations entre n’importe quel type de données, dans n’importe quel secteur. Les applications peuvent être très variés et il s’agit d’analyser :

✔ Le maillage interne d’un site internet pour du site building,

✔ La structure des services d’une organisation pour les RH,

✔ Les relations entre des pays pour une étude géopolitique

✔ Les jeux d’influence entre acteurs sur un marché…

Pour imager cette démarche, nous allons utiliser comme exemple une cartographie constituée via des données extraites sur Spotify.

Exemple des outils d’étude d’une cartographie : Ed Sheeran sur Spotify

Afin de réaliser la cartographie, nous sélectionnons un artiste comme point d’entrée : ici Ed Sheeran. En partant de son profil, un programme parcours la plateforme pour déterminer quels artistes sont successivement recommandés après chaque écoute. Naviguant d’artistes en artistes, l’algorithme compose alors le tableau de nœuds et de liens :

✔ Chaque artiste recommandé est représenté par un nœud.

✔ Chaque recommandation faite par Spotify entre deux artistes est représentée par un lien.

Nous récupérons et spatialisons une cartographie de l’écosystème d’Ed Sheeran sur Spotify, mentionnant 790 artistes (soit 790 nœuds) et 6816 recommandations (soit 6816 liens).

Nous pouvons à présent utiliser les outils de calcul associés aux graphes, pour mettre en avant des insights :

L’influence

Chaque nœud relié au graphe par au moins un lien exerce une influence sur la cartographie. L’outil statistique appelé « degré » calcule cette influence, souvent représentée par la taille du nœud.

L’addition du nombre de liens reliés à un nœud permet de calculer le degré. Ainsi, cette donnée peut se décliner selon plusieurs autres variables :

✔ Si le graphe est dirigé (les liens ont un sens), alors il est possible de calculer le degré entrant (on parle de moi) et le degré sortant (je parle des autres).

✔ Si les liens ont un poids, il est possible de calculer le degré pondéré, qui met en avant les liens les plus forts.

Au final, plus un indice de degré est élevé sur un nœud, plus celui-ci est influent dans le réseau. Dans le cadre de la cartographie sur Spotify, la densité nous permet de mettre en évidence les artistes les plus recommandés par la plateforme. Ce que l’on peut observer ici, c’est que l’algorithme de Spotify ne privilégie pas d’artistes en particulier, puisque les nœuds n’ont pas des tailles très différentes.

Les communautés

Nos outils de datavisualisation nous permettent également de déceler des communautés dans les rés²eaux.

Sur la cartographie tirée de Spotify, les différentes communautés décelées sont liées au genre de musique des artistes.

Les Bridges

Une fois les communautés décelées, il est également possible de déterminer les Bridges du réseau, qui sont les nœuds qui font la jonction entre différentes communautés. Ces acteurs sont particulièrement intéressants puisqu’ils permettent d’étendre une audience et d’accéder aux diverses communautés.

Sur notre exemple, les principaux artistes qui relient différentes communautés musicales sont Meghan Trainor, Taylor Swift, Greyson Chance ou Stephen Puth.

Les indicateurs externes

Enfin, les indicateurs externes sont également des outils intéressants lors de l’étude de graphes. Ces données, incorporées dans les nœuds, peuvent être utilisées comme échelle de taille. Par exemple, sur notre cartographie Spotify, nous pouvons choisir le nombre de followers de chaque artiste comme échelle de taille des nœuds.

Cet indicateur est intéressant pour mesurer la place des artistes les plus suivis dans les recommandations de Spotify.

Voici donc une présentation non exhaustive des outils que nous offrent les graphes. Chez First Link, nous traitons et travaillons sur tout type de données, mais notre spécialité résulte sur la conception et l’analyse de cartographies d’acteurs ou sémantiques.

Cartographie d’acteurs

Les cartographies d’acteurs ont pour but de mettre en relation les différents acteurs d’un marché afin de déterminer les jeux d’influences à l’œuvre.

Dans ce type de cartographie, chaque nœud représente :

✔ Sur les réseaux sociaux : un compte (page ou utilisateur),

✔ Sur le web : un site (statique, blog, forum…)

Les liens quant à eux, représentent le type de relation que l’on souhaite étudier :

✔ Une mention, un retweet, un partage

✔ Une interaction (likes, commentaires…)

✔ Un backlink

✔ Une utilisation de hashtag, keywords…

Ainsi, dans le cadre d’un partenariat avec le journal La Tribune de Bordeaux, nous avons réalisé une série d’articles utilisant ce type de cartographie.

Par exemple, voici une cartographie des acteurs du marché de l’ESS en Nouvelle Aquitaine, sur l’année 2020, sur le web :

Grâce aux indicateurs présentés précédemment, nous avons pu mettre en évidence 4 communautés majeures : les associations et institutions territoriales qui participent au développement de l’emploi et de l’économie autour de l’ESS, les médias généralistes, une communauté du partage d’information et du relais média, puis les acteurs de l’ESS.

L’analyse plus approfondie nous permet également de souligner que le marché de l’ESS est dense mais pas encore mature, ou encore que l’engouement économique territorial peine à dépasser le seul écosystème des acteurs déjà étiquetés ESS.

Cartographie sémantique

En mobilisant notre technologie, nous sommes également capables de réaliser des cartographies sémantiques qui permettent d’analyser les discours influents d’un marché.

Dans cette configuration de graphe, chaque nœud représente un mot et chaque lien une co-occurrence. C’est-à-dire que la cartographie représente les mots-clés utilisés ensemble dans les discours. Les « communautés » identifiées sont alors des champs-lexicaux ou verbatim exploités sur le marché.

Dans le cadre de notre partenariat avec le journal La Tribune de Bordeaux, nous avons réalisé une cartographie sémantique sur le marché des Start Up à Bordeaux en 2020.

Cette cartographie nous a permis de mettre en avant différents discours :

✔ Un discours influent sur le développement économique et les projets de développement sur le territoire (avec une forte dimension institutionnelle).

✔ Un discours qui traite du recrutement (le secteur des startups recrute).

✔ Un discours autour de la Frenchtech, décliné selon 3 dimensions de langage : l’Open Source ; l’Éco responsable ; l’E-santé.

Si vous êtes intéressé·e·s par la cartographie, ou l’analyse de données en général, n’hésitez pas à nous contacter sur nos réseaux sociaux pour en discuter, et éventuellement travailler ensemble !