Analyser des données bibliographiques avec VOSViewer

Ce scénario donne des exemples d’application et explique comment analyser du contenu textuel avec le logiciel VOSViewer. Cet outil permet notamment d’analyser des réseaux de données bibliographiques, c’est-à-dire des groupes mots qui apparaissent souvent ensemble dans des notices bibliographiques.

Exemples d’application

Voici quelques exemples de projets réalisés avec l’aide de VOSViewer :

Analyse bibliométrique en développement durable et en gestion de risque

Une équipe de l’Université d’Abu Dhabi a utilisé VOSViewer pour analyser des articles scientifiques sur le développement durable et la gestion de risque. Ils ont ainsi pu identifier les revues les plus influentes dans ce domaine de recherche.

Analyse des réseaux de collaboration internationaux

Luiz Romero et Enrique Portillo-Salido ont employé VOSViewer pour analyser les réseaux de collaboration internationaux dans la recherche sur la protéine Sigma-1. Ils ont de cette façon pu identifier les pays les plus impliqués dans ce sous-domaine de la recherche en pharmacologie.


Objectifs du scénario

Dans ce scénario, nous allons analyser les groupes de mots-clés qui apparaissent fréquemment ensemble dans les notices bibliographiques d’articles sur la foresterie urbaine. Le but étant de savoir approximativement quelles sont les facettes de ce sujet.

Sachez que vous pouvez appliquer les méthodes présentées dans ce scénario pour analyser autre chose que les mots-clés servant à décrire des articles. Par exemple, vous pourriez employer VOSViewer pour explorer les réseaux de collaboration entre des universités, pour visualiser les réseaux de citations entre des chercheurs ou chercheuses, ou encore pour identifier les articles les plus cités dans un domaine.

Méthode

L’analyse de réseaux permet de traduire en graphe les relations entre les mots à l’intérieur d’un jeu de données. Dans un graphe, chaque mot est représenté par un point (node). Plus le point est gros, plus le mot apparaît souvent dans le jeu de données. De la même manière, plus la ligne entre deux points est large, plus les mots correspondants apparaissent fréquemment ensemble.

L’analyse de réseaux permet de dégager des regroupements de plusieurs mots qui apparaissent fréquemment ensemble (clusters). Dans VOSViewer, tous les points à l’intérieur d’un regroupement se voient attribuer la même couleur.

Étapes du scénario

■ Préparer

Choisir les données

La première étape consiste à choisir les données bibliographiques que vous souhaitez analyser. Ces données doivent être, autant que possible, représentatives du sujet qui vous intéresse. Plusieurs aspects sont à considérer :

  • Format de fichier : les données doivent toutes être enregistrées au format CSV ou RIS.
  • Provenance : les données doivent provenir soit des bases de données Scopus, Web of Science, PubMed, Dimensions ou Lens, soit des logiciels EndNote ou Zotero ou avoir été extraites avec une API supportée par VOSViewer.
  • Nombre : les données doivent être assez nombreuses pour être représentatives de votre objet d’étude.
  • Lien : il doit exister un lien clair entre les données (même port d’attache universitaire, même revue, même domaine de recherche, etc.).
  • Conditions d’utilisation : l’utilisation faite des données doit respecter le droit d’auteur et les conditions d’utilisation des éditeurs.

Pour ce scénario, nous avons utilisé les données bibliographiques d’articles trouvés en cherchant sur le sujet des forêts urbaines avec la requête « « urban forest » OR « urban tree » OR « urban canopy » » sur Scopus. L’objectif étant de trouver les mots-clés les plus fréquemment associés à ce sujet.

Sauvegarder les données bibliographiques d’articles scientifiques à partir de Scopus

Pour créer un jeu de données à partir des données bibliographiques d’articles scientifiques, vous pouvez utiliser l’outil d’exportation fourni par la base de données Scopus. Nous allons maintenant expliquer comment s’en servir. Si vous avez déjà choisi et sauvegardé vos données, passez à l’étape suivante.

Sur Scopus, entrez une requête de recherche et appuyez sur le bouton bleu « Search ». Sur la page qui apparaît, utilisez les filtres dans la colonne à gauche de l’écran pour réduire le nombre de résultats à moins de 2000. En effet, l’outil intégré de Scopus ne permet pas de télécharger les données bibliographiques de plus de 2000 articles à la fois. Vous devrez donc segmenter votre jeu de données en plusieurs fichiers (Figure 1).

Nous avons ici réduit le nombre de résultats à l’aide du filtre des dates de publication (Figure 1).

Figure 1 : Colonne avec les paramètres de filtre servant à réduire le nombre de résultats

Après avoir obtenu un premier groupe de moins de 2000 résultats, cliquez sur les boutons « All », puis «Export » au haut de la page (Figure 2).

Figure 2 : Boutons pour sélectionner les données et lancer l’exportation

Dans la fenêtre contextuelle qui apparaît, cochez les informations pertinentes pour votre analyse. Enfin, cliquez sur « CSV » et « Export » (Figure 3). Dans le cas où vous voulez exporter plus de 2000 notices, répétez ces étapes par tranche de 2000 résultats.

Figure 3 : Menu des paramètres d’exportation

Pour ce scénario, nous avons segmenté notre jeu de données par année de publication (Figure 1). Nous avons donc sauvegardé dans un premier fichier CSV les données bibliographiques des articles sur la foresterie urbaine publiés en 2023, 2020 et 2019 (1734 documents), puis dans un deuxième fichier CSV les données bibliographiques des articles sur la foresterie urbaine diffusés en 2022 et 2021 (1675 documents) (Figures 2 et 3).

Importer les données dans VOSViewer

Ouvrez VOSViewer. Déplacez votre curseur dans la colonne à gauche de l’écran et cliquez sur « Create ». Dans la fenêtre contextuelle qui apparaît, choisissez « Create a map based on bibliographic data » pour analyser des donnés bibliographiques (Figure 4). À titre informatif, sachez que l’option « Create a map based on text data » permet d’analyser les titres et les résumés d’articles, et que l’option « Create a map based on network data » permet d’analyser des données qui ont été traitées pour l’analyse de réseau au préalables.

Après avoir fait votre choix, cliquez sur « Next ».

Figure 4 : Menu pour choisir le type de données à analyser

Indiquez la provenance de vos données en sélectionnant « Read data from bibliographic database files », puis cliquez sur « Next » (Figure 5).

Il faut sélectionner les options correspondant à la source des données utilisées afin qu’elles soient bien interprétées par le logiciel. Pour ce scénario, nous avons créé un graphe à partir de fichiers CSV contenant des données bibliographiques en provenance de la base de données Scopus.

Figure 5 : Menu pour indiquer la provenance des données

Dans la barre d’onglets, sélectionnez la base de données bibliographique que vous avez exploitée pour trouver vos données. Puis, cliquez sur le bouton « … » et sélectionnez tous vos fichiers. Cliquez sur « Next » (Figure 6).

Figure 6 : Boutons pour sélectionner ses fichiers

Définir les paramètres de l’analyse

Définissez les paramètres de votre analyse sans vous soucier pour l’instant du thésaurus (Figure 7). Les types d’analyse proposés sont les suivants :

  • Co-autorat (co-authorship) : permet d’analyser les collaborations entre des auteurs ou autrices, entre des organisations ou entre des pays.
  • Co-occurrence : permet d’analyser les relations entre des mots-clés.
  • Citation : permet d’analyser des auteurs ou autrices, des universités ou des articles qui se citent mutuellement.
  • Pondération bibliographique (bibliographic counting) : permet d’analyser des auteurs ou autrices, des universités ou des articles qui utilisent les mêmes références, sans nécessairement se citer entre eux.
  • Co-citation : permet d’analyser des auteurs ou autrices, des universités ou des articles qui sont fréquemment cités ensemble.
Figure 7 : Menu des paramètres d’analyse

Sachez que les données bibliographiques extraites avec Scopus sont insuffisantes pour réaliser des analyses de citation, de pondération bibliographique et de co-citation.

Quand vous aurez choisi vos paramètres d’analyse, cliquez sur « Next ».

Pour ce scénario, nous avons réalisé une analyse de cooccurrences en pondérant les mots-clés indexés avec la méthode du « Full counting ». Cliquez ici pour en savoir plus sur les méthodes de pondération.

Définir la fréquence minimale des termes à retenir

Vous devez maintenant définir la fréquence minimale des termes à retenir pour votre analyse. Nous recommandons d’ajuster ce paramètre de façon à ce qu’entre 350 et 500 termes soient retenus. L’idée étant d’obtenir une image fidèle, mais lisible du phénomène que vous souhaitez analyser. Après avoir trouvé un nombre d’occurrences minimum satisfaisant, cliquez sur « Next » 2 fois de suite (Figure 8).

Figure 8 : Menu pour définir la fréquence minimale des termes à retenir

Pour ce scénario, nous avons défini la fréquence minimale à 17, de façon à retenir 434 mots-clés.

Nettoyer les données avec un thésaurus

VOSViewer vous présente maintenant une liste de mots-clés. Faites un clic droit sur la liste et cliquez sur « Export selected keywords » dans le menu contextuel qui apparaît (Figure 9). Sauvegardez le document sur votre ordinateur, en format TXT.

Figure 9 – Menu contextuel pour exporter une liste de mots-clés à partir de VOSViewer

Ouvrez Microsoft Excel (ou Libre Office CALC). Cliquez sur l’onglet « Données » en haut de l’écran, puis sur « À partir d’un fichier texte/CSV » (Figure 10). Charger la liste de mots-clés que vous avez téléchargée.

Figure 10 : Boutons pour charger la liste des mots-clés dans Microsoft Excel.

Vous avez maintenant devant vous un tableau avec quatre colonnes. Faites un clic droit sur l’intitulé de la colonne « id » . Dans le menu contextuel qui apparaît, cliquez sur « Supprimer » . Faites la même chose pour supprimer les colonne « occurrences » et « total link strength ».

Renommez la colonne restante « label » . Puis, faites un clic droit l’intitulé de la colonne. Dans le menu contextuel qui apparaît, sélectionnez « Insérer » , puis « Colonne de tableau à droite » . Nommez la nouvelle colonne « replace by » (Figure 11).

Figure 11 : Format à respecter pour créer un thésaurus dans Microsoft Excel

Vous pouvez maintenant créer un thésaurus pour améliorer la qualité de votre analyse. Un thésaurus permet de regrouper sous un seul terme des synonymes ou des déclinaisons d’un même mot. Sa qualité peut avoir une grande incidence sur vos résultats.

Pour tous les termes dans la colonne « label » qui parlent du même sujet , attribuez leur un même mot-clé dans la colonne « replace by » (Figure 12). Vous allez ainsi pouvoir regrouper tous les mots-clés similaires sous un seul terme générique, ce qui vous aidera à identifier les relations d’un sujet donné avec d’autres termes.

Figure 12 : Exemple de thésaurus

Lorsque vous aurez complété votre thésaurus, déplacez votre curseur dans le coin supérieur gauche de la page. Cliquez sur « Fichier », puis « Enregistrer sous » et sauvegarder le fichier en format « Texte (séparateur : tabulation) ». Vous pouvez maintenant fermer Microsoft Excel.

Retournez dans VOSViewer. Dans la fenêtre contextuelle où se trouve la liste de mots-clés, cliquez sur le bouton « Back » 3 fois, jusqu’à revenir au menu des paramètres d’analyse (Figure 13). Dans le menu des paramètres d’analyse, cliquez sur le bouton « … » et charger votre thésaurus. Cliquez sur « Next ».

Figure 13 : Bouton pour charger son thésaurus dans le menu des paramètres d’analyse

Rétablissez une fréquence minimale des termes à retenir pour votre analyse. Encore une fois, privilégiez une valeur entre 350 et 500. Quand vous aurez fini, appuyez sur « Finish » pour générer un graphe.

Pour ce scénario, nous avons ramené les mots-clés présents à la fois au singulier et au pluriel dans notre liste à leur forme plurielle. Par exemple, « urban tree » et « urban trees » sont devenus « urban trees ». Nous avons également substitué certains mots-clés similaires par un seul terme plus général. Par exemple, « air pollutant » et « air pollutants » sont devenus « air pollution».

■ Rechercher et créer

Présentation de l’interface

VOSViewer propose trois choix de visualisation : un graphe pour l’analyse de réseaux (Network Visualization), un autre graphe pour l’analyse temporelle (Overlay Visualization) et une carte thermique pour l’analyse de densité (Density Visualization). Chacune de ces visualisations sert à étudier une facette en particulier du réseau à votre écran.

  • Analyse de réseaux : un graphe « classique », utile pour analyser des regroupements par couleur.
  • Analyse temporelle : un graphe qui attribue à chaque terme une année lors de laquelle il a été utilisé plus fréquemment, et permet donc d’analyser l’évolution des réseaux.
  • Analyse de densité : une carte thermique servant à identifier les points avec le plus de relations ainsi que les regroupements par couleur les plus denses.

Analyse de réseaux

Par défaut, la première visualisation que vous voyez est le graphe pour l’analyse de réseaux (Figure 14).

Figure 14 : Exemple d’une visualisation pour l’analyse de réseaux

Vous pouvez faire un gros plan sur une région du graphe en utilisant la molette de votre souris. Vous pouvez même laisser votre curseur sur un point en particulier pour n’afficher que ses relations (Figure 15).

Figure 15 : Visualisation des relations associées au point « air pollution »

Observez votre graphe. Les plus gros points désignent les mots qui apparaissent le plus souvent dans votre jeu de données. De la même manière, les lignes les plus larges indiquent les cooccurrences les plus fréquentes, c’est-à-dire le nombre de fois que les mots se trouvent ensemble dans le même article. Enfin, les regroupements par couleur décrivent des ensembles de plusieurs mots qui apparaissent souvent ensemble.

Pourquoi un point est-il plus gros que tous les autres dans votre graphe? Quel est le lien entre les points à l’intérieur de chaque regroupement? Qu’est-ce que cela dit du phénomène à l’étude?

Pour ce scénario, nous avons généré un graphe avec 7 regroupements par couleur. On y voit que le mot-clé le plus fréquent est « air pollution ». Celui-ci entretient par ailleurs des liens avec plusieurs termes en dehors du regroupement auquel il appartient. Conséquemment, on peut supposer qu’il s’agit d’un thème transversal des recherches qui abordent la foresterie urbaine.

Modifier la disposition des regroupements par couleur

Vous pouvez modifier la disposition des regroupements par couleur pour faciliter leur analyse. Dans la colonne à gauche de l’écran, cliquez sur « Analysis ». Puis, sous l’onglet « Layout » décochez « Use default values » (Figure 16). Vous pouvez maintenant ajuster les valeurs d’attraction et de répulsion entre les points de votre graphe. Une fois les nouvelles valeurs saisies, appuyez sur le bouton « Update layout » pour appliquer les changements et générer une nouvelle visualisation.

Figure 16 : Boutons pour modifier les valeurs d’attraction et de répulsion

Dans la plupart des cas, il suffit, pour rendre un graphe un peu plus lisible, de définir les valeurs d’attraction et de répulsion à, respectivement, 2 et 1 (Figure 17).

Figure 17 : Exemple de graphe avec une attraction de 2 et une répulsion de 1

Analyse temporelle

Nous allons maintenant basculer vers le graphe d’analyse temporelle. Déplacez votre curseur en haut de la fenêtre où se trouve votre graphe. Cliquez sur « Overlay Visualization » (Figure 18).

Figure 18 : Bouton pour passer à l’analyse temporelle

Dans le graphe qui figure maintenant à votre écran, les points dont la couleur se rapproche le plus du bleu désignent des termes ayant été fréquemment employés pendant une période plus reculée. À l’inverse, les points dont la couleur se rapproche le plus du jaune représentent des mots ayant surtout été utilisés pendant une période plus récente. Une échelle temporelle, située en bas à droite de la visualisation, indique à quelle année correspond chacune de ces périodes (Figure 19).

Figure 19 : Exemple de graphe d’analyse temporelle et échelle temporelle

Observez votre graphe. En principe, plus il contient des points bleus et jaunes, plus le phénomène que vous analysez a connu des changements à l’intérieur des années sélectionnées avec l’échelle temporelle. Inversement, plus il présente des points avec une couleur entre le bleu et le jaune, moins le phénomène que vous analysez a changé pendant la période indiquée par l’échelle temporelle. Arrivez-vous à discerner des tendances?

Pour notre scénario, nous avons généré un graphe d’analyse temporelle montrant que le mot-clé « air pollution » était surtout fréquent en 2021. Ce fait suggère qu’il était un thème transversal des recherches abordant la foresterie urbaine auparavant, mais que son importance diminuera dans les années à venir.

Définir une nouvelle échelle temporelle

Vous pouvez ajuster la période de temps couverte par le graphe en cliquant sur l’échelle temporelle. Dans la fenêtre contextuelle qui apparaît, décochez « Auto » et entrez les années qui vous conviennent le mieux (Figure 20). Appuyez sur « Close » pour appliquer les changements et observez votre nouveau graphe. Est-ce que vous arrivez à discerner des évolutions à l’intérieur de la nouvelle fenêtre de temps que vous avez définie?

Figure 20 : Menu pour définir une nouvelle échelle temporelle
Figure 21 : Exemple de graphe d’analyse temporelle avec une nouvelle échelle

Pour ce scénario, nous avons ajusté l’échelle temporelle de façon à couvrir la période 2020-2022, lors de laquelle ont été publié la majorité de nos données. Le nouveau graphe nous a permis de constater que de nombreux mots-clés, par exemple « heat stress », sont devenus plus fréquents en 2022. Cela suggère que les facettes de la foresterie urbaine abordées par la recherche changent rapidement.

Analyse de densité

Nous allons maintenant basculer vers la troisième et dernière option de visualisation. Déplacez votre curseur en haut de la fenêtre où se trouve votre graphe. Cliquez sur « Density Visualization » (Figure 22).

Figure 22 : Bouton pour passer à l’analyse de densité

Dans la carte thermique qui figure maintenant à votre écran, les régions dont la couleur se rapprochent le plus du rouge désignent des groupes de mots-clés fréquemment utilisés tous ensemble . À l’inverse, les régions dont la couleur se rapprochent le plus du bleu décrivent des relations peu denses (Figure 23).

Figure 23 : Exemple de carte thermique pour l’analyse de densité

Observez votre carte thermique. Identifiez les régions plus en jaune et agrandissez-les en utilisant la molette de votre souris. Quels termes font partie des relations les plus denses? Comment expliquez-vous l’existence de liens aussi forts entre ces mêmes termes?

Pour notre scénario, nous avons généré une carte thermique qui nous a permis de voir un réseau dense liant les mots-clés « stakeholder », « willingness to pay » et « education », ce qui suggère l’existence de plusieurs articles portant sur la facette socio-économique de la foresterie urbaine.

Analyser la densité des regroupements de mots

Vous pouvez changer les paramètres de visualisation pour afficher la densité des regroupements par couleur. Déplacez votre curseur dans la colonne à droite de l’écran. Puis, cliquez sur « Cluster Density » (Figure 24).

Figure 24 : paramètres pour modifier la densité des items

La nouvelle carte thermique attribue à chaque région la couleur de son regroupement. Plus la couleur d’une région est opaque, plus elle désigne des groupes de mots-clés fréquemment utilisés ensemble. À l’inverse, les régions transparentes représentent des groupes de mots-clés avec une moins forte relation (Figure 25).

Figure 25 : Exemple de carte thermique avec le paramètre « Cluster density »

Observez votre carte thermique. Identifiez les régions les plus denses pour chaque regroupement et agrandissez-les en utilisant la molette de votre souris. Est-ce que les mots qui figurent dans chaque région dit quelque chose de son regroupement?

Pour ce scénario, nous avons généré une carte thermique avec le paramètre « Cluster density » qui nous a permis d’identifier la relation entre les mots-clés « thermal environment », « urban microclimate » ou encore « latent heat flux » comme étant centraux à l’intérieur d’un regroupement. Ce groupe de mots-clés suggère que le regroupement en question couvre les articles sur la foresterie urbaine qui abordent le climat.

■ Diffuser

Sauvegarder vos travaux

Pour sauvegarder vos travaux, déplacez votre curseur dans la colonne à gauche de l’écran. Cliquez sur « File », puis « Save… » (Figure 26).

Figure 26 : Bouton pour sauvegarder vos données

Dans la fenêtre contextuelle qui apparaît, cliquez sur « JSON », puis nommez votre fichier. Cliquez sur le bouton « » et enregistrer le fichier dans votre ordinateur. Quand vous aurez terminé, appuyez sur « OK » (Figure 27).

Sachez que vous ne pouvez pas sauvegarder vos paramètres de visualisation, comme les valeurs d’attraction et de répulsion ou encore l’échelle temporelle. Vous devrez les redéfinir chaque fois que vous chargerez vos fichiers dans VOSViewer.

Figure 27 : boutons pour sauvegarder vos données en format JSON sur votre ordinateur

Intégrez un graphe dans un site Web

Vous pouvez intégrez votre visualisation dans un site Web, de façon à ce que les utilisateurs et utilisatrices puissent interagir avec elle. Pour ce faire, allez à l’adresse suivante. Cliquez sur l’icône de dossier en haut à droite (Figure 28). Votre explorateur de fichiers s’ouvrira alors. Chargez votre fichier JSON.

Figure 28 – Bouton pour charger son fichier JSON en ligne

Entrez le code HTML suivant dans votre site Web :

<iframe
  allowfullscreen="false"
  src="https://app.vosviewer.com/?json=//app.vosviewer.com/data/nom_du_fichier.json&simple_ui=true"
  width="100%"
  height="25%"
  style="border: 1px solid #ddd; max-width: 700px; max-height: 500px"
>
</iframe>

Sauvegarder une image de votre visualisation

Pour enregistrer une image en haute résolution de votre visualisation, déplacez votre curseur dans la colonne à gauche de l’écran. Cliquez sur « File », puis « Screenshot… » (Figure 29). Choisissez où stocker votre image, puis cliquez sur « Save ». Vous disposez maintenant d’une image que vous pourrez insérer dans votre travail de recherche!

Figure 29 : boutons pour sauvegarder une image de votre visualisation

Types de données

  • Structuré
  • Texte

Discipline

  • Environnement

Outil associé