Analyser des données bibliographiques avec VOSViewer

Ce scénario donne des exemples d’application et explique comment analyser du contenu textuel avec le logiciel VOSViewer. Cet outil permet notamment d’analyser des réseaux de données bibliographiques, c’est-à-dire des groupes mots qui apparaissent souvent ensemble dans des notices bibliographiques.
Exemples d’application
Voici quelques exemples de projets réalisés avec l’aide de VOSViewer :
Analyse bibliométrique en développement durable et en gestion de risque
Une équipe de l’Université d’Abu Dhabi a utilisé VOSViewer pour analyser des articles scientifiques sur le développement durable et la gestion de risque. Ils ont ainsi pu identifier les revues les plus influentes dans ce domaine de recherche.

Analyse des réseaux de collaboration internationaux
Luiz Romero et Enrique Portillo-Salido ont employé VOSViewer pour analyser les réseaux de collaboration internationaux dans la recherche sur la protéine Sigma-1. Ils ont de cette façon pu identifier les pays les plus impliqués dans ce sous-domaine de la recherche en pharmacologie.

Objectifs du scénario
Dans ce scénario, nous allons analyser les groupes de mots-clés qui apparaissent fréquemment ensemble dans les notices bibliographiques d’articles sur la foresterie urbaine. Le but étant de savoir approximativement quelles sont les facettes de ce sujet.
Sachez que vous pouvez appliquer les méthodes présentées dans ce scénario pour analyser autre chose que les mots-clés servant à décrire des articles. Par exemple, vous pourriez employer VOSViewer pour explorer les réseaux de collaboration entre des universités, pour visualiser les réseaux de citations entre des chercheurs ou chercheuses, ou encore pour identifier les articles les plus cités dans un domaine.
Méthode
L’analyse de réseaux permet de traduire en graphe les relations entre les mots à l’intérieur d’un jeu de données. Dans un graphe, chaque mot est représenté par un point (node). Plus le point est gros, plus le mot apparaît souvent dans le jeu de données. De la même manière, plus la ligne entre deux points est large, plus les mots correspondants apparaissent fréquemment ensemble.
L’analyse de réseaux permet de dégager des regroupements de plusieurs mots qui apparaissent fréquemment ensemble (clusters). Dans VOSViewer, tous les points à l’intérieur d’un regroupement se voient attribuer la même couleur.
Étapes du scénario

■ Préparer
Choisir les données
La première étape consiste à choisir les données bibliographiques que vous souhaitez analyser. Ces données doivent être, autant que possible, représentatives du sujet qui vous intéresse. Plusieurs aspects sont à considérer :
- Format de fichier : les données doivent toutes être enregistrées au format CSV ou RIS.
- Provenance : les données doivent provenir soit des bases de données Scopus, Web of Science, PubMed, Dimensions ou Lens, soit des logiciels EndNote ou Zotero ou avoir été extraites avec une API supportée par VOSViewer.
- Nombre : les données doivent être assez nombreuses pour être représentatives de votre objet d’étude.
- Lien : il doit exister un lien clair entre les données (même port d’attache universitaire, même revue, même domaine de recherche, etc.).
- Conditions d’utilisation : l’utilisation faite des données doit respecter le droit d’auteur et les conditions d’utilisation des éditeurs.
Pour ce scénario, nous avons utilisé les données bibliographiques d’articles trouvés en cherchant sur le sujet des forêts urbaines avec la requête « « urban forest » OR « urban tree » OR « urban canopy » » sur Scopus. L’objectif étant de trouver les mots-clés les plus fréquemment associés à ce sujet.
Sauvegarder les données bibliographiques d’articles scientifiques à partir de Scopus
Pour créer un jeu de données à partir des données bibliographiques d’articles scientifiques, vous pouvez utiliser l’outil d’exportation fourni par la base de données Scopus. Nous allons maintenant expliquer comment s’en servir. Si vous avez déjà choisi et sauvegardé vos données, passez à l’étape suivante.
Sur Scopus, entrez une requête de recherche et appuyez sur le bouton bleu « Search ». Sur la page qui apparaît, utilisez les filtres dans la colonne à gauche de l’écran pour réduire le nombre de résultats à moins de 2000. En effet, l’outil intégré de Scopus ne permet pas de télécharger les données bibliographiques de plus de 2000 articles à la fois. Vous devrez donc segmenter votre jeu de données en plusieurs fichiers (Figure 1).
Nous avons ici réduit le nombre de résultats à l’aide du filtre des dates de publication (Figure 1).

Après avoir obtenu un premier groupe de moins de 2000 résultats, cliquez sur les boutons « All », puis «Export » au haut de la page (Figure 2).

Dans la fenêtre contextuelle qui apparaît, cochez les informations pertinentes pour votre analyse. Enfin, cliquez sur « CSV » et « Export » (Figure 3). Dans le cas où vous voulez exporter plus de 2000 notices, répétez ces étapes par tranche de 2000 résultats.

Pour ce scénario, nous avons segmenté notre jeu de données par année de publication (Figure 1). Nous avons donc sauvegardé dans un premier fichier CSV les données bibliographiques des articles sur la foresterie urbaine publiés en 2023, 2020 et 2019 (1734 documents), puis dans un deuxième fichier CSV les données bibliographiques des articles sur la foresterie urbaine diffusés en 2022 et 2021 (1675 documents) (Figures 2 et 3).
Importer les données dans VOSViewer
Ouvrez VOSViewer. Déplacez votre curseur dans la colonne à gauche de l’écran et cliquez sur « Create ». Dans la fenêtre contextuelle qui apparaît, choisissez « Create a map based on bibliographic data » pour analyser des donnés bibliographiques (Figure 4). À titre informatif, sachez que l’option « Create a map based on text data » permet d’analyser les titres et les résumés d’articles, et que l’option « Create a map based on network data » permet d’analyser des données qui ont été traitées pour l’analyse de réseau au préalables.
Après avoir fait votre choix, cliquez sur « Next ».

Indiquez la provenance de vos données en sélectionnant « Read data from bibliographic database files », puis cliquez sur « Next » (Figure 5).
Il faut sélectionner les options correspondant à la source des données utilisées afin qu’elles soient bien interprétées par le logiciel. Pour ce scénario, nous avons créé un graphe à partir de fichiers CSV contenant des données bibliographiques en provenance de la base de données Scopus.

Dans la barre d’onglets, sélectionnez la base de données bibliographique que vous avez exploitée pour trouver vos données. Puis, cliquez sur le bouton « … » et sélectionnez tous vos fichiers. Cliquez sur « Next » (Figure 6).

Définir les paramètres de l’analyse
Définissez les paramètres de votre analyse sans vous soucier pour l’instant du thésaurus (Figure 7). Les types d’analyse proposés sont les suivants :
- Co-autorat (co-authorship) : permet d’analyser les collaborations entre des auteurs ou autrices, entre des organisations ou entre des pays.
- Co-occurrence : permet d’analyser les relations entre des mots-clés.
- Citation : permet d’analyser des auteurs ou autrices, des universités ou des articles qui se citent mutuellement.
- Pondération bibliographique (bibliographic counting) : permet d’analyser des auteurs ou autrices, des universités ou des articles qui utilisent les mêmes références, sans nécessairement se citer entre eux.
- Co-citation : permet d’analyser des auteurs ou autrices, des universités ou des articles qui sont fréquemment cités ensemble.

Sachez que les données bibliographiques extraites avec Scopus sont insuffisantes pour réaliser des analyses de citation, de pondération bibliographique et de co-citation.
Quand vous aurez choisi vos paramètres d’analyse, cliquez sur « Next ».
Pour ce scénario, nous avons réalisé une analyse de cooccurrences en pondérant les mots-clés indexés avec la méthode du « Full counting ». Cliquez ici pour en savoir plus sur les méthodes de pondération.
Définir la fréquence minimale des termes à retenir
Vous devez maintenant définir la fréquence minimale des termes à retenir pour votre analyse. Nous recommandons d’ajuster ce paramètre de façon à ce qu’entre 350 et 500 termes soient retenus. L’idée étant d’obtenir une image fidèle, mais lisible du phénomène que vous souhaitez analyser. Après avoir trouvé un nombre d’occurrences minimum satisfaisant, cliquez sur « Next » 2 fois de suite (Figure 8).

Pour ce scénario, nous avons défini la fréquence minimale à 17, de façon à retenir 434 mots-clés.
Nettoyer les données avec un thésaurus
VOSViewer vous présente maintenant une liste de mots-clés. Faites un clic droit sur la liste et cliquez sur « Export selected keywords » dans le menu contextuel qui apparaît (Figure 9). Sauvegardez le document sur votre ordinateur, en format TXT.

Ouvrez Microsoft Excel (ou Libre Office CALC). Cliquez sur l’onglet « Données » en haut de l’écran, puis sur « À partir d’un fichier texte/CSV » (Figure 10). Charger la liste de mots-clés que vous avez téléchargée.

Vous avez maintenant devant vous un tableau avec quatre colonnes. Faites un clic droit sur l’intitulé de la colonne « id » . Dans le menu contextuel qui apparaît, cliquez sur « Supprimer » . Faites la même chose pour supprimer les colonne « occurrences » et « total link strength ».
Renommez la colonne restante « label » . Puis, faites un clic droit l’intitulé de la colonne. Dans le menu contextuel qui apparaît, sélectionnez « Insérer » , puis « Colonne de tableau à droite » . Nommez la nouvelle colonne « replace by » (Figure 11).

Vous pouvez maintenant créer un thésaurus pour améliorer la qualité de votre analyse. Un thésaurus permet de regrouper sous un seul terme des synonymes ou des déclinaisons d’un même mot. Sa qualité peut avoir une grande incidence sur vos résultats.
Pour tous les termes dans la colonne « label » qui parlent du même sujet , attribuez leur un même mot-clé dans la colonne « replace by » (Figure 12). Vous allez ainsi pouvoir regrouper tous les mots-clés similaires sous un seul terme générique, ce qui vous aidera à identifier les relations d’un sujet donné avec d’autres termes.

Lorsque vous aurez complété votre thésaurus, déplacez votre curseur dans le coin supérieur gauche de la page. Cliquez sur « Fichier », puis « Enregistrer sous » et sauvegarder le fichier en format « Texte (séparateur : tabulation) ». Vous pouvez maintenant fermer Microsoft Excel.
Retournez dans VOSViewer. Dans la fenêtre contextuelle où se trouve la liste de mots-clés, cliquez sur le bouton « Back » 3 fois, jusqu’à revenir au menu des paramètres d’analyse (Figure 13). Dans le menu des paramètres d’analyse, cliquez sur le bouton « … » et charger votre thésaurus. Cliquez sur « Next ».

Rétablissez une fréquence minimale des termes à retenir pour votre analyse. Encore une fois, privilégiez une valeur entre 350 et 500. Quand vous aurez fini, appuyez sur « Finish » pour générer un graphe.
Pour ce scénario, nous avons ramené les mots-clés présents à la fois au singulier et au pluriel dans notre liste à leur forme plurielle. Par exemple, « urban tree » et « urban trees » sont devenus « urban trees ». Nous avons également substitué certains mots-clés similaires par un seul terme plus général. Par exemple, « air pollutant » et « air pollutants » sont devenus « air pollution».
■ Rechercher et créer
Présentation de l’interface
VOSViewer propose trois choix de visualisation : un graphe pour l’analyse de réseaux (Network Visualization), un autre graphe pour l’analyse temporelle (Overlay Visualization) et une carte thermique pour l’analyse de densité (Density Visualization). Chacune de ces visualisations sert à étudier une facette en particulier du réseau à votre écran.
- Analyse de réseaux : un graphe « classique », utile pour analyser des regroupements par couleur.
- Analyse temporelle : un graphe qui attribue à chaque terme une année lors de laquelle il a été utilisé plus fréquemment, et permet donc d’analyser l’évolution des réseaux.
- Analyse de densité : une carte thermique servant à identifier les points avec le plus de relations ainsi que les regroupements par couleur les plus denses.
Analyse de réseaux
Par défaut, la première visualisation que vous voyez est le graphe pour l’analyse de réseaux (Figure 14).

Vous pouvez faire un gros plan sur une région du graphe en utilisant la molette de votre souris. Vous pouvez même laisser votre curseur sur un point en particulier pour n’afficher que ses relations (Figure 15).

Observez votre graphe. Les plus gros points désignent les mots qui apparaissent le plus souvent dans votre jeu de données. De la même manière, les lignes les plus larges indiquent les cooccurrences les plus fréquentes, c’est-à-dire le nombre de fois que les mots se trouvent ensemble dans le même article. Enfin, les regroupements par couleur décrivent des ensembles de plusieurs mots qui apparaissent souvent ensemble.
Pourquoi un point est-il plus gros que tous les autres dans votre graphe? Quel est le lien entre les points à l’intérieur de chaque regroupement? Qu’est-ce que cela dit du phénomène à l’étude?
Pour ce scénario, nous avons généré un graphe avec 7 regroupements par couleur. On y voit que le mot-clé le plus fréquent est « air pollution ». Celui-ci entretient par ailleurs des liens avec plusieurs termes en dehors du regroupement auquel il appartient. Conséquemment, on peut supposer qu’il s’agit d’un thème transversal des recherches qui abordent la foresterie urbaine.
Modifier la disposition des regroupements par couleur
Vous pouvez modifier la disposition des regroupements par couleur pour faciliter leur analyse. Dans la colonne à gauche de l’écran, cliquez sur « Analysis ». Puis, sous l’onglet « Layout » décochez « Use default values » (Figure 16). Vous pouvez maintenant ajuster les valeurs d’attraction et de répulsion entre les points de votre graphe. Une fois les nouvelles valeurs saisies, appuyez sur le bouton « Update layout » pour appliquer les changements et générer une nouvelle visualisation.

Dans la plupart des cas, il suffit, pour rendre un graphe un peu plus lisible, de définir les valeurs d’attraction et de répulsion à, respectivement, 2 et 1 (Figure 17).

Analyse temporelle
Nous allons maintenant basculer vers le graphe d’analyse temporelle. Déplacez votre curseur en haut de la fenêtre où se trouve votre graphe. Cliquez sur « Overlay Visualization » (Figure 18).

Dans le graphe qui figure maintenant à votre écran, les points dont la couleur se rapproche le plus du bleu désignent des termes ayant été fréquemment employés pendant une période plus reculée. À l’inverse, les points dont la couleur se rapproche le plus du jaune représentent des mots ayant surtout été utilisés pendant une période plus récente. Une échelle temporelle, située en bas à droite de la visualisation, indique à quelle année correspond chacune de ces périodes (Figure 19).

Observez votre graphe. En principe, plus il contient des points bleus et jaunes, plus le phénomène que vous analysez a connu des changements à l’intérieur des années sélectionnées avec l’échelle temporelle. Inversement, plus il présente des points avec une couleur entre le bleu et le jaune, moins le phénomène que vous analysez a changé pendant la période indiquée par l’échelle temporelle. Arrivez-vous à discerner des tendances?
Pour notre scénario, nous avons généré un graphe d’analyse temporelle montrant que le mot-clé « air pollution » était surtout fréquent en 2021. Ce fait suggère qu’il était un thème transversal des recherches abordant la foresterie urbaine auparavant, mais que son importance diminuera dans les années à venir.
Définir une nouvelle échelle temporelle
Vous pouvez ajuster la période de temps couverte par le graphe en cliquant sur l’échelle temporelle. Dans la fenêtre contextuelle qui apparaît, décochez « Auto » et entrez les années qui vous conviennent le mieux (Figure 20). Appuyez sur « Close » pour appliquer les changements et observez votre nouveau graphe. Est-ce que vous arrivez à discerner des évolutions à l’intérieur de la nouvelle fenêtre de temps que vous avez définie?


Pour ce scénario, nous avons ajusté l’échelle temporelle de façon à couvrir la période 2020-2022, lors de laquelle ont été publié la majorité de nos données. Le nouveau graphe nous a permis de constater que de nombreux mots-clés, par exemple « heat stress », sont devenus plus fréquents en 2022. Cela suggère que les facettes de la foresterie urbaine abordées par la recherche changent rapidement.
Analyse de densité
Nous allons maintenant basculer vers la troisième et dernière option de visualisation. Déplacez votre curseur en haut de la fenêtre où se trouve votre graphe. Cliquez sur « Density Visualization » (Figure 22).

Dans la carte thermique qui figure maintenant à votre écran, les régions dont la couleur se rapprochent le plus du rouge désignent des groupes de mots-clés fréquemment utilisés tous ensemble . À l’inverse, les régions dont la couleur se rapprochent le plus du bleu décrivent des relations peu denses (Figure 23).

Observez votre carte thermique. Identifiez les régions plus en jaune et agrandissez-les en utilisant la molette de votre souris. Quels termes font partie des relations les plus denses? Comment expliquez-vous l’existence de liens aussi forts entre ces mêmes termes?
Pour notre scénario, nous avons généré une carte thermique qui nous a permis de voir un réseau dense liant les mots-clés « stakeholder », « willingness to pay » et « education », ce qui suggère l’existence de plusieurs articles portant sur la facette socio-économique de la foresterie urbaine.
Analyser la densité des regroupements de mots
Vous pouvez changer les paramètres de visualisation pour afficher la densité des regroupements par couleur. Déplacez votre curseur dans la colonne à droite de l’écran. Puis, cliquez sur « Cluster Density » (Figure 24).

La nouvelle carte thermique attribue à chaque région la couleur de son regroupement. Plus la couleur d’une région est opaque, plus elle désigne des groupes de mots-clés fréquemment utilisés ensemble. À l’inverse, les régions transparentes représentent des groupes de mots-clés avec une moins forte relation (Figure 25).

Observez votre carte thermique. Identifiez les régions les plus denses pour chaque regroupement et agrandissez-les en utilisant la molette de votre souris. Est-ce que les mots qui figurent dans chaque région dit quelque chose de son regroupement?
Pour ce scénario, nous avons généré une carte thermique avec le paramètre « Cluster density » qui nous a permis d’identifier la relation entre les mots-clés « thermal environment », « urban microclimate » ou encore « latent heat flux » comme étant centraux à l’intérieur d’un regroupement. Ce groupe de mots-clés suggère que le regroupement en question couvre les articles sur la foresterie urbaine qui abordent le climat.
■ Diffuser
Sauvegarder vos travaux
Pour sauvegarder vos travaux, déplacez votre curseur dans la colonne à gauche de l’écran. Cliquez sur « File », puis « Save… » (Figure 26).

Dans la fenêtre contextuelle qui apparaît, cliquez sur « JSON », puis nommez votre fichier. Cliquez sur le bouton « … » et enregistrer le fichier dans votre ordinateur. Quand vous aurez terminé, appuyez sur « OK » (Figure 27).
Sachez que vous ne pouvez pas sauvegarder vos paramètres de visualisation, comme les valeurs d’attraction et de répulsion ou encore l’échelle temporelle. Vous devrez les redéfinir chaque fois que vous chargerez vos fichiers dans VOSViewer.

Intégrez un graphe dans un site Web
Vous pouvez intégrez votre visualisation dans un site Web, de façon à ce que les utilisateurs et utilisatrices puissent interagir avec elle. Pour ce faire, allez à l’adresse suivante. Cliquez sur l’icône de dossier en haut à droite (Figure 28). Votre explorateur de fichiers s’ouvrira alors. Chargez votre fichier JSON.

Entrez le code HTML suivant dans votre site Web :
<iframe
allowfullscreen="false"
src="https://app.vosviewer.com/?json=//app.vosviewer.com/data/nom_du_fichier.json&simple_ui=true"
width="100%"
height="25%"
style="border: 1px solid #ddd; max-width: 700px; max-height: 500px"
>
</iframe>
Sauvegarder une image de votre visualisation
Pour enregistrer une image en haute résolution de votre visualisation, déplacez votre curseur dans la colonne à gauche de l’écran. Cliquez sur « File », puis « Screenshot… » (Figure 29). Choisissez où stocker votre image, puis cliquez sur « Save ». Vous disposez maintenant d’une image que vous pourrez insérer dans votre travail de recherche!

Types de données
- Structuré
- Texte
Discipline
- Environnement