Traitement d'informations qualitatives et quantitatives

Après une recherche d'information, une prise de notes en cours ou de lecture, une autre phase de travail commence : le traitement des données et des informations récoltées. Ce traitement peut être qualitatif et/ou quantitatif et a pour but :

  • de faire ressortir (ou d'identifier) les points essentiels OU de trouver des résultats dans les données-informations ;
  • d'organiser les données-informations selon les objectifs d'un cours OU selon les questions auxquelles on cherche à répondre.

Avec ces buts, le traitement peut prendre différentes formes :

  • trier ou catégoriser les informations ;
  • préparer les données, par exemple pour un traitement automatique ;
  • effectuer des calculs avec les données ;
  • trouver des visualisations (graphiques, tableaux) montrant clairement des résultats.

Ces actions se concrétisent et se développent dans des documents de travail et avec différents outils. C'est une phase essentielle car elle permet de créer des éléments centraux pour la phase suivante, c'est-à-dire la création de documents finaux (synthèse écrite, présentation orale).

Exemple de traitement qualitatif : trouver les concepts centraux d'un texte et leurs liens sémantiques

Votre texte de départ

Le document ci-dessous est un texte fourni par votre enseignant-e ou que vous avez pris en note lors de la lecture ou d'un cours de sociologie sur le "chien de la famille". (NB : L'exemple ci-dessous est totalement factice :-) ). L'emploi des termes latins sert à faire ressortir le résultat voulu).

Lorem ipsum dolor sit amet, chien consectetur jouer adipiscing enfants elit.
Nullam lorem nec, niche vehicula felis maison.
Nam manger a suscipit chien lectus croquettes.
Aenean quis elementum chien risus panier, non volutpat dui.
Phasellus chien vehicula dormir pharetra niche massa sed semper.
Donec eleifend chien imperdiet enfants lacinia. Nullam garage eu ultrices odio.
Proin vitae jouer imperdiet chien arcu ballon, non tincidunt enfants arcu.
Proin aliquet diam eu sapien chien blandit volutpat.
Integer ligula puces nisi tapis, viverra in lobortis canapé sit amet.
Phasellus ut ipsum ac chien felis porta manger convallis os.

Trouver les concepts centraux du texte

Pour déterminer quels sont les concepts centraux dans un texte ou dans vos notes, utilisez un outil de création de nuage de mots avec fonction de comptage du nombre d'apparition des mots dans le texte (comme "Nuage de mots" ou "wordcloud"). Avec ce comptage, un tel outil vous donne une idée de l'importance relative des différents termes.

  • https://wordcloud.timdream.org/
  • https://nuagedemots.co/

Résultat :

  • L'outil donne les mots qui apparaissent le plus souvent dans le texte. Il est logique que le mot "chien" apparaisse le plus souvent (nombre = 8) puisque c'est le thème du texte pris en notes. Dans le nuage, le terme "chien" est donc placé au centre et en plus gros. On voit donc aussi que les mots "enfants", "jouer", "niche" et "manger" sont aussi très importants pour ce thème.
  • NB : Un tel traitement demande une deuxième phase où, en particulier, on enlève tous les articles des mots (par exemple : le, la, une, un, des, etc.) afin de focaliser le traitement sur les concepts du texte. Pour cela, il suffit, avec l'outil employé, de cliquer sur les croix à droite des termes que l'on veut enlever.

Nuage Mots Texte1Nuage Mots Texte

 

Trouver les liens entre les concepts centraux du texte

Une carte conceptuelle vous montre l'importance des différents termes en synthétisant les relations de sens (sémantique) existant entre ces termes. Voyons pourquoi et comment.

Lorsque vous prenez des notes pendant un cours ou pendant la lecture d'un document, elles apparaissent dans votre document de notes dans l'ordre où elles vous sont "apparues" et où vous les avez écrites. Logique. Ces notes étant assez longues, les informations données sur le concept central (dans notre exemple : chien) sont dispersées dans toutes vos notes et éloignées les unes des autres dans les pages. En effet le chien est en relation avec beaucoup d'autres concepts liés à la famille et il faut donc beaucoup de place pour écrire toutes ces relations avec tous ces autres concepts. Vos notes ne sont pas très pratiques pour réfléchir aux contenus de ce cours.

En traitant vos notes sous la forme d'une carte conceptuelle (avec un outil comme XMind), celle-ci montre mieux les concepts principaux en relation. Placez le concept chien au centre et écrivez ses relations sous la forme de petites phrases (par exemple : chien aime enfants, chien met puces dans tapis et canapé) que vous composez avec les autres concepts et les verbes trouvés dans vos notes. Toutes les idées principales reliées au chien apparaissent maintenant beaucoup mieux.

CC Concepts Texte

Visualisations graphiques d'informations qualitatives

Il existe de nombreux types de graphiques pour représenter des données qualitatives. Dans cette page, des exemples des principaux types montrent la finalité de leur utilisation. Notons que certains exemples de graphiques peuvent être à la jonction de différents types.

NB : Si on clique sur une image-exemple, elle apparaît en grand.

Arborescence

Une arborescence met en évidence une hiérarchisation dans des données à partir d'un point de départ.

  • Exemple : Arbre des eucaryotes
  • Source : Philippe Silar, CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Arbre Phylogénétique Des Eucaryotes   P.silar (2016)

Carte conceptuelle

Une carte conceptuelle met en évidence des concepts et leurs liaisons. Elle forme un réseau de petites phrases comme dans l'exemple ci-dessous. On trouve aussi des "mind maps" formées de plusieurs petites arborescences partant d'un concept central.

  • Exemple : Carte conceptuelle décrivant une carte conceptuelle
  • Source : The original uploader was Dvitalo12 at English Wikibooks., CC BY-SA 3.0 https://creativecommons.org/licenses/by-sa/3.0, via Wikimedia Commons

800px Concept Map About Concept Maps

Flèche du temps

Une flèche du temps met en évidence les étapes d'un processus (avec des "avant" et des "après").

  • Exemple : Ligne du temps de l’histoire de la Suisse
  • Source : Dominique Dietiker, CC BY-SA 3.0, https://creativecommons.org/licenses/by-sa/3.0, via Wikimedia Commons

Timeline Vecchia Confederazione

Un diagramme en arête de poisson met en évidence les causes et/ou les effets d’un problème en considérant cinq aspects (Matières, Matériels, Méthodes, Milieu et Main d'oeuvre) pour faciliter son analyse. C'est une flèche du temps particulière.

  • Exemple : Pourquoi une photographie est floue ? NB : Dans cet exemple, les aspects Matières et Matériels sont regroupés sous le terme "Equipment".
  • Source : Cmglee, CC BY-SA 4.0, https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

Blurry Photo Fishbone Diagram.svg

Un cycle met en évidence les étapes d'un processus pour lequel ces étapes recommencent en boucle. C'est une flèche du temps particulière.

  • Exemple : Le cycle de l'eau
  • Source : John Evans and Howard Periman, USGS, Public domain, via Wikimedia Commons

Watercyclesummary

Schéma et organigramme

Un schéma met en évidence graphiquement les aspects-éléments principaux d’un objet ou d’un système. Le terme diagramme est un synonyme.

schéma = Représentation graphique réduite à l'essentiel, et souvent symbolique, mais où toutes les informations se trouvent données de façon précise. Synon. diagramme

  • Exemple : Système respiratoire de l'humain
  • Source : LadyofHats, Public domain, via Wikimedia Commons

Respiratory System Complete En.svg

Un organigramme met en évidence les aspects-éléments principaux d’un objet ou d’un système ainsi que leurs principales relations. C'est donc un schéma auquel on ajoute des relations entre les éléments. NB : Certains organigrammes, notamment en informatique, utilisent les éléments et leurs relations pour représenter les étapes d'un processus ou d'un flux de travail.

  • Exemple : On voit souvent des organigrammes montrant la structure d'un groupement, d'une entreprise ou d'une administration.
  • Exemple : Organigramme des étapes d'une activité d'apprentissage
  • Source : Lebrun, M. (2005). Des technologies pour enseigner et apprendre. Bruxelles : Éditions De Boeck.

Organigramme Flux Lebrun2005

Autres représentations ayant des aspects graphiques

Il existe d'autres représentations d'informations basées sur des aspects graphiques qui aident à lire visuellement les informations. Par exemple :

  • Des nuages de mots mettent en évidence des regroupements possibles des données ou l'importance relative des données entre elles.
  • Une carte géographique montre des lieux, des objets placés en ces lieux et leurs positions dans l’espace les uns par rapport aux autres (à gauche-droite, en haut-bas, plus-moins proches). On peut situer des données dans les lieux (par exemple : le nombre d’habitant-es de chaque village d’une région).
  • Une liste met en évidence des informations différentes en revenant à la ligne pour chaque information.
  • Un tableau à double entrée met en évidence des différences entre des données en les catégorisant (autant de catégories que de colonnes, ou de lignes selon le sens du tableau).

 

Des ressources pour aller plus loin

Exemples de traitement quantitatif : trier des données et faire des calculs

Cette activité montre des possibilités de traitement de données quantitatives qu'on peut faire facilement avec une application comme Excel. Seuls les principes de ces possibilités sont décrits ici. Un cours sur Excel ou des tutoriels sur ses fonctions permettent de savoir exactement comment faire le traitement des données. Deux types de traitement de données sont présentés :

  • quelques fonctions de tri très utiles ;
  • quelques calculs simples. 

NB:  Utilisez une application comme Excel si vous voulez faire quelques calculs simples (par exemple, le calcul d'une moyenne et de l'écart-type d'un ensemble de données). La force d'Excel est sa polyvalence. Il vous permet aussi bien de faire des calculs (financiers, mathématiques, logiques, sur des données textuelles, sur des dates-heures, etc.) que l'exploration et l'analyse de beaucoup de données avec des fonctions comme les tableaux croisés dynamiques (appelés "Pivot table" en anglais).  Mais si vous devez faire toute une analyse statistique, par exemple, il vaut certainement mieux utiliser des outils spécialisés comme SPSS ou R.

Trier une sélection de données

Utilisons pour cela un exemple de données récoltées auprès d'étudiant-es auxquels on a demandé leur prénom, leur nom et leur université et la feuille de données résultante ressemble à celle montrée ci-dessous. (NB : Les deux noms et prénoms visibles sont totalement fictifs.)

Excel Tri1

La fonction utilisée se trouve dans l'onglet "Données / Tri" (Data / Sort). Avec cette fonction, les données sélectionnées sont triées automatiquement par ordre alphabétique ou dans le sens inverse selon le choix de tri fait. Cet exemple montre en particulier comment sont triées des données dont les libellés mélangent textes et chiffres : "nom10" apparaît avant "nom3". Mais si les données ne sont que des chiffres, elles sont triées du plus grand chiffre au plus petit (ou dans le sens inverse).

Excel Tri3

Trier une colonne ou une ligne de données

On peut appliquer la même fonction de tri mais en sélectionnant toutes les données d'une colonne ou d'une ligne.

Trier avec des filtres

La fonction utilisée se trouve dans l'onglet "Données / Filtres" (Data / Filter). Après avoir sélectionné la colonne C des données de notre exemple, nous avons activé cette fonction. Un bouton apparaît (petite flèche vers le bas) et si nous cliquons dessus, on voit ce que montre la copie d'écran ci-dessous. La fonction de filtre montre automatiquement toutes les réponses différentes obtenues : "unibe", "unige" et "unifr". De plus, si on coche une de ces réponses (par exemple "unibe"), le fichier Excel ne montre que les données correspondant à ce choix et on peut mieux les observer. Mais, bien sûr, les autres données ne sont pas effacées. En recochant "Select all", Excel remontre toutes les données.

Excel Filtre

Enlever des doublons

La fonction utilisée se trouve dans l'onglet "Données / Outils / Enlever des doublons" (Data / Data Tools / remove duplicates). En appliquant cette fonction à une sélection de données, Excel génère la liste des données différentes. Attention, Excel efface tous les doublons dans les données sélectionnées et il faut sauvegarder les données de départ au préalable.

On peut utiliser cette fonction pour générer la liste de toutes les réponses données à une question. Imaginons, qu'on ait demandé à des personnes de choisir dans une liste de 50 pays, les 5 pays où elles sont allées et qu'elles ont préféré. Pour traiter les réponses, on a besoin de savoir quels pays parmi les 50 apparaissent dans les réponses.

Calculer la "moyenne" de données récoltées avec une échelle textuelle

Un questionnaire peut demander de répondre à une question en choisissant entre les quatre options d'une échelle : très mal, assez mal, assez bien, très bien. On peut vouloir traiter ces données en calculant une sorte de moyenne et il faut donc convertir les données en chiffres, par exemple : convertir "très mal" en 1, "assez mal" en 2, etc.

Pour faire cela, prenez vos données de base (cf. Colonne H ci-dessous), recopiez les (cf. Colonne I ci-dessous) et sélectionnez cette colonne. La fonction "Trouver et remplacer" (raccourci clavier CTRL H) permet de faire la conversion voulue (cf. copie d'écran ci-desous). On veut trouver "Très bien" et on le remplace par "4" dans toutes les données sélectionnées en cliquant sur "Replace all". On recommence avec les 3 autres réponses possibles. Ensuite on applique un simple calcul de moyenne à toutes les données de la colonne I.

Excel Texte Chiffre  

Attention :  Le résultat d'un tel calcul n'est qu'une indication. On tolère de faire un tel calcul sur des données qualitatives. Mais le vrai résultat obtenu est : Sur 120 réponses, 57 personnes ont répondu "Très bien", 39 "Assez bien", etc.

Calculer la répartition de données

Imaginons que vous interrogiez des personnes dont l'âge doit se situer entre 10 et 50 ans. Au début de votre questionnaire, un message précise cela. Autrement dit, vous demandez aux autres personnes de ne pas répondre à votre questionnaire. De plus, avant de traiter toutes les données récoltées, il est préférable de vérifier comment les données se répartissent dans l'intervalle d'âge visé.

Excel Box Whisker

La fonction utilisée se trouve dans l'onglet "Insérer / Graphiques / Boîte à moustaches" (Insert / Charts / Box & Whisker). Elle calcule automatiquement la valeur médiane de vos données et la répartition de celles-ci autour de la médiane. Dans notre exemple, la médiane est 29 ans, juste au milieu entre 10 et 50. Cet ensemble de données pourrait suffire à une analyse puisqu'on a autant de données entre 10 et 29 ans qu'entre 29 et 50 ans. 

Cette fonction fait aussi un autre calcul. Le graphique montre un point bleu correspondant à un âge de 70 ans. Selon la méthode statitistique de la "boîte à moustaches", cela indique que cette donnée se situe en dehors de la répartition des autres données enregistrées. Vous avez donc le droit de l'enlever de vos données avant, par exemple, de calculer l'âge moyen de la population qui vous a répondu. Par ailleurs, cette méthode a permis ici de trouver qu'une personne de 70 ans a répondu, personne que vous ne voulez pas prendre en compte dans votre analyse.  

Calculer le nombre d'occurrences d’une donnée textuelle

Reprenons notre exemple des réponses données aux quatre options d'une échelle : très mal, assez mal, assez bien, très bien. La fonction utilisée "Countif" se trouve dans l'onglet "Formules" (Formula) et fait le calcul suivant :

  • elle prend en compte toutes les données sélectionnées : dans notre exemple dasn toutes les cellules de I2 à I171 ;
  • elle calcule le nombre de fois que la cellule vaut "Très bien".  

Excel Count If

Si vous devez faire beaucoup de calculs de ce genre et avec beaucoup de données (Une enquête avec un questionnaire génère très vite des milliers de données), la fonction des tableaux croisés dynamiques (pivot tables) est très utile et efficace car elle permet très facilement de nombreuses sélections de données et de nombreux calculs automatiques.

 

Visualisations graphiques d'informations quantitatives

Il existe de nombreux types de graphiques pour représenter des données quantitatives. Dans cette page, des exemples des principaux types montrent la finalité de leur utilisation. Notons que certains exemples de graphiques peuvent être à la jonction de différents types.

Source : Toutes les illustrations ci-dessous proviennent de AdobeStock (licence Education)

Comparer des valeurs selon différentes catégories

L'histogramme est une représentation de la répartition d'un ensemble de données par rapport à une variable. Chaque colonne sert à une classe de la variable. L'histogramme est aussi appelé graphique en colonnes ou graphique en barres. On parle aussi de "table" de fréquence.

  • Exemple 1 : L'histogramme représente le nombre de personnes d'un village et les colonnes correspondent chacune à une catégories-classe d'âge. On voit ainsi comment se répartissent les personnes du village selon les classes d'âge.

Histo Colonnes 1serie

  • Exemple 2 : L'histogramme représente la même variable pour deux séries de données (en violet et en rouge). Chaque série correspond à une seconde variable : par exemple, l'année ou le genre des personnes. On parle souvent d'un graphique en barres multiples. Tout en se servant toujours de différentes couleurs pour les différentes séries, le graphique peut aussi montrer celles-ci en les superposant dans une même colonne. Dans ce cas, on parle d'un graphique en barres empilées.

Histo Colonnes 2series

  • Exemple 3 : Une alternative à l'exemple 2 est très souvent utilisée pour représenter une pyramide des âges des hommes et des femmes dans une population. Un tel graphique peut aussi servir pour comparer les valeurs de différentes données A, B, C et D dans deux populations différentes.  Par exemple les données A à D pourraient être le prix de vente de quatre aliments de grande consommation que l'on comparerait entre deux pays (à gauche et à droite).

Histo Colonnes Pyramide

Le radar permet de visualiser des ressemblances, ou des différences, entre des séries de données lorsqu'on veut prendre en compte plus de deux variables.

  • Exemple 1 : Le graphique ci-dessous montre deux séries de données pour lesquelles on a huit variables. On voit que les deux séries sont assez similaires pour certaine variables et peu pour d'autres.
  • Exemple 2 : La série représentée en bleu peut être considérée comme un profil idéal. On peut alors comparer la série en rouge avec ce profil selon les différents critères-variables.
  • NB : Si on considère un grand nombre de variables, le radar devient peu lisible. 

Radar

 

Montrer des proportions

Le "camembert" est sans doute la représentation graphique la plus connue et la plus utilisée pour cet usage. Dans ce graphique, chaque couleur représente une des classes considérées. Ce graphique permet de visualiser-comparer très facilement les proportions entre les classes.

  • Attention : Beaucoup d'outils numériques permettent de montrer des camemberts en 2 ou 3 dimensions avec un effet de perspective. Mais la perspective peut fausser l'apparence des proportions !

Camembert

NB : Beaucoup d'autres types de graphiques permettent de montrer des proportions.

Montrer le changement des valeurs dans le temps

Le principe de l'histogramme est très utile pour une telle représentation.

  • Exemple 1 : On représente le nombre d'habitant-es d'un village et chaque colonne correspond à une année. On voit ainsi comment le nombre d'habitant-es du village évolue au long des années.
  • Exemple 2 : On représente la taille moyenne des enfants d'une population et chaque colonne correspond à l'âge de l'enfant. 

Histo Colonnes 1serie

Les courbes sont très habituelles pour montrer l'évolution d'une variable dans le temps.

Courbes Tendances

Le diagramme en branches permet aussi de visualiser l'évolution entre un état de départ et un état d'arrivée. Par exemple, le diagramme ci-dessous pourrait représenter vers quels pays sont allés les migrant-es selon leur pays d'origine : les 5 pays de départ sont montrés à gauche et les pays d'arrivée à droite. Ce graphique montrerait alors que tous les migrant-es originaires d'un pays vont dans le même pays de destination.

Diagramme Branches

Montrer les relations entre les données

Existe-t-il une tendance entre deux variables ? Autrement dit, les données de deux variables montrent-elles un comportement similaire ou totalement différent ? On obtient un nuage de points en répartissant les données dans un graphique ou chacune des deux variables est répartie selon un axe (vertical = ordonnée, horizotal = abscisse). Ce type de graphique est un moyen de visualiser l'existence ou l'absence d'une telle tendance.

  • NB : L'impression visuelle d'une tendance entre deux variable est parfois bien trompeuse. La preuve d'une tendance ou de l'absence d'une tendance s'obtient avec un calcul statistique.
  • Exemple 1 : Le nuage de points ci-dessous semble montrer qu'il n'y a pas de tendance entre les deux variables. En effet, pour des données ayant une haute valeur pour la variable de l'axe vertical, on trouve  des valeurs faibles. moyennes et hautes pour la variable de l'axe horizontal.

Nuage Points

  • Exemple 2 : Le nuage de points ci-dessous a une forme bien particulière ce qui montre une tendance entre les deux variables. Cette tendance pourrait être énoncée comme suit : pour chaque donnée, les deux valeurs des variables de l'axe vertical et de l'axe horizontal sont similaires (faible, moyenne ou haute). Une courbe accentue visuellement la tendance.
  • Exemple 3 : La présence de deux séries de données dans le graphique ci-dessous permet de visualiser un deuxième résultat : la tendance visible dans la première série l'est également dans la seconde. Si, par exemple, ces deux séries correspondent à deux années différentes, le deuxième résultat est que la tendance semble durer dans le temps. 

Courbes Tendances