Le traitement et l’analyse des données statistiques exigent trois types de compétences : les compétences en statistique, en analyse de données et en informatique.

Traitement des données

Le traitement des données est une étape indispensable pour une analyse des données. Il permet de bien préparer les données avant l’analyse.

Les principales opérations qui interviennent dans le processus du traitement des données sont :

  • Le codage des données :

-     Les classes d'intervalles : elle consiste à mettre les données en classe d’intervalle,

-     Le regroupement de modalités : lorsqu’une variable qualitative a plusieurs modalités, vous pouvez les regrouper pour obtenir un nombre de modalités plus réduit,

-     Le codage des modalités : cette opération consiste à donner des codes (0, 1, 2 …) aux modalités des variables. Il est important de respecter l’ordre croissant des codes lorsque les modalités sont ordinales.

  • Le calcul des indices et des scores : Cette opération permet obtenir des indicateurs pertinents (indice de satisfaction, niveau de compétence, note d'évaluation...) à partir de l’agrégation de deux ou de plusieurs autres indicateurs. Ce sont des indicateurs composites.
  • Le redressement des données : Il permet d’obtenir un échantillon représentatif en supprimant des individus (plusieurs critères, parmi lesquels le taux élevé de valeurs manquantes, peuvent conduire à supprimer un individu) ou en attribuant un poids particulier aux répondants en fonction de leur catégorie et des objectifs de l'enquête (c’est la pondération).

Analyse des données

L’analyse des données repose sur l’utilisation de techniques statistiques. Ici, on fait recours à l’utilisation des statistiques descriptives et/ou des statistiques inférentielles.

Les statistiques descriptives permettent de décrire et de présenter les données. Il s’agit des caractéristiques de tendance centrale (moyenne, mode, médiane) et des caractéristiques qui révèlent l’allure de la distribution (étendue, écart-type, symétrie ou aplatissement). Il faut noter que ces caractéristiques ne s’appliquent que sur des variables quantitatives. Pour les variables qualitatives, on fait référence aux tableaux de contingence. En plus de ces caractéristiques, il faut associer les graphiques adaptés selon le type de variable.

L’analyse dite exploratoire est généralement classée comme prolongement de la statistique descriptive. Il s’agit d’un ensemble de techniques qui ont pour objet de faciliter la visualisation des données, de révéler leur structure sous-jacente et d’extraire certaines variables importantes. Les méthodes d’analyse exploratoire les plus utilisées sont : l’analyse factorielle en composantes principales, l’analyse des correspondances et l’analyse hiérarchique.

NB : les statistiques descriptives ne permettent pas de faire d’inférence ou de prédiction à partir des données recueillies. Elles rapportent simplement les résultats sous une forme synthétique qui facilite leur interprétation.

Les statistiques inférentielles permettent de réaliser des inférences et des prédictions à partir des données rassemblées. Il existe de nombreuses techniques inférentielles qui permettent de tester des hypothèses en comparant des moyennes ou des variances ou encore de vérifier le lien entre les variables. Parmi ces techniques, on compte les techniques de corrélation, de chi2 et de régression.