Sondages
La pratique des sondages s'est aujourd'hui étendue à tous les aspects de la vie. L'essentiel de nos connaissances, de la recherche scientifique, des politiques et de la planification, voire des décisions, actions et attitudes individuelles dans la vie de tous les jours, est dans une large mesure façonné et orienté par des sondages. Les décisions d'achat, le diagnostic et le traitement de maladies, les opinions sur les lieux, les peuples ou les institutions reposent sur des contacts et expériences limités, voire uniques, qui sont néanmoins considérés comme représentatifs de l'ensemble du phénomène considéré. Il n'est pas rare que des auteurs écrivent des livres ou des articles sur des lieux ou même des pays aussi grands que l'Inde, après n'y avoir séjourné que quelques jours. Ces écrits se fondent sur des observations et expériences limitées, qui font alors fonction d'échantillon.
Le phénomène des sondages s'est généralisé dans le monde moderne. L'acheteur d'un lot de céréales n'examine qu'une poignée de grains pour se faire une idée de la qualité de l'ensemble; le cuisinier ou la ménagère ne goûtent que quelques bouchées (ou cuillerées) de leurs préparations pour juger du goût de tout le plat, et il suffit de quelques gouttes de sang pour analyser tout le sang que contient le corps d'un individu. Cette omniprésence du recours aux sondages laisse à penser que ceux-ci pourraient avoir la même efficacité dans le domaine des statistiques de l'éducation que dans d'autres activités humaines ou dans les travaux universitaires.
La validité des conclusions tirées d'un sondage est néanmoins fonction de la représentativité de l'échantillon. Les déductions rencontrées partent implicitement du principe que tous les éléments de la population considérée sont de même nature, du moins pour ce qui est de leurs grandes caractéristiques quantitatives ou qualitatives, ou bien que ces éléments sont suffisamment bien répartis dans la population pour qu'on puisse tirer de l'analyse d'un petit nombre d'éléments, voire d'un seul, autant d'informations que si l'on analysait l'ensemble de la population. Or, cette dernière peut n'être ni uniforme ni homogène, ce qui amène à se poser des questions sur la représentativité de l'échantillon et, partant, sur le bien-fondé de l'application à l'ensemble de la population des conclusions tirées de l'analyse de l'échantillon. Pour leur part, la représentativité de l'échantillon et la validité des conclusions tirées du sondage sont dans une large mesure fonction de la méthode de sondage, de la taille de l'échantillon et des techniques d'enquête et d'analyse.
Si l'on n'exclut de l'échantillon qu'un petit nombre d'éléments de la population, les estimations établies à partir de l'échantillon seront pratiquement identiques aux statistiques de la population tout entière, l'échantillon étant dans ce cas quasiment de même taille que la population. Lorsque, par contre, l'échantillon ne compte qu'un ou deux éléments de la population, il risque de ne pas être représentatif, sauf si la population est parfaitement homogène.
Dans l'optique de la représentativité, la méthode d'échantillonnage est aussi importante que la taille de l'échantillon. 11 est communément admis que l'échantillonnage aléatoire simple permet de sélectionner un échantillon véritablement représentatif, alors qu'un échantillon tiré à l'aveuglette peut s'avérer atypique, quelle qu'en soit la taille. Par ailleurs, les conclusions tirées de l'échantillon ne sont pertinentes et correctes que dans la mesure où les techniques d'analyse employées sont celles qui conviennent.
La taille de l'échantillon, la méthode d'échantillonnage et les techniques d'inférence des conclusions à partir de l'échantillon jouent donc un rôle capital tant dans la théorie que dans le pratique des sondages. Aussi a-t-on prêté une attention particulière à ces trois aspects dans la réalisation de l'enquête pilote.
Avantage de l’enquête par sondage : Substituer le sondage à la méthode actuelle de production des données (par recensement) ne peut se justifier que si, d'un point de vue tant analytique que pratique, le sondage présente des avantages certains par rapport au recensement. Tel est effectivement le cas, et ces avantages sont considérables lorsque la population est nombreuse. On peut considérer comme particulièrement importants, en théorie comme en pratique, les avantages ci-après que présentent les sondages par rapport aux recensements.
II.1. Définition et notions
La base de sondage
L’échantillonnage
Les variables d’intérêts
- Le sondage ponctuel
- Le sondage de tendance
- Le sondage panel
II. 2. Histoire des sondages
II.3. Populations et échantillons
II.4. Echantillonnage
- les méthodes d’échantillonnage non probabilistes (ou empiriques ou encore à raisonné)
- les méthodes d’échantillonnage probabilistes (ou aléatoires)
Les méthodes d’échantillonnage empiriques.
- les échantillons par quotas ou proportionnel
- les échantillons " accidentels "
- les échantillons de volontaires
- et autres
Les méthodes d’échantillonnage probabilistes.
- les échantillons aléatoires simples
- les échantillons systématiques
- les échantillons par grappes
- les échantillons stratifiés (proportionnels ou non proportionnels)
II.5. Les étapes d’une enquête par sondage
- Conception générale de l’enquête :
- La rédaction du questionnaire :
- Administration du questionnaire : -
- Traitement et analyse des données :
II.6. Déroulement du sondage
II.6.1. Les phases
- Enoncé des objectifs
- Population
- Données à rassembler
Taille de l'échantillon
n = PQ/V,
- n représente la taille de l'échantillon,
- P la proportion d'unités élémentaires possédant la caractéristique étudiée dans la population totale,
- Q la proportion d'unités élémentaires n'ayant pas la caractéristique étudiée dans la population totale
- V le niveau de variance de la moyenne recherché.
- Essai préalable du questionnaire
- Organisation du travail sur le terrain
- Administration de l'enquête
- Classement, mise en tableaux et analyse des données
- Vérification et "conditionnement" des données
- Classement et mise en tableaux
- Analyse et interprétation
II.6. Méthodes d’échantillonnage
II.6.1. Certains concepts de probabilité et statistiques
Variables (quantitatif, qualitative, continue, discrète ou discontinue, nominale (categorial data), ordinale, d’ intervalle, de rapport ("ratio level"))
Probabilité d’un événement:
Moyenne arythmétique:
Médiane:
Mode:
Déviation:
Déviation standard:
Univers ou population :
L’échantillon :
Paramètres de l’échantillon :
Unité statistique de l’échantillon :
Base d’échantillon :
Courbe de Gauss:
II.6.2. Théories des échantillons: l’échantillonnage.
Echantillonnage probabilistes:
a. L’échantillonnage aléatoire simple (Sondage Aléatoire Simple, SAS)
b. Echantillonnage aléatoire systématique
c. Echantillonnage aléatoire stratifié:
d. Echantillonnage aléatoire à grappes
Echantillonnage non probabiliste (empirique ou à choix raisonné):
- Echantillonnage accidentel
- Echantillonnage par quotas
- Echantillonnage par objectif
- Echantillonnage à cluster
- Echantillonnage par “opinion leaders”
- Autres méthodes empiriques de sondage:
- Le volontariat
- La méthode des itinéraires (ou random route)
- L’échantillonnage sur place
- L’utilisation des panels de consommateurs
- L’utilisation du téléphone
LA NOTION D’ERREURS
III.1. Types d'erreurs
- Les erreurs d’échantillonnage (ou erreurs dues au hasard), erreurs dont s’occupent les statistiques.
- Les erreurs indépendantes de l’échantillonnage (ou erreurs d’observation) :
- Erreurs de réponses variables (tendent à se compenser)
- Biais ou erreurs systématiques (ne se compensent pas)
Il existe deux types d’erreurs de sondage:
- l’erreur aléatoire ou naturelle : Provient du fait que l’on s’est contenté de tirer un échantillon
- le biais ou erreur systématique : provient de
- ce que certains individus ont une probabilité nulle d’appartenir à l’échantillon (listes incomplètes, abonnés de téléphone…)
- la probabilité que tel ou tel individu appartienne à l’échantillon est inconnue (enquête réalisée dans la rue, enquête postale…)
Par définition, un échantillon représentatif est un échantillon sans biais (chaque unité statistique peut figurer dans l’échantillon avec une probabilité connue).
Les erreurs ne s’appliquent qu’aux sondages probabilistes. Les sondages par choix raisonné ne permettent pas de calculer l’erreur de sondage.
Erreur aléatoire
L’erreur de l’échantillon sur des populations d’un nombre infini (supérieur à 100.000) est donné par la formule suivante:
p x q
e = s x √ --------
n
- “s” (sigma) è la mesure ou le niveau de fiabilité ou coefficient de confiance de l’intervalle d’estime ou un niveau de probabilité qu’un échantillon représente dans sa population. Ses valeurs sont: s = 1 là où il y a un niveau de fiabilité de 68,3%; s = 2 là où il y a un niveau de fiabilité de 95,5%, et s = 3 où le niveau de fiabilité est de 99,7%. Ceci signifie que nous pouvons extrapoler ou projeter des données respectivement au 68,3%, 95,5% e 97,7% de la population.
- “n “est le nombre d’éléments qui font partie de l’échantillon.
- “p” e “q” sont des valeurs de pourcentage déjà données: normalement ils sont chacun de 50%. Ceci s’explique avec le fait qu’il faut assumer comme paramètre le pire des cas possible pour calculer l’erreur typique du pourcentage (toutes les questions des enquêtes divisent l’échantillon de l’univers de la même manière, en deux groupes parce que la réponse a au moins deux alternatives – oui ou non – et à plus forte raison dans le cas des sondages électoraux, parce qu’il y a au moins deux partis en lice). Le produit majeur qu’on obtient des deux nombre dont la somme est 100, est 50 x 50, pour cela, celle-ci est la pire des situations possibles.
L’erreur de l’échantillon sur des populations finies avec moins de 100.000 sujets se calcule avec la formule suivante :
p x q N - n
sp = √ -------- x --------
n N - 1
Erreurs systématiques
Autres types d’erreurs
Erreurs de couverture
Les non réponses : totale et la non-réponse partielle
Erreurs portant sur des populations nombreuses et hétérogènes
Calcul de la taille de l’échantillon et de la marge d’erreur
Outil en ligne :
Calcul de la taille de l'échantillon de base
Formule:
n= |
t² x p(1-p) |
|
m² |
Explication:
n = taille d'échantillon requise
t = niveau de confiance à 95% (valeur type de 1,96)
p =proportion estimée de la population qui présente la caractéristique (si inconnue, on utilise 0,5)
m = marge d'erreur à 5% (valeur type de 0,05)
Paramètres en jeu:
- N : Taille de la population-mère (ou population parent, ou population de référence, ou population d’origine).
- n : Taille de l’échantillon pour une population mère très grande (infinie).
- n2 : Taille de l’échantillon pour une population mère limitée et un rapport du taux d’échantillon qui est supérieur à 1/7 de la population mère.
- s : Seuil de confiance (ou Niveau de confiance ou encore Taux de confiance) que l’on souhaite garantir sur la mesure.
- t : Coefficient de marge déduit du Taux de confiance « s ».
- e : Marge d’erreur que l’on se donne pour la grandeur que l’on veut estimer (par exemple on veut connaître la proportion réelle à 5% près).
- p : Proportion (connue ou supposée, estimée) des éléments de la population-mère qui présentent une propriété donnée. (lorsque p est inconnue, on utilise p = 0.5). (on dit ausi : Probabilité de succès ou probabilité de réalisation positive).
- q = 1-p : Probabilité d’échec ou probabilité de réalisation négative.
On définit également :
- Le Taux de sondage R = n/N
- La Fourchette d’incertitude I = 2e.
Date de dernière mise à jour : 17/04/2017