Accueil > Astuces... > Intervalle de confiance bilatéral d’une proportion

Stats

Intervalle de confiance bilatéral d’une proportion

mercredi 26 novembre 2008
Mis à jour le lundi 22 octobre 2012

Le calcul de l’intervalle de confiance d’une proportion est un grand classique en statistiques. Il s’agît même de l’un des premiers intervalles de confiance que les étudiants apprennent à calculer. Cependant, il ne faudrait pas croire que ce soit un exercice si simple. En effet, il existe une multitude de manière de calculer cet intervalle de confiance.

En bonus, une feuille de calcul permettant de calculer facilement ces intervalles de quatre manières différentes.

Le principe général d’un intervalle de confiance consiste à déterminer, à partir de ce qui a été observé dans un sous-échantillon, un intervalle dans lequel la grandeur que l’on étudie, au sein de la population dont est extrait l’échantillon, a de fortes chances de se situer. En l’occurrence, il s’agit de déterminer un intervalle, connaissant la proportion p observée dans l’échantillon, au sein duquel la proportion π réelle de la population étudiée se situe avec une probabilité égale à une valeur fixée à l’avance, usuellement 95 %, et notée 1-α.

Il s’agit donc de rechercher a et b tels que p[aπb]=1-α. α correspond au risque d’erreur que nous acceptons de prendre. Nous pouvons interpréter cet intervalle de confiance par “il y a une probabilité de 1-α pour que π soit compris entre a et b”.

Dans la suite de notre propos, nous nous situerons dans le cadre d’un échantillonnage aléatoire simple issu d’une population infinie. Dans les faits, les populations que nous étudions ne sont pas infinies mais sont suffisamment grandes comparées à la taille de nos échantillons (le plus souvent, il s’agit de populations de plusieurs millions d’individus tandis que nos enquêtes portent sur quelques milliers de personnes au plus) pour que nous puissions considérer qu’il s’agit d’une population infinie. Des corrections sont techniquement possibles. En l’espèce, nous pouvons négliger cet aspect.

Loi Binomiale

Nous noterons n la taille de notre échantillon. Le nombre d’individus observés, parmi les n enquêtés, présentant le caractère étudié est donc égale à np. Ce nombre np suit ce que l’on nomme une loi Binomiale de paramètre n et π. Il s’agit d’une loi discrète et non continue. En effet, np ne peut être qu’un nombre entier. Si 100 personnes ont été enquêtées, 12 ou encore 58 parmi elles peuvent présenter un caractère donné, mais cela ne peut être 12,5 ou 58,3. Le caractère discret de la loi binomiale implique que le calcul d’un intervalle de confiance exact est relativement compliqué et il a amené à de vives discussions parmi les statisticiens sur la manière adéquate de procéder ( [1], [2], [3], [4], [5], [6]).

Cependant, dès lors que l’échantillon est suffisamment grand, il est possible d’avoir recours au théorème central limite qui permet de simplifier le calcul, p pouvant être alors approximé par une loi Normale.

De plus, dans le cadre d’un tirage aléatoire simple avec remise (ce qui correspond à une population-mère infinie), nous pouvons considérer que la sélection de chaque individu de l’échantillon est indépendante des autres individus sélectionnés. Il en résulte alors que le meilleur estimateur possible de la proportion réelle π est la proportion observée p. D’un point de vue plus formel, p est un estimateur sans biais, efficace et convergent de π et correspond à l’estimateur obtenu par la méthode du maximum de vraisemblance ( [7], p. 164, 166, 169 et 175).

Plusieurs méthodes ont été développées pour calculer l’intervalle de confiance d’une proportion. Nous ne présenterons ici que quatre d’entre elles :

  • la méthode standard traditionnelle, nommée méthode asymptotique ou bien encore méthode WALD par VOLLSET ( [8]) et d’autres auteurs à sa suite ;
  • la méthode de score ou méthode WILSON ( [9]), encore appelée méthode de l’ellipse ;
  • la méthode WALD avec correction de continuité ( [10]) ;
  • la méthode de score de WILSON avec correction de continuité ( [11], [8]).

Un calculateur en ligne pour ces quatre méthodes est disponible à l’adresse suivante : http://www.ac-poitiers.fr/math/prof/resso/cali/ic_phrek.html. Ces quatre méthodes sont également disponibles dans la feuille de calcul jointe.

Des méthodes plus complexes ont également été proposées mais elles sont plus difficiles à mettre en œuvre. Par ailleurs, le gain apporté à les utiliser est le plus souvent limité dans le cadre d’un usage courant.

Méthode standard (Wald)

Selon le théorème central limite, la moyenne expérimentale d’une répétition d’expériences identiques converge, quand n augmente, vers une loi Normale. Il en résulte que, pour n suffisamment grand, nous pouvons considérer que p suit une loi Normale de moyenne π et d’écart-type \sqrt{\frac{\pi (1-\pi )}{n}}. Usuellement, on considère que cette approximation est valable pour n supérieur à 30 ( [12], p. III-8). D’autres auteurs préconisent que l’on ait observé au moins 5 succès et 5 échecs : soit np≥5 et n(1-p)≥5 ( [13], p. 310).

La différence p-π suit donc une loi Normale de moyenne nulle et de même écart-type. Comme π est inconnue, nous ne connaissons pas la valeur exacte de l’écart-type. Il existe deux possibilités pour l’approximer. On utilise le majorant (c’est-à-dire la plus grande valeur possible) de π(1-π) à savoir ¼. Ou bien, on remplace π par son estimation p pour le calcul de l’écart-type, ce qui est la méthode la plus courante.

Si l’on note z la valeur pour laquelle la fonction de répartition de la loi Normale centrée réduite est égale à 1-α/2, les bornes de l’intervalle de confiance de π sont alors égales à :

p\pm z\sqrt{\frac{p(1-p)}{n}}

Cette méthode est la plus courante. Si elle produit des intervalles de confiance parfaitement centrés autour de la proportion observée, elle peut induire, pour des valeurs de p proches de 0 ou de 1, des intervalles dont une partie est inférieure à 0 ou supérieure à 1. Il est alors nécessaire de tronquer l’intervalle pour supprimer les valeurs aberrantes. Cette approximation n’est donc valable que pour une valeur de p proche de 50%.

Méthode de score (Wilson)

Comme pour la méthode standard, la méthode de score utilise la convergence de la loi Binomiale vers la loi Normale et approxime l’écart type en remplaçant π par p. Cette approche suggère que l’on peut obtenir un intervalle de confiance en prenant en compte les valeurs de π telles que :

 \left|\frac{p-\pi }{\sqrt{\frac{p(1-p)}{n}}} \right|<z

En élevant cette inégalité au carré puis en résolvant l’équation au second degré obtenue, on détermine alors les bornes de l’intervalle de confiance par la formule :

 \frac{2np+z^{2}}{2(n+z^{2})}\pm \frac{z\sqrt{z^{2}+4np(1-p)}}{2(n+z^{2})}

Cet intervalle de confiance n’est plus centré sur p et présente l’avantage de ne pas produire de valeur aberrante (inférieure à 0 ou supérieure à 1).

Pour plus de détails sur la résolution de l’équation, voir le mémoire de Patrick GAGNON ( [14], p. 12-13).

Correction de continuité

Il s’agit d’une correction, initialement proposée par YATES [15], pour tenir compte du passage d’une loi discrète à une loi continue. Chaque nombre entier x sera considéré comme couvrant l’intervalle allant de x-½ à x+½. Cela induit une légère modification des formules pour le calcul des intervalles de confiance.
Pour la méthode de WALD on obtient ainsi :

 p\pm \left[z\sqrt{\frac{p(1-p)}{n}}+\frac{1}{2n} \right]

et pour la méthode de WILSON :

PNG - 27.7 ko

Choix d’une méthode

Différents auteurs ont comparé l’efficacité de plusieurs méthodes, dont les quatre présentées ici, ainsi que des méthodes de calcul plus complexes ( [16], [17], [18]). Si la méthode classique doit être évitée parce qu’il s’agit de la moins performante et qu’elle produit des valeurs aberrantes, la méthode WILSON de score avec correction de continuité est recommandée dans la mesure où ses performances sont presque équivalentes à celles de méthodes dites exactes et où son calcul est relativement aisé.

Valeurs courantes de z

Nous avons noté z la valeur pour laquelle la fonction de répartition de la loi Normale centrée réduite est égale à 1-α/2. Le plus souvent, les intervalles de confiance calculés sont les intervalles à 95%, parfois 90% et plus rarement 99%.

Voici les valeurs de z correspondantes pour ces cas les plus fréquents :

  • intervalle de confiance à 90 % : z= 1,64485362695 ≈ 1,645
  • intervalle de confiance à 95 % : z= 1,95996398454 ≈ 1,960
  • intervalle de confiance à 99 % : z= 2,57582930355 ≈ 2,576

Notes

[1CLOPPER C. J. et PEARSON E. S., « The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial », Biometrika, n°26(4), 1934, pages 404-413.

[2CASSIGNOL C., « Note sur la construction d’intervalles de confiance pour la proportion de défectueux d’un lot à partir d’échantillons d’effectifs peu élevés », Revue de statistique appliquée, n°2(3), 1954, pages 43-55. (http://www.numdam.org/item?id=RSA_1954__2_3_43_0)

[3DUMAS M., « Choix et détermination pratique d’intervalles de confiance », Revue de statistique appliquée, n°3(3), 1955, pages 85-101. (http://www.numdam.org/item?id=RSA_1955__3_3_85_0)

[4VESSEREAU A., « Sur l’intervalle de confiance d’une proportion logique « classique » et logique « bayesienne » », Revue de statistique appliquée, n°26(2), 1978, pages 5-31. (http://www.numdam.org/item?id=RSA_1978__26_2_5_0)

[5BRENNER D. J. et QUAN H., « Exact Confidence Limits for Binomial Proportions-Pearson and Hartley Revisited », The Statistician, n°39(4), 1990, pages 391-397.

[6COPAS J. B., « Exact Confidence Limits for Binomial Proportions-Brenner & Quan Revisited », The Statistician, n°41(5), 1992, pages 569-572.

[7BOUZITAT C., BOUZITAT P. et PAGÈS G., Statistique, Probabilités, Estimation ponctuelle : cours et exercice d’application, Cujas, Paris (FR), 1990, 224 pages.

[8VOLLSET S. E., « Confidence intervals for a binomial proportion », Statistics in Medicine, n°12(9), 1993, pages 809-824.

[9WILSON E. B., « Probable inference, the law of succession, and statiscal inference », Journal of the American Statistical Association, n°22, 1927, pages 209-212.

[10BLYTH C. R. et STILL H. A., « Binomial confidence intervals », Journal of the American Statistical Association, n°78, 1983, pages 108-116.

[11GOSH B. K., « A comparison of some approximate confidence intervals for the binomial parameter », Journal of the American Statistical Association, n°74, 1979, pages 894-900.

[12JOLION J.-M., Probabilités et Statistique - Cours de troisième année, Lyon (FR), INSA, Département génie Industriel, 2006, 120 pages. (http://rfv.insa-lyon.fr/ jolion/PS/poly_stat.pdf)

[13WONNACOTT T. H. et WONNACOTT R. J., Statistique : économie - gestion - sciences – médecine, Economica, réimpression de 1995 de la traduction française de 1991 à partir de la quatrième édition américaine de 1990, 1972 pour la première édition originale, Paris (FR), 1990, 920 pages.

[14GAGNON P., Intervalles de confiance pour une différence de deux proportions, mémoire pour l’obtention du grade de Maître ès Sciences (M. Sc.), sous la direction de BÉLISLE C., Université de Laval, Faculté des Sciences et de Génie, Québec (CA), 2006, 94 pages. (http://www.theses.ulaval.ca/2006/24060/24060.pdf)

[15YATES F., « Contingency table involving small numbers and the Khi² test », Supplement to the Journal of the Royal Statistical Society, n°1(2), 1934, pages 217-235.

[16NEWCOMBE R. G., « Two-sided confidence intervals for the single proportion : comparison of seven methods », Statistics in Medicine, n°17(8), 1998, pages 857-872.

[17TOBI H., VAN DEN BERG P. B. et DE JONG-VAN DEN BERG L. T., « Small proportions : what to report for confidence intervals ? », Pharmacoepidemiology and drug safety, n°14(4), 2005, pages 239-247.

[18TSAI W. Y., CHI Y. et CHEN C. M., « Interval estimation of binomial proportion in clinical trials with a two-stage design », Statistics in Medicine, n°27(1), 2007, pages 15-35, DOI : 10.1002/sim.2930.

Documents à télécharger

Commentaires

  • Le 11 décembre 2013 à 14:50, par Manuel

    @papillon0
    La formule donnée en lien indique la formule pour calculer l’intervalle de confiance de la différence entre deux proportions, et non celui d’une proportion.

    Répondre à ce message

  • Le 17 janvier 2012 à 11:27, par elaek1

    Pourquoi dans une distribution normale, pour un pourcentage de confiance de 90% —>z=1.64 et pour 95% —>z=1.96 ...
    Veuillez détaillez la réponse svp.

  • Le 20 septembre 2011 à 11:13, par A.D.

    Bonjour,

    Concernant la formule de l’intervalle de confiance de Wilson avec correction de continuité, celle que vous indiquez ici (bien que ne s’affichant pas correctement) semble différente de celle présente dans la feuille de calcul que vous mettez en pièce jointe.
    En effet, ici (dans le texte), la formule sous la racine carrée est (par exemple pour la borne supérieure) :

    z^2 + 2 - (1/n) + 4p ( n (1-p) - 1 )

    Or, dans le fichier excel/ods ci-joint, la formule sous la racine carrée (toujours pour la borne supérieure) est :

    z^2 + 2 - (1/n) + 4 ( n (1-p) - 1 )

    Quant est-il ? Quelle est la formule correcte ?
    Merci d’avance :)

    Cordialement,

    A.D.

    • Le 20 septembre 2011 à 11:18, par A.D.

      De plus, il arrive dans certains cas que la borne supérieure calculée pour l’intervalle de Wilson avec correction de continuité soit inférieure à la valeur de p, ce qui n’est pas logique. A quoi cela est-il dû ?

      Cela arrive par exemple pour : p=99.95 et n=84, on obtient comme borne supérieure : 99.912 (cf. feuille de calcul jointe à votre article).

      Merci d’avance pour vos éclaircicements à ce sujet.
      Cordialement,

      A.D.

    • Le 20 septembre 2011 à 12:06, par Joseph LARMARANGE

      Bonjour,

      merci pour votre relecture attentive. La bonne formule est z^2 + 2 - (1/n) + 4p ( n (1-p) - 1 ) sous la racine. Si vous regardez le fichier Excel ci-joint, il s’agit bien de cette formule qui est indiquée dans l’équation complète.

      Certes, le p a disparu des cases K12 et L12 mais vous constaterez qu’il est pourtant pris en compte dans les cellules situées en-dessous.

      Par ailleurs, vous évoquez un souci rencontré avec p=99.95% et n=84. En effet, on obtient un IC à 95% allant de 94,465% à 99,912% et donc ne contenant pas 99,95% !!!

      Sauf qu’il est rigoureusement impossible d’observer une proportion de 99,95% avec 84 individus. En effet, avec 84 individus, la plus haute proportion observable est de 83/84 soit 98,81%. Avec p=98,81% et n=84, on obtient un intervalle de confiance à 95% allant de 92,626% à 99,938% (contenant bien la valeur de 98,81%).

      Le plus petit effectif permettant d’observer une proportion de 99,95% est 2000. Pour p=99,95% et n=2000, on obtient l’intervalle 99,679%-99,997% encadrant bien la valeur de 99,95%.

      Bien cordialement,

      JL

    • Le 20 septembre 2011 à 14:39, par A.D.

      Bonjour,

      Merci beaucoup pour votre réponse aussi rapide.

      En effet, j’ai remarqué ensuite que la formule était bien appliquée dans la feuille de calcul.
      Je comprends très bien ce que vous m’expliquez pour le « problème » de la proportion en dehors de l’intervalle de confiance. Cependant, je travaille avec des données pondérées et je ne sais pas alors si la formule est adaptée pour un tel cas.

      Par exemple, si j’ai 5 individus ayant les poids suivants : w = ( 83 , 0.010 , 0.958 , 0.020 , 0.012 ) , j’aurais alors n=84 (la somme des poids). Et si maintenant, j’ai le vecteur binaire x = ( 1 , 0 , 1 , 0 , 0 ) , correspondant aux choix des 5 individus, je lui applique la pondération w, j’obtiens : xp = w * x = 83 * 1 + 0.010 * 0 + 0.958 * 1 + 0.020 * 0 + 0.012 * 0 = 83 + 0.958 = 83.958.
      Je calcule ensuite la proportion p associée : p = xp / n = 83.958 / 84 = 0.9995 = 99.95 % . Et je retomber sur un cas posant problème...

      Peut-être que cela est dû à une erreur de raisonnement de ma part et que la formule n’est pas applicable dans un tel cas ?
      Je vous remercie par avance pour vos éclaicissements sur le sujet :)

      Bien cordialement,

      A.D.

      Répondre à ce message

  • Le 16 juillet 2011 à 18:50, par FAL

    bonjour
    pouver vous m’aider a avoir la formule de calcul des IC pour un taux par la loi de poisson
    la methode exact.

    Bien a vous tous

    Répondre à ce message

  • Le 31 mai 2011 à 21:33, par Annie-Claude

    Merci +++, magique cette feuille de calcul pour les nuls et les fainéants de la calculette. Je la sauve précieusement dans mes « meilleurs documents ».

    Répondre à ce message

  • Le 14 janvier 2010 à 07:29, par papillon0

    Bonjour,
    merci beaucoup grâce à le premier lien (je n’ai pas encore regardé le second), il m’a permis de comprendre qu’en fait les 2 calculs sont valables, en fait c’est la manière d’estimer les P, P1 ou P2 selon le cas qui diffèrent.
    Je vais aller explorer le second lien, en tout cas merci beaucoup pour vos réponses et la rapidité de celles-ci.

    Répondre à ce message

  • Le 13 janvier 2010 à 11:29, par Didier

    Merci pour cette page web très bien réalisée, très bien documentée également.

    Répondre à ce message

  • Le 12 janvier 2010 à 15:56, par papillon0

    J’ai lu (enfin parcouru plutôt) ton document, il est plus en phase avec l’idée de ce que je m’étais fait.
    Cependant, je trouve régulièrement une autre écriture de l’intervalle de confiance d’une différence de proportion.
    comme sur le lien suivant :
    http://rfv.insa-lyon.fr/~jolion/STAT/node115.html

    est ce que tu saurais m’expliquer pourquoi ?

    Merci encore une fois :)

    • Le 12 janvier 2010 à 17:07, par Joseph LARMARANGE

      Ce lien n’est plus valable. N’étant pas mathématicien ni statisticien, je ne suis pas sur de pouvoir savoir d’où vient cette autre écriture.

    • Le 12 janvier 2010 à 17:41, par papillon0

      C’est fou ça il fonctionnait au moment où je l’ai mis. Dommage, enfin après si vous n’êtes ni statisticien ni mathématicien, je ne vais pas vous embêter avec cela. Peut être connaissez vous des gens experts en ce domaine ?

    • Le 12 janvier 2010 à 17:59, par Joseph LARMARANGE

      Je viens de comprendre d’où viens le souci. Il y a le caractère ~ dans le lien et comme vous avez simplement taper l’URL sans préciser que c’est un lien, SPIP a transformé ce caractère en espace insécable.

      Donc le bon lien est http://rfv.insa-lyon.fr/~jolion/STAT/node115.html.

      Concernant le test binomial de comparaison de deux proportions, on trouvera ce lien là http://www.chups.jussieu.fr/polys/b... qui explicite un peu mieux le calcul.

      Usuellement, lorsque l’on veut comparer deux proportions, on a plus souvent recours au test exact de Fisher.

      Je pense que le lien suivant devrait vous intéresser : http://mistic.heig-vd.ch/taillard/a....

      Il porte sur un comparatif de plusieurs techniques de comparaison de deux proportions.

      Bien cordialement

      Répondre à ce message

  • Le 12 janvier 2010 à 15:36, par papillon0

    Merci beaucoup je vais explorer cela

    Répondre à ce message

  • Le 8 janvier 2010 à 18:38, par papillon0

    Bonjour, très intéressant en effet.
    Pour ma part, je cherche à comprendre comment calculer un intervalel de confiance pour uen différence de proportion.
    Pour moi il suffisait d’utiliser VAR(f1-f2)= VAR(f1)+VAR(f2) avec var(p1)=p1(1-p1) et var(p2) = p2(1-p2) puis de calculer abs(f1-f2)/racine((p1(1-p1) + p2(1-p2))/(n1+n2))(les 2 pops sont indépendantes).

    Cependant quand je fouille a droite ou a gauche, je trouve une formule avec plutôt du genre :
    p=(n1p1+n2p2)/(n1+n2)

    puis je calcule abs(f1-f2)/racine((p(1-p)*(1/n1+1/n2)) et je compare cela a 1.96 (enfin pour un test a 5%)

    et moi j’ai du mal à comprendre comment on en arrive à cette formule (j’ai essayé mais sans succès :()).

    J’ai forcément loupé un truc quelquepart, j’ai forcément un mauvais raisonnement mais où ???
    Si quelqu’un peut m’aider je suis preneur :)

  • Le 12 mars 2009 à 09:16, par ami

    j’ai pas su comment determiner l’interval de confiance(valeurs usuelles) en biochimie , car j’ai pas pu appliquer ces lois.
    j’ai 86 temoins normaux (valeur la plus haute:4.1 et valeur la plus basse:1.4), grace à l’excle j’ai pu calculer la moyenne(2.00) ,ecart type(0.4) et l’interval de confiance (0.084) mais je trouve ça pas convaiquant :
    si la veleur la plus élévée est de 4.1 et la plus basse 1.40 ,elles font pas parties de mon interval de confiance : 1.91 - 2.084

    Répondre à ce message

  • Le 14 janvier 2009 à 20:24, par claude

    Je ne peux que vous féliciter pour la clarté, le pratique, la complétude de votre article et l’excellente mise en forme de la page. Si toutes les pages de l’internet pouvaient être ainsi...!
    Cordialement

    Répondre à ce message

  • Le 28 décembre 2008 à 12:37, par ismail

    salem
    je trouve ce site tres interressent en ce qui concerne la probat stat en general et les methodes du calcul de l’interval de confance .

    merci infiniment.

    SMAIL ALGERIE

    • Le 31 janvier 2009 à 23:12, par meriem

      Merci d’eclairer ces points, je trouve se site tres interessant,mais je ne trouve pas les tests bilaterales
      ca serai tres interessant de les expliques avec cette maniere. mais tte de meme vous pouvez tjrs donner davantage ! merci bonne continuation
      meriem algerie

    • Le 4 février 2009 à 14:19, par Joseph LARMARANGE

      Les tests présentés ici sont tous des tests bilatéraux. Les formules sont différentes pour les tests unilatéraux. Ces derniers sont cependant moins fréquemment utilisés.

      Cordialement

      Répondre à ce message

Répondre à cet article

modération a priori

Attention, votre message n’apparaîtra qu’après avoir été relu et approuvé.

Qui êtes-vous ?

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici
  • Ce formulaire accepte les raccourcis SPIP [->url] {{gras}} {italique} <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Ajouter un document

Retour haut de page
Site réalisé avec SPIP | Plan du site | Contact | Crédits | Mentions Légales | Suivre la vie du site RSS 2.0
Habillage visuel © Larma par Joseph Larmarange sous Licence Creative Commons Attribution 2.5 License