• Biostatistiques

    Biostatistiques<o:p></o:p>

     

     

    I) Définitions<o:p></o:p>

     

    - Statistique : art de collecter, analyser et interpréter des données. Elle peut être descriptive ou déductive.<o:p></o:p>

    - Population : série exhaustive de tous les individus étudiés.<o:p></o:p>

    - Echantillon : ensemble fini et d’effectif limité, souvent randomisé et donc représentatif.<o:p></o:p>

    - Paramètre : grandeur apportant une information résumée sur la variable étudiée.<o:p></o:p>

    - Variabilité : ensemble des différences inter et intra-individuelles, pouvant être dues au hasard ou physiologiques.<o:p></o:p>

    - Données : résultat de l’observation d’un individu<o:p></o:p>

    - Statistique descriptive : description à l’aide de paramètres<o:p></o:p>

    - Statistique déductive : conclusions à partir d’observation et de mesure <o:p></o:p>

    - Variables quantitatives : mesurables<o:p></o:p>

    - variables qualitatives : non mesurables<o:p></o:p>

     

    II) Statistique descriptive<o:p></o:p>

     

                A) Notion de paramètre<o:p></o:p>

    - Moyenne.<o:p></o:p>

    - Variance (= écart-type²) : indique la dispersion des données autour de la moyenne.<o:p></o:p>

    - Médiane : observation centrale des valeurs, n pair médiane = n/2 // n impair médiane = n+1/2.<o:p></o:p>

    - Quartiles : valeurs de la variable qui partagent la série d’effectif n en 4 sous-séries de même effectif.<o:p></o:p>

                Ex avec n=5 : 1er quartile = 0,25.5 = 1,25 1er quartile se trouve entre les 2 premières valeurs.<o:p></o:p>

     

                B) Comparaison moyenne/médiane<o:p></o:p>

     

    Avantages<o:p></o:p>

    Inconvénients<o:p></o:p>

    Moyenne<o:p></o:p>

    - Significative si répartition symétrique des données<o:p></o:p>

    - Dispersion faible<o:p></o:p>

    - Sensible aux valeurs anormales<o:p></o:p>

    - Sensibles aux minimums et maximums<o:p></o:p>

    Médiane<o:p></o:p>

    - Peu sensible aux valeurs anormales<o:p></o:p>

    - Utilisable pour les valeurs ordinales<o:p></o:p>

    - Peu adéquat pour les calculs statistiques<o:p></o:p>

     

     

                C) Notion d’estimation statistique<o:p></o:p>

    - Estimation ponctuelle : valeur unique jugée la meilleure à un instant donné.<o:p></o:p>

    - Estimation par intervalle : intervalle de valeurs contenant la valeur cherchée intervalle de confiance, plus fiable.<o:p></o:p>

    - Pour constituer un échantillon représentatif de la population, on utilise la détermination précise des caractéristiques de la population et le TAS.<o:p></o:p>

     

                D) Estimation de données quantitatives<o:p></o:p>

    Paramètre<o:p></o:p>

    Echantillon<o:p></o:p>

    Population<o:p></o:p>

    Moyenne<o:p></o:p>

    m : estimateur de la moyenne <o:p></o:p>

    μ : moyenne vraie<o:p></o:p>

    Ecart type<o:p></o:p>

    s : estimateur de l’écart type <o:p></o:p>

    σ : écart type vrai<o:p></o:p>

    Effectif<o:p></o:p>

    n<o:p></o:p>

    N<o:p></o:p>

     

    - Ecart type : variabilité des mesures entre elles et par rapport à la moyenne, plus il est faible et plus le caractère étudié est homogène <o:p></o:p>

     

    - Les degrés de liberté représentent le nombre des écarts (xi-m) indépendants il suffit de connaître (n-1) pour les connaître tous (n-1) degrés de liberté.<o:p></o:p>

     

    - Notion d’IC = intervalle au risque α : μ ϵ [ m ± ε.s/n ], avec i = ε.s/n = indice de précision de l’IC et n = ε2 (s2 / i2) = nombre de sujets<o:p></o:p>

    IC à α = 5% ó ε = 1,96<o:p></o:p>

            α = 1% ó ε = 2,6 <o:p></o:p>

     

    - Loi de Gauss, ou loi normale : loi permettant, pour tout échantillon où n ≥30, de visualiser les notions d’IC autour de la moyenne, d’écart type et de dispersion autour de la moyenne.<o:p></o:p>

    - La loi de Gauss est toujours centrée autour de la moyenne m de l’échantillon.<o:p></o:p>

    - Plus σ augmente, plus la dispersion des données est importante, ainsi la courbe de Gauss s’aplatit, mais gardera toujours une forme en cloche.<o:p></o:p>

    [m – 1 s ; m + 1 s] = 68,2% de la population<o:p></o:p>

    [m – 1,96 s ; m + 1,96 s] = 95,4% de la population (IC à 5%)<o:p></o:p>

    [m – 2,6 s ; m + 2,6 s] = 99,6% de la population (IC à 1%)<o:p></o:p>

     

                E) Estimation de données qualitatives<o:p></o:p>

     

     

    Echantillon<o:p></o:p>

    Population<o:p></o:p>

    Proportion<o:p></o:p>

    pobs : estimateur du pourcentage inconnu <o:p></o:p>

    p : pourcentage vrai<o:p></o:p>

    Ecart type<o:p></o:p>

    s : estimateur de l’écart type inconnu<o:p></o:p>

    σ : écart type vrai<o:p></o:p>

    Effectif<o:p></o:p>

    n<o:p></o:p>

    N<o:p></o:p>

    - Ecart type : s = √(pobs.qobs/n), avec qobs = 1 - pobs.<o:p></o:p>

    - IC : p ϵ [pobs +/- ε.s ], avec i = εs.<o:p></o:p>

     

    Précision d’un sondage : i = ε (p(1 – p)/n) = indice de précision de l’estimation p et n = ε2 (p(1-p) / i2) = nombre de sujets<o:p></o:p>

     

     

                F) Ensemble des données influant sur la précision<o:p></o:p>

     

    Sans titre

     

     

     

     

     

     

    III) Statistique déductive<o:p></o:p>

     

                A) Généralités sur les tests d’hypothèse<o:p></o:p>

     

    - Les tests de comparaison :<o:p></o:p>

    ü  Entre 2 populations : 2 échantillons représentatifs existe-t-il une différence significative ?<o:p></o:p>

    ü  Entre une population A et la population générale de référence : échantillon représentatif de la pop A différence significative entre échantillon et pop générale, puis entre pop A et pop générale.<o:p></o:p>

     

    - Définition des hypothèses :<o:p></o:p>

    ü  H0 = hypothèse nulle : pas de différences entre les deux groupes, pas de lien entre les caractères étudiés.<o:p></o:p>

    ü  H1 = hypothèse alternative : différence significative entre les deux groupes, lien entre les caractères.<o:p></o:p>

    On choisit toujours pour H0 l’hypothèse qu’il serait le plus grave de rejeter à tort.<o:p></o:p>

     

    - Notion de risque :<o:p></o:p>

     

    Rejet H0<o:p></o:p>

    Non rejet H0<o:p></o:p>

    H0 Vraie<o:p></o:p>

    Erreur de 1ère espèce α<o:p></o:p>

    1 – α<o:p></o:p>

    H1 Vraie<o:p></o:p>

    Puissance 1 - β<o:p></o:p>

    Erreur de 2nde espèce β<o:p></o:p>

     

     

    Les hypothèses H0 et H1 ont des rôles symétriques = rejet de H0 implique l’acceptation de H1.<o:p></o:p>

     

    - Etapes d’un test d’hypothèse (commun à tous les tests sauf quantitatif/quantitatif et U de Mann et Whitney) :<o:p></o:p>

    1. Définir H0 et H1.<o:p></o:p>

    2. Déterminer le caractère des données à étudier/comparer :<o:p></o:p>

                qualitative/qualitative OU qualitative/quantitative OU quantitative/quantitative.<o:p></o:p>

    3. Choisir le test en fonction des données (Z est le paramètre calculé).<o:p></o:p>

    4. Choisir le seuil d’erreur de 1ère espèce (généralement α=5%).<o:p></o:p>

    5. Recueil des données, calcul de Z et comparaison de Z à une valeur théorique.<o:p></o:p>

    6. Interprétation :<o:p></o:p>

    ü  Au niveau de l’échantillon, 2 cas : Zcalculé > Zth rejet de H0 // Zcalculé < Zth acceptation de H0.<o:p></o:p>

    ü  Au niveau de la pop : extrapolation seulement si les échantillons sont représentatifs.<o:p></o:p>

     

                B) Deux caractères qualitatifs, <o:p></o:p>

    ·      Test de comparaison de pourcentages <o:p></o:p>

    Repère par rapport à la table de l’écart réduit<o:p></o:p>

     

    ·      test du X²<o:p></o:p>

    - X²th est donné par la table du X² en croisant : le risque α, et le nombre de degrés de liberté (ddl) qui vaut : <o:p></o:p>

    (nblignes - 1)x(nbcolonnes - 1), en ne prenant en compte que les lignes/colonnes de données (sauf les totaux).<o:p></o:p>

    - X²calculé est donné dans l’énoncé.<o:p></o:p>

    - X²calculé > X²th rejet de H0 // X²calculé < X²th acceptation de H0.<o:p></o:p>

     

     

                C) Caractères qualitatifs et quantitatifs<o:p></o:p>

     

    - Test de comparaison des moyennes : (pour des valeurs de n > 30)<o:p></o:p>

    ü  εth est donné par la table de l’écart réduit, en fonction de α (Ex : 1,96 pour α=5%). εcalculé est donné.<o:p></o:p>

     

    - Test du T student : (pour des valeurs de n < 30)<o:p></o:p>

    ü  T student théorique donné par la table du T student en croisant :<o:p></o:p>

                Valeur de α.<o:p></o:p>

                Nombre de ddl donné par : (n1 - 1) + (n2 - 1), avec n les effectifs des différents échantillons.<o:p></o:p>

     

    - Cas de séries appariées, méthode des couples :<o:p></o:p>

    ü  Méthode des couples lorsqu’on étudie la liaison entre 2 variables qualitatives/quantitatives dans 2 échantillons non indépendants.<o:p></o:p>

    ü  On utilise alors le test de comparaison de moyennes de n >30, et un test T student si n <30.<o:p></o:p>

     

    - Test de U de Mann et Whitney : (très petits effectifs)<o:p></o:p>

    ü  Soient A et B deux échantillons, Uth est donné par la table de U de Mann et Whitney en croisant : α avec    (nB - nA), avec nB le plus grand des effectifs.<o:p></o:p>

    ü  Ucalculé est donné par : UAB = nA x nB - UBA, avec UBA le nombre de membres de A supérieurs aux membres de B.<o:p></o:p>

    ü  Ucalculé > Uth acceptation H0 car imbrication forte // Ucalculé < Uth rejet H0 car imbrication faible.<o:p></o:p>

     

     

                D) Deux caractères quantitatifs<o:p></o:p>

     

    - Coefficient de corrélation r : (revient à regarder la pente de la droite)<o:p></o:p>

    ü  Toujours compris dans l’intervalle [-1 ; 1] avec n – 2 ddl<o:p></o:p>

    ü  Si r n’existe pas ou si r=0 pas de corrélation entre x et y au niveau de l’échantillon.<o:p></o:p>

    ü  Si r existe et r >0 x et y varient dans le même sens<o:p></o:p>

    ü  Si r existe et r <0  x et y varient en sens inverse<o:p></o:p>

     

    - Pour l’interprétation des résultats, on utilise la valeur absolue de r pour comparer :<o:p></o:p>

    ü  |rcalculé| > [rth| rejet de H0 = acceptation H1, et inversement.<o:p></o:p>

     

     

    - Coefficient de Spearman r’ : (très petits effectifs)<o:p></o:p>

    Lu dans la table r’ de Spearman : en croisant α avec n (le nombre de données)<o:p></o:p>

     

     

                E) Tests non paramétriques<o:p></o:p>

     

    - On les utilise lorsque les effectifs sont trop faibles (n compris entre 4 et 12).<o:p></o:p>

    - Présentent une excellente robustesse.<o:p></o:p>

     

     

    <3 Tableau bilan <3<o:p></o:p>

    Effectif<o:p></o:p>

    Données quantitatives<o:p></o:p>

    Données qualitatives<o:p></o:p>

    Données quantitatives/qualitatives<o:p></o:p>

    4 < n < 12<o:p></o:p>

    r’ de Spearman<o:p></o:p>

    Comparaison % ou X²<o:p></o:p>

    U de Mann et Whitney<o:p></o:p>

    12 < n < 30<o:p></o:p>

    Coeff de corrélation r<o:p></o:p>

    Comparaison % ou X²<o:p></o:p>

    T student<o:p></o:p>

    n > 30<o:p></o:p>

    Coeff de corrélation r<o:p></o:p>

    Comparaison % ou X²<o:p></o:p>

    Comparaison de moyennes<o:p></o:p>

     


  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :