Exécuter un test T en Python

Test T : Le test d’hypothèse le plus populaire

Dans le monde actuel axé sur les données, les données sont générées et consommées quotidiennement. Toutes ces données contiennent d’innombrables idées et informations cachées qui peuvent être épuisantes à découvrir. Les scientifiques des données abordent généralement ce problème en utilisant des statistiques pour faire des suppositions éclairées sur les données. Toute hypothèse vérifiable concernant les données est appelée hypothèse. Le test d’hypothèse est une méthode de test statistique utilisée pour vérifier expérimentalement une hypothèse. En science des données, les tests d’hypothèses examinent les hypothèses sur des échantillons de données pour tirer des informations sur une plus grande population de données.

Les tests d’hypothèse varient en fonction du paramètre de population statistique utilisé pour les tests. L’un des problèmes les plus courants en statistique est la comparaison des moyennes entre deux populations. L’approche la plus courante pour cela est le test t.

Dans cet article, nous discuterons de ce test statistique populaire et montrerons quelques exemples simples dans le langage de programmation Python.

Qu’est-ce qu’un test T ?

Le test t a été développé par William Sealy Gosset en 1908 en tant que test t de Student. Sealy a publié son travail sous le pseudonyme “Student”. L’objectif de ce test est de comparer les moyennes de deux groupes d’échantillons apparentés ou non. Il est utilisé dans les tests d’hypothèses pour tester l’applicabilité d’une hypothèse à une population d’intérêt.

Les tests t ne s’appliquent qu’à deux groupes de données. Si vous souhaitez comparer plus de deux groupes, vous devez recourir à d’autres tests tels que l’ANOVA.

Quand utilise-t-on les tests T ?

UN test t unilatéral est un test directionnel qui détermine la relation entre les moyennes de population dans une seule direction, c’est-à-dire queue droite ou gauche. UN test t bilatéral est un test non directionnel qui détermine s’il existe une relation entre les moyennes de la population dans l’une ou l’autre direction.

Ainsi, lorsque vous vous attendez à une hypothèse à valeur unique, comme moyenne1=moyenne2, un test unilatéral serait préférable. Un test bilatéral a plus de sens si votre hypothèse suppose que les moyens sont supérieurs ou inférieurs l’un à l’autre.

Quelles sont les hypothèses ?

Les tests T sont des tests paramétriques permettant de déterminer les corrélations entre deux échantillons de données. Les tests t nécessitent que les données soient distribuées selon les hypothèses suivantes concernant les paramètres de population inconnus :

  • Les valeurs des données sont indépendantes et continues, c’est-à-dire que l’échelle de mesure des données doit suivre un modèle continu.
  • Les données sont distribuées normalement, c’est-à-dire que lorsqu’elles sont tracées, leur graphique ressemble à une courbe en forme de cloche.
  • Les données sont échantillonnées au hasard.
  • La variance des données dans les deux groupes d’échantillons est similaire, c’est-à-dire que les échantillons ont un écart type presque égal (applicable pour un test t à deux échantillons).

Quelles sont les étapes impliquées dans les tests T ?

Comme tout test d’hypothèse, les tests t sont effectués dans l’ordre suivant des étapes :

  • Énoncer une hypothèse. Une hypothèse est classée comme une hypothèse nulle (H0) et une hypothèse alternative (Ha) qui rejette l’hypothèse nulle. Les hypothèses nulle et alternative sont définies en fonction du type de test effectué.
  • Recueillir des exemples de données.
  • Faites le test.
  • Rejeter ou ne pas rejeter votre hypothèse nulle H0.

Quels sont les paramètres impliqués dans les tests T ?

En plus des moyennes de groupe et des écarts types, il existe d’autres paramètres dans les tests t qui sont impliqués dans la détermination de la validité de l’hypothèse nulle. Voici une liste de ces paramètres qui seront mentionnés à plusieurs reprises lors de la mise en œuvre des tests t :

  • Statistique T : Un test t réduit l’ensemble des données en une seule valeur, appelée statistique t. Cette valeur unique sert de mesure de preuve contre l’hypothèse énoncée. Une statistique t proche de zéro représente la preuve la plus faible contre l’hypothèse. Une valeur statistique t plus élevée représente une preuve solide contre l’hypothèse.
  • Valeur P : Une valeur de p est le pourcentage de probabilité que la statistique t se produise par hasard. Il est représenté sous forme décimale, par exemple, une valeur p de 0,05 représente une probabilité de 5 % de voir une statistique t au moins aussi extrême que celle calculée, en supposant que l’hypothèse nulle était vraie.
  • Niveau de signification: Un niveau de signification est le pourcentage de probabilité de rejeter une véritable hypothèse nulle. Cela s’appelle aussi alpha.

Quels sont les différents types de tests T ?

Il existe trois principaux types de tests t en fonction du nombre et du type de groupes d’échantillons impliqués. Entrons dans les détails et la mise en œuvre de chaque type :

1. Test T à un échantillon

Un test t à un échantillon compare la moyenne d’un groupe d’échantillons à une valeur moyenne hypothétique. Ce test est réalisé sur un seul échantillon, d’où son nom ; essai sur un seul échantillon. Le test vise à déterminer si le groupe échantillon appartient à la population hypothétique.

Formule

t=m-s/n
Where,
t= T-statistic
m= group mean
= preset mean value (theoretical or mean of the population)
s= group standard deviation
n= size of group

Mise en œuvre

Étape 1 : Définir les hypothèses pour le test (null et alternatif)

Énoncez les hypothèses suivantes :

  • Hypothèse nulle (H0): La moyenne de l’échantillon (m) est inférieure ou égale à la moyenne hypothétique. (<=mois)
  • Hypothèse alternative (Ha): La moyenne de l’échantillon (m) est supérieure à la moyenne hypothétique. (>m)

Étape 2 : Importer des bibliothèques Python

Commencez par importer les bibliothèques requises. En Python, la bibliothèque de statistiques est utilisée pour les tests t qui incluent le test_1samp fonction pour effectuer un test t à un échantillon.

importer numpy en tant que np à partir de scipy importer des statistiques à partir de numpy.random importer des graines à partir de numpy.random importer randn à partir de numpy.random importer normal à partir de scipy.stats importer ttest_1samp

Étape 3 : Créer un groupe d’échantillons aléatoires

Créez un échantillon aléatoire de 20 valeurs à l’aide de la fonction normale dans le numpy.aléatoire bibliothèque. En fixant la moyenne à 150 et l’écart type à 10.

seed=(1) sample =normal(150,10,20) print(‘Sample: ‘, sample)

Étape 4 : Effectuez le test

Utilisez le test_1samp fonction pour effectuer un test t à un échantillon. Met le popméchant paramètre à 155 selon l’hypothèse nulle (moyenne de l’échantillon <= moyenne de la population). Cette fonction renvoie un statistique t valeur et une valeur p et effectue un test bilatéral par défaut. Pour obtenir un résultat de test unilatéral, divisez la valeur p par 2 et comparez-la à un niveau de signification de 0,05 (également appelé alpha).

t_stat, p_value = ttest_1samp(sample, popmean=155) print(“T-statistic value: “, t_stat) print(“P-Value: “, p_value)

Une valeur t négative indique la direction de l’extrême de la moyenne de l’échantillon et n’a aucun effet sur la différence entre les moyennes de l’échantillon et de la population.

Étape 5 : Vérifier les critères de rejet de l’hypothèse nulle

Pour l’hypothèse nulle, en supposant que la moyenne de l’échantillon est inférieure ou égale à la moyenne hypothétique :

  • Rejeter l’hypothèse nulle si p-value <= alpha
  • Échec du rejet de l’hypothèse nulle si p-value > alpha
  • Rejeter ou ne pas rejeter l’hypothèse en fonction du résultat

Les résultats indiquent une valeur de p de 0,21, qui est supérieure à = 0,05, à défaut de rejeter l’hypothèse nulle. Ce test conclut donc que la moyenne de l’échantillon était inférieure à la moyenne hypothétique.

2. Test T à deux échantillons

Un test t à deux échantillons, également appelé test pour échantillons indépendants, compare les moyennes de deux groupes d’échantillons indépendants. Un test t à deux échantillons vise à comparer les moyennes d’échantillons appartenant à deux populations différentes.

Formule

t=mA- mBs2nA+s2nB
Where,
mA and mB = means of the two samples
nA and nB = sizes of the two samples
s2 = common variance of the two samples

Mise en œuvre

Etape 1 : Définir les hypothèses (nulle et alternative)

Énoncez les hypothèses suivantes pour un niveau de signification =0,05 :

  • Hypothèse nulle (H0): Les moyennes des échantillons indépendants (m1 et m2) sont égales. (m1=m2)
  • Hypothèse alternative (Ha): Les moyennes des échantillons indépendants (m1 et m2) ne sont pas égales. (m1!=m2)

Étape 2 : Importer des bibliothèques

Commencez par importer les bibliothèques requises. Comme précédemment, la bibliothèque de statistiques est utilisée pour les tests t qui incluent le test_ind fonction pour effectuer un test t d’échantillon indépendant (test à deux échantillons).

de numpy.random importer la graine de numpy.random importer randn de numpy.random importer normal de scipy.stats importer ttest_ind

Étape 3 : Créer deux groupes d’échantillons indépendants

En utilisant le Ordinairefonction du générateur de nombres aléatoires pour créer deux échantillons indépendants normalement distribués de 50 valeurs, différentes moyennes (30 et 33) et presque les mêmes écarts-types (16 et 18).

amorcer le générateur de nombres aléatoires

graine(1)

créer deux groupes d’échantillons indépendants

échantillon1= normal(30, 16, 50) échantillon2=normal(33, 18, 50) impression(‘Échantillon 1 : ‘, échantillon1) impression(‘Échantillon 2 : ‘,échantillon2)

Étape 4 : Effectuez le test

Utilisez le test_ind fonction pour effectuer un test t à deux échantillons. Cette fonction renvoie un statistique t valeur et une valeur p.

t_stat, p_value = test_ind(sample1, sample2) print(“T-statistic value: “, t_stat) print(“P-Value: “, p_value)

Étape 5 : Vérifier les critères de rejet de l’hypothèse nulle

Pour l’hypothèse nulle, en supposant que les moyennes d’échantillon sont égales :

  • Rejeter l’hypothèse nulle si p-value <= alpha
  • Échec du rejet de l’hypothèse nulle si p-value > alpha
  • Rejeter ou ne pas rejeter chaque hypothèse en fonction du résultat

Les résultats indiquent une valeur de p de 0,04, inférieure à alpha=0,05, rejetant l’hypothèse nulle. Ainsi, ce test t à deux échantillons conclut que la moyenne du premier échantillon est supérieure ou inférieure à la moyenne du deuxième échantillon.

3. Test T apparié

Un test t apparié, également connu sous le nom de test d’échantillon dépendant, compare les moyennes de deux échantillons liés. Les échantillons appartiennent à la même population et sont analysés dans des conditions variées, par exemple à des moments différents. Ce test est surtout populaire pour les expériences de type pré-test/post-test où un échantillon est étudié avant et après que ses conditions aient été modifiées avec une expérience.

Formule


t=ms/n
Where,
t= T-statistic
m= group mean
s= group standard deviation
n= size of group

Mise en œuvre

Étape 1 : Définir les hypothèses (nulles et alternatives)

Énoncez les hypothèses suivantes pour un niveau de signification =0,05 :

  • Hypothèse nulle (H0) : les moyennes des échantillons dépendants (m1 et m2) sont égales (m1=m2).
  • Hypothèse alternative (Ha) : les moyennes des échantillons dépendants (m1 et m2) ne sont pas égales (m1!=m2)

Étape 2 : Importer des bibliothèques Python

Commencez par importer les bibliothèques requises. Importez le test_rel fonction de la bibliothèque de statistiques pour effectuer un test t d’échantillon dépendant (test t apparié).

de numpy.random importer la graine de numpy.random importer randn de numpy.random importer normal de scipy.stats importer ttest_rel

Étape 3 : Créer deux groupes d’échantillons dépendants

Pour plus de simplicité, utilisez les mêmes échantillons aléatoires de la mise en œuvre à deux échantillons. On peut supposer que les échantillons proviennent de la même population.

amorcer le générateur de nombres aléatoires

graine(1)

créer deux groupes d’échantillons dépendants

échantillon1= normal(30, 16, 50) échantillon2=normal(33, 18, 50) impression(‘Échantillon 1 : ‘, échantillon1) impression(‘Échantillon 2 : ‘,échantillon2)

Étape 4 : Effectuez le test

Utilisation test_rel fonction pour effectuer un test t à deux échantillons sur deux échantillons dépendants / liés. Cette fonction renvoie un statistique t valeur et une valeur p.

t_stat, p_value = ttest_rel(sample1, sample2) print(“T-statistic value: “, t_stat) print(“P-Value: “, p_value)

Étape 5 : Vérifier les critères de rejet de l’hypothèse nulle

Pour l’hypothèse nulle en supposant que les moyennes des échantillons sont égales :

  • Rejeter l’hypothèse nulle si p-value <= alpha
  • Échec du rejet de l’hypothèse nulle si p-value > alpha
  • Rejeter ou ne pas rejeter l’hypothèse en fonction du résultat

Les résultats indiquent une valeur de p de 0,05, qui est égale à 0,05, rejetant ainsi l’hypothèse nulle. Ainsi, ce test t apparié conclut que la moyenne du premier échantillon est supérieure ou inférieure à la moyenne du deuxième échantillon.

Pourquoi les tests t sont-ils utiles dans l’analyse des données ?

Le test t est un outil polyvalent. Les scientifiques des données utilisent ces tests pour vérifier leurs observations de données et la probabilité que ces observations soient vraies. Il s’agit d’une approche éprouvée pour comparer les observations sans avoir à impliquer l’ensemble des données de la population dans l’analyse.

Qu’il s’agisse de tester le nombre d’achats d’un nouveau produit ou de comparer la croissance économique entre pays, les tests d’hypothèses sont un outil statistique important pour les entreprises et l’un des outils les plus importants de l’arsenal d’un statisticien. Partout où des données sont impliquées, les tests t joueront un rôle essentiel dans la validation des résultats des données.


Également publié ici.

CHARGEMENT EN COURS
. . . & commentaires Suite!

Leave a Comment

Your email address will not be published. Required fields are marked *