Enrera
Mòdul 6
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  Els contrastos d'hipòtesis. La prova khi quadrat  Documentació
Glossari
Glossari
  Proves de normalitat   Documentació
 
 
Ajust a un model donat per una distribució de probabilitat discreta
   
 

Sovint cal calcular les freqüències esperades a partir del model teòric donat per una distribució de probabilitat amb nom. En alguns casos, ens trobem amb el fet que la freqüència esperada d'algun valor és molt petita i això pot distorsionar els càlculs. En altres moments, tenim sospites de quin és el model de probabilitat escaient (distribució binomial o de Poisson o uniforme...), però no coneixerem a priori els paràmetres que determinen la distribució i els assignem el valor que ens sembla més versemblant a partir de les dades recollides.

Els objectius d'aquesta pràctica són:

  • Aprendre a calcular les freqüències esperades si el model que volem confrontar està donat per una distribució discreta de probabilitat.
  • Aplicar en diversos exemples la prova de .
  • Reflexionar sobre algunes precisions que cal fer en l'aplicació del test.
Abans de començar l'exercitació, es fan dues precisions sobre l'aplicació de la prova de khi quadrat: una d'elles relativa al tractament de les classes de dades amb freqüència esperada molt petita, i l'altra al nombre de graus de llibertat.


Quants sisos traurem? El model és la distribució binomial
   
Precisions per a la correcta aplicació de la prova de
   

 

 

 

 

 

  • Primera precisió: per tal que les deduccions teòriques que indiquen que l'estadístic X2 té com a model la distribució khi quadrat siguin correctes, cal que la freqüència esperada en cadascuna de les classes considerades sigui 5 o més. Si no és així, s'ajuntaran manualment diversos valors en una mateixa classe per tal que es compleixi aquesta condició.

  • Segona precisió: Si no coneixem prèviament algun dels paràmetres que defineix la distribució de probabilitat que ens interessa i l'estimem a partir de les dades recollides empíricament, en aquesta situació més general d'aplicació de la prova de khi quadrat el nombre de graus de llibertat que cal considerar és K – 1 – p, en què K és el nombre de classes en què agrupem els valors de la variable estudiada i p el nombre de paràmetres estimats a partir de les dades recollides. Podeu consultar un exemple que il·lustra per què es redueix el nombre de graus de llibertat si estimem alguns paràmetres a partir de les dades obtingudes.

  • És molt important que observeu amb deteniment la taula de valors de la distribució khi quadrat, que ens permet observar que si una distribució estadística passa la prova de khi quadrat amb np – 1 graus de llibertat (com pertoca si s'han estimat p paràmetres), també la passarà amb n – 1 graus de llibertat, com escauria si no haguéssim estimat cap paràmetre a partir de les dades, però no a l'inrevés.
   
Pràctica Exemple 1: ajust al model binomial
   

S'han tirat 980 vegades 10 daus i s'han obtingut aquestes freqüències: 0 sisos, 97 vegades; 1 sis, 260; 2 sisos, 309; 3 sisos, 210; 4 sisos, 79 vegades; 5 sisos, 18; 6 sisos, 5; 7 sisos, 2 vegades; en cap cas més de 7 sisos. Podem admetre la hipòtesi que els daus són equilibrats?

En aquest exemple, interessen les freqüències esperades per a la distribució binomial B(n=10,p=1/6) (model teòric esperat si el dau fos equilibrat).

  • En un full de càlcul nou, entreu a les cel·les del rang A1:C1 els títols X, Observades i Esperades.
  • Entreu a la columna A, a partir d'A2, els nombres 0, 1..., 10.
  • Entreu les freqüències observades a la columna B, a partir de B2.
  • Entreu a C2 la fórmula =DISTR.BINOM(A2;10;1/6;FALSO)*980. Aquesta fórmula calcula la probabilitat que el nombre de sisos sigui 0 (valor que tenim a la cel·la A2) per una distribució binomial B(10, 1/6) i ho multiplica pel nombre de repeticions. Copieu-la a la resta de la columna.
  • Entreu a E1 la fórmula =PRUEBA.CHI(B2:B12;C2:C12). Observeu-ne el resultat.

Veureu un valor p pràcticament igual a 0. Recordeu que això comporta que podem rebutjar la hipòtesi nul·la: el model no és, doncs, aquell amb què s'ha aplicat el test.

Ara bé, si parem atenció a la primera precisió, cal reunir en una sola classe, 5 o més, totes les observacions corresponents a 5, 6, 7, 8, 9 o 10 sisos perquè la freqüència esperada, a saber 12,763 + 2,127 + 0,243 + 0,018 + 0,001 = 15,152, passi de 5. La freqüència observada en aquesta classe serà 18 + 5 + 2 = 25. Per fer-ho:

  • Entreu a A13 el títol 5 o més.
  • Entreu a B13 el nombre 25.
  • Entreu a C13 la fórmula =SUMA(C7:C12), que suma les freqüències esperades per 5 o més sisos.
  • Seleccioneu la cel·la C13 i feu una còpia sobre ella mateixa, però acabant amb Edición | Pegar especial | Valores. D'aquesta manera, a la cel·la C13 només hi ha el resultat de la suma, sense la fórmula.
  • Seleccioneu les files 7, 8, 9, 10, 11 i 12. Accediu a Edición | Eliminar.
  • Ajusteu la fórmula de la cel·la de E1 perquè agafi els nous rangs correctament.

Observeu que el valor p segueix sent pràcticament igual a zero.

Tot seguit, analitzem amb deteniment la situació amb el benentès que és segur que el model teòric de l'experiència de tirar 10 daus enlaire i comptar el nombre de sisos que surten és la distribució binomial. Com és que l'ajust no es pot considerar vàlid de cap manera? Segurament, perquè els daus no estaven equilibrats; el paràmetre p del model no ha de ser
p
= 1/6
. Aquest valor l'estimarem a partir de les mateixes dades.

   
Pràctica Determinació del valor de la probabilitat d'èxit
   

 

 

 

El model teòric per l'experiència de l'exemple 1 (llançament de 10 daus i recompte del nombre de sisos) i les dades observades ha de ser un model binomial B(n=10,p) en el qual falta determinar la p. Quin seria el valor més versemblant de p (probabilitat de treure un sis)?

Si calculem la mitjana del nombre de sisos que han sortit, resulta ser igual a 1,99796 sisos en cada tirada de 10 daus. Per calcular aquesta mitjana amb l'Excel:

  • Torneu a la situació inicial de l'apartat anterior, amb els nombres 0, 1, 2..., 10 a la columna A i les freqüències observades a la columna B.
  • Entreu a D2 la fórmula =A2*B2. Copieu-la a la resta del rang D2:D12.
  • Entreu a D14 la fórmula =SUMA(D2:D12)/980. Aquesta fórmula ja ens dóna la mitjana abans comentada.

Sabem també que, per a moltes repeticions, aquest nombre s'ha d'aproximar a la mitjana de la distribució de probabilitat associada a l'experiència. La mitjana de la distribució binomial és n · p. Així podem establir que el valor més versemblant de p és aquell que compleix
10 · p = 1,99796. D'ací resulta p = 0,199796, que podem prendre com a p = 0,2. Aquest valor ens diu el que potser ja havíeu observat en les dades de l'exemple 1: surten més sisos dels esperats si els daus fossin equilibrats (perquè en aquest cas, la mitjana hauria estat 1,66667). Modifiqueu el full de càlcul:

  • A la cel·la C2 la fórmula ara serà =DISTR.BINOM(A2;10;0,2;FALSO)*980, ja que p = 0,2. Copieu-la a la resta de la columna.
  • Assegureu-vos que a la cel·la E1 teniu la fórmula =PRUEBA.CHI(B2:B12;C2:C12). Observeu el resultat.

Comprovareu un valor p molt alt: les dades recollides concorden amb les que resulten de la distribució binomial.

Si voleu actuar amb rigor complet, recordeu que per a una correcta aplicació de la prova estadística:

  • Cal agrupar els valors en 7 classes, com ho heu fet en l'apartat anterior. Això és així perquè 6 o més sisos han de constituir una sola classe a fi i efecte que la freqüència esperada superi 5, condició que ja s'ha comentat.

La fórmula =PRUEBA.CHI(B2:B8;C2:C8), calcula el valor p, sense necessitat de reflexionar sobre el graus de llibertat. Tot i així, ens podem preguntar quants graus de llibertat s'han de considerar?

El nombre de graus de llibertat que s'ha de considerar és de 5, que resulta de les 7 classes, menys 1 (que es treu sempre) menys una altra perquè hem estimat un paràmetre (p = 0 . 2) a partir de les dades recollides.

Per fixar els graus de llibertat manualment, cal repetir el procediment del principi de
l'exemple 1
de la pràctica anterior i preparar el full per fer servir la fórmula
=DISTR.CHI( x ; graus de llibertat). Si ho feu, podeu observar que el càlcul automàtic del
valor p s'ha fet considerant 6 graus de llibertat i no 5, com hem vist. Cal anar amb compte, doncs, perquè la fórmula =PRUEBA.CHI(B2:B8;C2:C8) no pot preveure si hem estimat el paràmetre p o no. En aquests casos, heu de fer servir el mètode més manual amb =DISTR.CHI( x ; graus de llibertat).

En qualsevol cas, adoneu-vos de l'alt nivell de significació (o més correctament, valor p) que ha sortit i de les conclusions que ens ofereix. No podem rebutjar de cap manera la hipòtesi que correspon a l'ajust de les dades de les tirades dels daus mitjançant la distribució
B(n=10,p=0.2). Si pretenguéssim fer-ho, hem de saber que tenim un elevadíssim risc d'error, molt superior al 5 %, que és el que recomanen com a nivell de significació del test els que hi entenen.

 
Exemple 2: és realment un bon model la distribució de Poisson?
   
 

El fitxer MORACC.XLS, que forma part dels fitxers del curs, enregistra quants dies dels anys 1982, 1983 i 1984 es varen produir 0, 1, 2... accidents mortals de trànsit en el territori espanyol. Ens fixarem amb el full Dades 84, en el qual surten dades procedents del Boletín Informativo de Accidentes 1984 publicat per la Direcció General de Trànsit del Ministeri de l'Interior. En aquesta mateixa publicació s'ajusta aquesta distribució estadística per una distribució de Poisson. Estudiarem si l'ajust indicat és correcte.

La variable NACCID pren els valors enters 1, 2, 3..., accidents/dia i la variable FREQ enregistra les freqüències absolutes de l'anterior variable. Per exemple, NACCID=2, FREQ=9 indica que (només) 9 dies de l'any 1984 hi van haver 2 accidents mortals a Espanya; NACCID=10, FREQ=25 vol dir que 25 dies diferents al llarg d'aquell any hi van haver 10 accidents mortals. Adoneu-vos, dramàticament, que cap dia es van produir 0 accidents mortals!

  • Primer de tot, una vegada obert el full Dades 84 del fitxer MORACC.XLS, seleccioneu la segona fila i inseriu-ne un altra, fent Insertar|Filas.
  • Entreu a A2 i a B2 el nombre 0.

Volem fer la prova amb el model de Poisson, que queda determinat amb la mitjana. Com que no la sabem, la deduirem de les dades:

  • Entreu a B30 la fórmula =SUMA(B2:B28). Ens dóna, és clar, el nombre total de dies, 365.
  • Entreu a C2 la fórmula =A2*B2 i copieu-la sobre el rang C3:C28.
  • Entreu a C28 la fórmula =SUMA(C2:C28)/B30 que calcula la mitjana d'accidents diaris que hi va haver. Surt 8,68.

Ara hem d'obtenir les freqüències esperades amb el model de Poisson.

  • Entreu a D1 el títol Esperades.
  • Entreu a D2 la fórmula =POISSON(A2;C$30;0)*365, que calcula la freqüència esperada per al valor de A2 segons el model donat per una distribució de Poisson que té per mitjana el nombre que apareix a la cel·la C30. Vegeu que, com sempre, calculem la probabilitat i la multipliquem pel nombre de dades.
  • Copieu-la sobre el rang D3:D28. Aquestes són les freqüències esperades.

Si apliqueu el que heu fet als apartats anteriors, sense oblidar que s'ha estimat un paràmetre, arribareu a la conclusió que tenim molts criteris per rebutjar la hipòtesi nul·la. No sembla escaient el model de Poisson.

Tanmateix, si voleu actuar amb tot el rigor, cal ajuntar en una sola classe les dades corresponents a FREQ={0, 1, 2, 3} i en una altra classe les dades corresponents a FREQ={15, 16, 17, 18, 19}. Feu-ho i podreu constatar que la conclusió no canvia pas amb relació al que ja s'ha vist.

Als exercicis us demanem que estudieu de manera anàloga al que heu fet en el darrer exemple, els fulls corresponents a l'any 1982 i a l'any 1983 i que feu d'altres estudis d'ajust a un model de probabilitat.

   
 
Amunt
 
  Ampliacions, aclariments i comentaris
   
Ampliació

Sobre el nombre de graus de llibertat amb què cal aplicar la prova de khi quadrat

Ens plantegem estudiar quins valors poden tenir les freqüències observades en una experiència en què els valors observats poden ser {0, 1..., 10} de manera que en total hi hagi 980 observacions i que la mitjana sigui 2. Amb aquestes dades, si coneixem les freqüències f(0), f(1)..., f(8) mitjançant un sistema d'equacions podem determinar f(9) i f(10). Efectivament, ha de ser:

f(0) + f(1) + ... + f(8) + f(9) + f(10) = 980
0 · f(0) + 1 · f(1) + ... + 8 · f(8) 9 · f(9) + 10 · f(10) = 2·980

Per això, el nombre de graus de llibertat de la distribució khi quadrat que s'associa a la variació de l'estadístic X2 en aquest cas estarà donat per K - 1 - 1 = K - 2, on K és el nombre de classes en què es presenten agrupades les dades. Aquest nombre es disminueix en una unitat perquè tant les freqüències esperades com les observades han de sumar un nombre igual al de repeticions que hem fet; i es disminueix en una unitat més (en total 2, doncs) perquè s'ha estimat la mitjana.

La qüestió de fixar els graus de llibertat que acabem de comentar equival a la següent: la taula adjunta només pot ser completada d'una manera (si els valors són coherents) a fi i efecte que la suma de les freqüències absolutes sigui 100, la mitjana dels valors observats sigui 3,2 i la desviació estàndard sigui 0,6. Podríem dir que només hi ha dos graus de llibertat per a les freqüències.

 

Valor Freqüència
1 23
2 26
3 x
4 y
5 z


Perquè es compleixi el que hem indicat ha de ser:

23 + 26 + x + y + z = 100
1·23 + 2·26 + 3·x + 4·y + 5·z = 100·3,2
23·(1-3,2)2+26·(2-3,2)2+ x·(3-3,2)2+y·(4-3,2)2+z·(5-3,2)2 = 100·0,62

Mitjançant un sistema d'equacions podem trobar x, y i z. Per una raó anàloga a aquesta que si estimem dos paràmetres a partir de les dades estadístiques recollides (com passa per exemple en els casos en què la distribució que s'ha de considerar sigui la normal i ens calgui estimar la mitjana i la desviació estàndard) el nombre de graus de llibertat serà el nombre de classes menys 3 (1 pel total d'observacions i 2 perquè estimem dos paràmetres a partir de les dades).

 
Torna a la pràctica