Enrera
Mòdul 7
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  Idees sobre estimació. Estimació d'una proporció   Documentació
Glossari
Glossari
  El teorema del límit central. Estimació d'una mitjana Documentació
 
 
El teorema del límit central: visió empírica
   

L'objectiu d'aquesta pràctica és fer simulacions amb el programa Excel a partir de diverses poblacions teòriques i analitzar la distribució de les mitjanes mostrals per constatar empíricament el teorema del límit central.

Teorema del límit central
Una imatge per recordar el teorema del límit central


Treballareu els aspectes següents:

  • Generació de nombres aleatoris. Comentari d'un funcionament anòmal en la versió 97.
  • Revisió del càlcul de paràmetres estadístics i de l'elaboració de gràfics.
  • Constatació empírica del teorema del límit central que permet l'estimació de la mitjana que treballareu també a la pràctica 5.
   
Pràctica
Simulacions a partir d'una població normal
   
 

En aquesta primera part de la pràctica, fareu simulacions de la selecció de mostres a partir d'una població que segueixi el model normal per constatar empíricament la versemblança del teorema del límit central. Posteriorment, es proposarà que repetiu uns procediments semblants, però a partir d'una població que correspongui al model uniforme continu per copsar la idea que les característiques de la població de partida no són transcendentals per a l'estimació d'una mitjana.

Plantejament: Si suposem que en una població teòrica els valors d'una variable X es distribueixen d'acord amb un model normal de mitjana = 5 i desviació estàndard = 1,25, el teorema del límit central ens diu que si recollim mostres de mida 100 d'aquesta població, llavors la mitjana mostral de la variable X es pot modelitzar mitjançant una distribució normal de mitjana = 5 i desviació estàndard = 0,125.    (Indicarem amb # aquest model)

En aquesta pràctica:

  • Farem 200 simulacions d'una recollida de dades com la que s'acaba de comentar.
  • Per cada simulació, calcularem la mitjana mostral.
  • Tot seguit obtindrem la mitjana i la desviació estàndard de la distribució de mitjanes mostrals i les compararem amb les que estableix el teorema del límit central.
  • Finalment, farem un esbòs de l'histograma de la distribució de mitjanes mostrals i el compararem visualment amb les freqüències que corresponen al model normal (#) que estableix el teorema del límit central.

Tot seguit, s'explica com es pot portar a terme aquesta activitat:

   
 
  • La simulació de les 200 mostres de mida 100 a partir de la població teòrica normal es fa amb Herramientas | Análisis de datos | Generación de números aleatorios. Fixeu-vos en el número Iniciar con: hi podríeu posar qualsevol valor, però poseu-hi l'indicat, perquè així els valors obtinguts seran els que s'indiquen en el transcurs de la pràctica.
  •  
     

     

Si ho heu fet així, en el full actiu s'han generat, a les 200 primeres columnes (de la A a la GR), 200 mostres de mida 100. No hi posarem títols. Cada mostra ocupa una columna diferent.

Nota important: Si esteu treballant amb la versió 97, aquest procés s'haurà fet incorrectament (i no per culpa vostra!). Per comprovar-ho, seleccioneu la cel·la L23 i observeu que ha aparegut el nombre 6250005, que, evidentment no hauria d'haver sortit! Aquest nombre surt en tres cel·les més (EL51, ES17 i FB72). Això es deu a un funcionament anòmal de l'Excel 97 en aquest aspecte. Hem comprovat, que en aquest cas, el nombre que surt en aquestes cel·les en la versió 2000 és 11,70552225. Per tant, us proposem que, per poder seguir la pràctica, substituïu un nombre per l'altre. Ho podeu fer automàticament accedint a Edición | Reemplazar. Tot seguit entreu el nombre 6250005 en l'apartat de Buscar i el nombre 11,70552225 en l'apartat Reemplazar con. A continuació premeu Reemplazar todas. Els autors pensem que en la resta de la pràctica no trobareu problemes però com que es tracta d'un funcionament anòmal de la generació de nombres aleatoris és impossible assegurar que aquesta sigui l'única anomalia que es presenti.

  • Podeu escriure a la cel·la A101 el títol Mitjanes. Tot seguit, a la cel·la A102, escriviu-hi la fórmula =PROMEDIO(A1:A100). Copieu aquesta fórmula a tot el rang A102:GR102 (200 cel·les). D'aquesta manera, al rang A102:GR102 teniu les mitjanes de les 200 mostres, és a dir, 200 valors de l'estadístic mitjana mostral.
  • Podeu escriure a la cel·la A103 el títol Mitjana de la distribució de mitjanes mostrals. Per calcular-la, heu de fer la mitjana del rang A102:GR102, és a dir, podeu posar a la cel·la A104 la fórmula =PROMEDIO(A102:GR102). Feu-ho com en la desviació estàndard: a la cel·la A105 podeu posar el títol Desviació estàndard de les mitjanes mostrals. Per calcular-la, poseu a la cel·la A106 la fórmula =DESVEST(A102:GR102). Escriviu en unes cel·les properes els valors teòrics, per comparar i perquè farem servir aquests valors més endavant. Feu-ho en les cel·les E104 i E106. Obtindreu aquests resultats:  
     
     
    Observeu que la mitjana i la desviació estàndard del conjunt de mitjanes mostrals obtingudes s'ajusten molt bé a l'enunciat del teorema del límit central. Però aquest teorema ens diu molt més; tot seguit comprovarem que la distribució normal és un bon model per al conjunt de dades recollides com a mitjanes mostrals.

  • Ara hem de preparar les classes que farem servir per a la tabulació de dades. Podeu posar el títol classes a la cel·la A107. A fi i efecte que una de les classes quedi centrada en el 5 i que les classes siguin de mida 0,1, escriviu a la cel·la A108 el número 4,05, a la cel·la B108 el número 4,15 i així successivament (ja sabeu que podeu fer-ho per arrossegament); feu que aparegui fins al 6,05 a la fila U108.

  • Per fer la taula de freqüències de la distribució de mitjanes mostrals d'acord amb aquesta agrupació en classes, podeu posar un títol a la cel·la A109 com és ara Taula i histograma de les mitjanes mostrals i llavors trieu l'opció Herramientas | Análisis de datos | Histograma (de moment sense fer el gràfic). Farem que la taula quedi situada a partir de la cel·la A110.  
     
     
  • Per confrontar aquestes freqüències amb el model normal, posareu, a la columna annexa a la de freqüències obtingudes, els valors que corresponen a les freqüències esperades en cada classe segons el model normal (#), del qual tenim els paràmetres definidors escrits a les cel·les E104 i E106. Per obtenir els valors esperats, heu de fer ús de la funció de distribució (probabilitat acumulada) de la distribució normal, que està donada per la funció de l'Excel DISTR.NORM. Les fórmules adients són (penseu-ho!):
    • Cel·la C111
      =DISTR.NORM(A111;$E$104;$E$106;1)*200
      (Recordeu que la probabilitat multiplicada pel nombre de dades dóna la freqüència esperada.)
    • Cel·la C112
      = (DISTR.NORM(A112;$E$104;$E$106;1) -
                                    DISTR.NORM(A111;$E$104;$E$106;1))*200
      Aquesta fórmula la copiareu a tot el rang C112:C131.
    • Cel·la C132
      = (1-DISTR.NORM(A131;$E$104;$E$106;1))*200

    La taula comparativa de freqüències esperades i freqüències observades resultarà ser aquesta:  
     

     
  • Ara ja podeu fer un histograma (en realitat, és un diagrama de barres) comparatiu. Seleccioneu el rang B111:C132. Activeu l'opció de gràfics i trieu columna (diagrama de barres). Llavors feu Siguiente | Serie i feu que a Rótulos del eje de categorias (X) aparegui el rang A111:A132, on tenim la indicació de les classes. Feu que es dibuixi i, després de les millores de presentació que facin falta, obtindreu un gràfic semblant a aquest:  
     
Ja havíem vist que teníem un bon ajust de la mitjana i la desviació estàndard de la distribució de mitjanes mostrals amb els valors establerts pel teorema del límit central. Però, aquest ajust és vàlid també per a tot el model normal? El gràfic obtingut a la pràctica anterior mostra que sí!

I si voleu fer altres proves numèriques i constatar l'extraordinària precisió del teorema del límit central (cosa que us recomanem), accediu al full on heu fet les simulacions i torneu a activar Herramientas | Análisis de datos | Generación de números aleatorios | Normal, deixeu els mateixos paràmetres definidors de la població (la distribució normal a partir de la qual es genera una mostra) i el mateix rang de sortida. Canvieu el nombre enter de Iniciar con... (o deixeu-ho sense cap nombre, i llavors cada simulació donarà valors diferents) i observeu l'evolució dels valors a les files 104 i 106 que l'Excel actualitza automàticament en cada nova simulació.

   
Pràctica
I si partim d'una població que no segueix el model normal?
   
 

Si la població de partida segueix el model normal, el teorema del límit central és, estrictament, un teorema, demostrable per formulacions matemàtiques que s'escapen dels objectius d'aquest curs.

Tanmateix, encara que la població de partida segueixi un altre model (o no coneixem quin és el possible model que li podem aplicar), llavors hi ha una aproximació empírica que ens diu que si la mida de la mostra és suficientment gran (n 30), també podem aplicar les conclusions de l'esmentat teorema. Recordeu-lo:

Enunciat: Si recollim mostres de mida 100 d'una població i analitzem els valors d'una variable X, llavors la mitjana mostral de la variable X es pot modelitzar amb un altíssim grau d'aproximació mitjançant una distribució normal de mitjana i desviació estàndard . (##)

En aquesta segona part de la pràctica, ho constatarem amb un exemple, a partir de la distribució uniforme.

  • Podeu fer servir el mateix full on treballàveu. Com abans, prendreu 200 mostres aleatòries. Ara ho fareu prenent com a punt de partida una població que segueix una distribució uniforme en l'interval [0, 10]. No modifiqueu el rang de sortida i, si voleu, poseu un nombre enter a Iniciar con (amb el benentès que si llavors voleu fer diverses proves, cada vegada l'haureu de canviar; si no hi poseu cap número, llavors s'aniran generant simulacions diferents si feu proves diverses).

  • Si no heu esborrat res del que heu fet a la primera part de la pràctica per cada mostra, és a dir, per cada columna, es calcularà la mitjana mostral a la fila 102.
  • També automàticament la mitjana i la desviació estàndard de la distribució de mitjanes mostrals a les cel·les A104 i A106.
  • Si les voleu comparar amb les que estableix el teorema del límit central, heu de posar aquests valors a les cel·les E104 i E106. Segur que sabeu que la mitjana de la distribució uniforme amb dades a l'interval [a, b] és (a+b)/2. La desviació estàndard és (escrita com una fórmula de l'Excel), (b-a)/RAÍZ(12).
  • Poseu, doncs, a E104 el número 5 i a E106 podeu posar-hi el valor , que ens indica l'enunciat (##) i que és =10/RAÍZ(12*100), atenent al fet que preneu mostres de mida 100.

Aneu fent diverses proves, cada vegada amb la simulació de 200 mostres de mida 100, i comprovareu que, efectivament, encara que la població de partida no sigui normal, l'ajust que estableix el teorema del límit central és excel·lent.

  • Si voleu comprovar també l'ajust global del model, i comparar visualment l'histograma que dóna la distribució de mitjanes mostrals amb el gràfic que ens dóna les probabilitats de cada classe corresponents al model normal que estableix el teorema del límit central, heu de tornar a activar ...|Histograma.
  • Ho podeu fer amb les mateixes classes, que també us serveixen encara que la variabilitat en aquest cas sigui més gran.

Com a exercici opcional d'aquest mòdul, podeu enviar un comentari i resultats d'aquesta part de la pràctica.

   
 
Amunt
  Ampliacions, aclariments i comentaris
   
Una prova de consistència del model
 
Segur que algunes i alguns penseu: "Però l'ull i la intuïció poden enganyar". Llavors, com podríeu constatar amb una prova estadística que el model normal observat per a la distribució de mitjanes mostrals és consistent?

En els tractats d'estadística, hi ha moltes i diverses proves de normalitat, però, com ja s'ha comentat al mòdul 6, no estan incorporades a l'Excel.

Tanmateix, ara que teniu unes freqüències observades i unes freqüències esperades, podríeu fer servir la prova de khi quadrat? A la pràctica 5 del mòdul 6 ja hem comentat aquest procediment com una possibilitat ben certa.

En aquest cas, podeu provar d'aplicar khi quadrat i veureu que tant amb les classes que ja teniu definides com amb d'altres que pugueu definir, el valor p sempre és molt alt: hi ha criteris estadístics molt sòlids per admetre la consistència del model normal per a la distribució de les mitjanes mostrals.

Per tant, podeu veure que en aquest cas, el fet que la tria de les classes aporti una càrrega subjectiva que pot condicionar molt el resultat de la prova no és del tot cert: el model normal està molt i molt ajustat a les dades.

I si algú dubta, encara pot provar d'aplicar el test de Kolmogorov-Smirnov!

   
 
Torna a la pràctica