Enrera
Mòdul 5
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  Les distribucions de probabilitat contínues  Documentació
Glossari
Glossari
 
 
Simulacions per obtenir dades
   

En aquesta pràctica estudiarem com es pot jutjar gràficament l'ajust d'un conjunt de dades empíriques corresponents a una variable contínua amb el corresponent model de probabilitat.

Per disposar de conjunts de dades per modelitzar una situació, tenim al nostre abast el procediment conegut com a simulacions. Amb aquest procediment, que s'aplica també per a variables contínues, l'Excel genera un conjunt de dades que s'adapten a un determinat model.

Els punts concrets que treballareu són aquests:

  • Fer simulacions per obtenir dades.
  • Comprovar intuïtivament si un conjunt de dades empíriques s'ajusta prou bé a un model determinat.
   
Pràctica
Simulació de la suma de dues distribucions normals
   

Pràctica

Imaginem que una afeccionada a les curses a peu recorre sovint el mateix trajecte; a l'anada fa pujada i, segons com es troba i les ganes que té de córrer, triga un temps que segueix una distribució normal de mitjana 22 minuts i desviació estàndard 0,6 minuts. A la tornada fa baixada (és clar!) i el temps que triga segueix una distribució normal de mitjana 20 minuts i desviació estàndard 0,8 minuts. Quina serà la distribució que podrà servir de model al temps total suposant (cosa que ja és molt suposar) que el temps de tornada és independent del temps d'anada?

És interessant simular la repetició de l'experiència (en aquest cas, seria «com si féssim moltes vegades la cursa»). Per fer-ho, heu de clicar a l'opció Herramientas | Análisis de datos | Generación de números aleatorios, que, com ja hem comentat repetidament, heu de tenir ben instal·lada. Seguiu el procediment següent:

  • Obriu un full nou.
  • Entreu a la cel·la A1 Pujada, a la cel·la B1, Baixada, i a la cel·la C1, Temps total.
  • Per simular els temps fets durant 200 dies a la pujada, accediu a l'opció Herramientas | Análisis de datos | Generación de números aleatorios i escriviu:
  • Número de variables: 1
    Cantidad de números aleatorios: 200
    Distribución: Normal
    Media = 22
    Desviación estándar = 0,6
    Rango de salida $A$2 (cosa que podeu indicar obrint el desplegable que apareix al requadre corresponent i fent clic després a la cel·la A2)

  • Feu el mateix per a la baixada, canviant la mitjana, la desviació estàndard i fent que el rang de sortida comenci a B2.
  • Per tenir el temps total, escriureu a la cel·la C2 la fórmula =A2+B2 i copiareu aquesta fórmula per arrossegament perquè sigui vàlida en tot el rang C2:C201.

En acabat, podeu procedir a un estudi estadístic de la variable Temps total que teniu a la columna C i que heu obtingut com a suma de les variables Pujada i Baixada.

  • Repasseu, si cal, el procediment per fer un histograma . Per preparar-lo cal escriure prèviament el conjunt de nombres que seran els extrems dels intervals de classe; en aquest exemple recomanem que siguin els nombres de 35 minuts a 50 minuts amb increments de 0,5 minuts, que podeu escriure a la columna D, amb un títol a la cel·la D1 i llavors ocuparan el rang D2:D32.

És molt il·lustratiu tenir un resum de les mitjanes i les desviacions estàndards de les tres variables. Ho podeu fer així:

  • Entreu a F2, G2 i H2 els rètols Pujada, Baixada i Total.
  • Entreu a E3 i E4 els rètols Mitjanes i Desv. est.
  • Entreu a F3 la fórmula =PROMEDIO(A2:A201). Copieu-la sobre G3:H3.
  • Entreu a F4 la fórmula =DESVESTP(A2:A201). Copieu-la sobre G4:H4.

Ara ja podeu procedir a fer l'histograma:

  • Accediu a Herramientas | Análisis de datos | Histograma amb l'opció Crear gràfico activada; poseu com a rang d'entrada C1:C201 i com a rang de classes D1:D32 (amb la indicació que hi ha Rótulos a la primera fila). D'aquesta manera obtindreu un gràfic que, idealitzat, s'adapta perfectament a la distribució normal.
  • Feu que la taula que ha sortit del procediment anterior estigui en el rang F6:G38 i el gràfic obtingut quedi a I6:N27.

És ben interessant que repetiu diverses vegades tot el procediment per copsar la influència de l'atzar i per constatar empíricament la part fonamental de la doctrina que volem explicar, que es reflecteix en l'enunciat següent: "La suma de dues distribucions normals és una altra distribució normal de mitjana la suma de les mitjanes i variància la suma de les variàncies".

  • Segurament la primera part de l'enunciat anterior és intuïtiva i ja l'havíeu pogut deduir amb la vostra experimentació; afegim a l'enunciat la part de la variància perquè també pogueu constatar-ho.
  • En l'exemple que ens ocupa, doncs, volem veure que la distribució de la variable Temps total té com a model una distribució normal amb una mitjana de 42 segons (22 + 20) i una variància de 1 s2 (que resulta de fer 0,62 + 0,82) i, per tant, una desviació estàndard d'1 s.

Els autors han fet diverses vegades el procediment de simulació. Es transcriuen els resultats de tres proves per a la distribució suma, que sempre donava una aparença força bona d'ajust per la normal i, en principi, la mitjana i la desviació estàndard tenen un valor força aproximat al que ens diu la teoria.

      •   mitjana 42,868    desviació estàndard 0,981
      •   mitjana 42,050    desviació estàndard 0,986
      •   mitjana 41,891    desviació estàndard 0,955

Per poder constatar de manera visual si l'ajust de la variable suma a una normal és globalment consistent (i no solament pel que fa als paràmetres calculats), podeu superposar en el mateix gràfic de l'histograma una campana de Gauss que sigui la funció densitat de la distribució normal teòrica de mitjana i desviació estàndard iguals a les que ens diu la teoria (és a dir 42 i 1 respectivament).

  • Entreu a H7 la fórmula =DISTR.NORM(F7;42;1;0) i copieu-la sobre el rang H8:H37. Aquests són els valors necessaris per obtenir un esquema del gràfic de la corba normal abans esmentada (fet només a partir dels punts que corresponen als valors de la funció de densitat en els límits dels intervals de classe, indicats a la columna F de la taula, en el rang F7:F37).
    Nota: alternativament podríeu fer també l'ajust per una normal amb els paràmetres definidors estimats a partir de les dades obtingudes en el procés de simulació; si opteu per aquesta possibilitat heu de substituir el 42 i l'1 de la fórmula anterior per la referència a les cel·les $H$3 i $H$4, respectivament, que és on tenim calculades la mitjana i la desviació estàndard de la suma)
  • Feu clic sobre el gràfic i accediu a Gráfico | Datos de origen | Serie.
  • Premeu Agregar i amb Serie2 seleccionat entreu a la casella Rótulos del eje de categoria (X) el rang =Hoja1!$F$7:$F$37 (a mà o prement el botó de la fletxa i després seleccionant el rang).
  • Entreu a Valores el rang =Hoja1!$H$7:$H$37 i feu que es dibuixi el gràfic (Aceptar o equivalent)

Veureu que l'Excel «ha endevinat» la millor manera per poder comparar adequadament els dos gràfics. Ha interpretat que volíem un gràfic de línia i ha vist que seria convenient fer servir dos eixos verticals diferents, per les diferents escales que cal emprar (recordeu que l'àrea delimitada per la gràfica d'una funció densitat i l'eix horitzontal sempre val 1).

Nota: No penseu pas que sempre serà així quan volguem superposar dos gràfics; en aquest cas ha estat perquè el primer gràfic s'havia fet amb el procediment ...|Histograma. De fet hi ha un gràfic personalitzat que fa un diagrama de barres i li supeposa un gràfic de línies seleccionant alhora les dues columnes:
                                               Gráficos|Tipos personalizados|Líneas y columnas 2
.
Si us interessa, podeu investigar aquest tipus de gràfic.

  • Si voleu que no apareguin els marcador dels punts que han servit per fer l'esbós de la gràfica de la distribució normal, cliqueu sobre la línia i després amb el botó dret, Formato de serie de datos | Tramas | Marcador | Ninguno.

En una de les nostres proves, després de fer modificacions en la presentació, hem obtingut el gràfic següent:

Observeu com s'ajusten els dos gràfics. En el mòdul següent estudiareu les proves de contrast estadístic que permeten valorar si aquest ajust és realment significatiu o no.

Potser penseu: "Sembla que la corba normal hagi quedat desplaçada cap a l'esquerra". Si ho penseu, teniu raó; si us interessa corregir-ho, cliqueu a la icona d'ampliació.

 
Pràctica Presentació d'una nova família de distribucions: la khi quadrat
   
 

La suma de quadrats de n distribucions normals independents correspon a un model teòric molt important: la distribució khi quadrat amb n graus de llibertat.
Com que correspon a una suma de quadrats, la distribució khi quadrat només pren valors positius o 0. En aquest apartat creareu una nova variable que s'ajustarà a una khi quadrat amb tres graus de llibertat.

La distribució khi quadrat amb tres graus de llibertat resulta de la suma de quadrats de tres distribucions normals estàndards independents.

  • En un full nou escriviu a la cel·la A1 var1, a la cel·la B1, var2, a la cel·la C1 var3 i a la cel·la D1, per exemple, distr-khi-3.
  • Accediu a l'opció Herramientas | Análisis de datos | Generación de números aleatorios i escriviu:
  • Número de variables: 3
    Cantidad de números aleatorios: 400
    Distribución: Normal
    Media = 0
    Desviación estándar = 1
    Rango de salida $A$2 (recordeu-ho: clic a la cel·la A2; adoneu-vos que només
                                      cal indicar la cel·la superior esquerra del rang)

  • Per tenir la simulació de la distribució khi quadrat amb tres graus de llibertat escriureu a la cel·la D2 la fórmula =A2^2+B2^2+C2^2 i copiareu aquesta fórmula per arrossegament perquè sigui vàlida en tot el rang D2:D401.

  • En acabat, podeu fer un histograma de la variable obtinguda i, idealitzant-lo, coneixereu el perfil de la distribució khi quadrat amb tres graus de llibertat (acampanada; amb una cua curta al costat del 0 i una llarga cua al costat dret). Segurament que, per altra banda, voldríeu fer una gràfica de la funció de densitat de la distribució khi quadrat amb tres graus de llibertat i comparar intuïtivament l'ajust. Això és difícil, perquè l'Excel només incorpora una funció DISTR.CHI, que dóna el que de vegades se'n diu la funció de supervivència, que és el resultat de restar de la unitat el valor de la funció de distribució (probabilitat acumulada).

Al mòdul següent treballarem a bastament amb aquestes distribucions de la família khi quadrat.

   
 
Amunt
  Ampliacions, aclariments i comentaris
   
Ampliació

"Sembla que la corba normal hagi quedat desplaçada cap a l'esquerra".
Com ho podem corregir?

En la construcció gràfica que hem fet per tal de superposar la corba normal a l'histograma obtingut amb les dades de la simulació, arrosseguem l'anomalia que ja hem comentat en altres ocasions sobre la manera que té l'Excel de posar els rètols de l'eix de les x en el gràfic que anomena histograma.

En aquesta ampliació expliquem com es pot fer per corregir aquesta anomalia i dibuixar la corba normal que realment correspon als intervals de classe amb què hem agrupat les dades.

  • Recordeu que la taula que ha sortit a partir del procediment Histograma la tenim en el rang F6:G38 i moveu el gràfic unes columnes cap a la dreta, per exemple fins a K6:P27.
  • A la columna I, en el rang I7:I37 escriureu, com hem fet en altres ocasions, l'expressió explícita dels intervals de classe perquè els posarem com a rètols a l'eix de l'histograma per interpretar-lo millor. Aquests intervals de classe són respectivament: 35 o menys, (35, 35,5], (35,5, 36], (36, 36,5], ..., (49, 49,5], (49,5, 50] i ja no cal que escriviu la classe més de 50 que aniria a la cel·la I38.
    Nota: Atenent a què estem en l'apartat d'ampliació, podeu recordar que la manera més ràpida de combinar en una cel·la expressions que volem que es reprodueixin textualment i els valors numèrics que apareixen en algunes cel·les és la de fer servir el signe &.
    Escriviu a la cel·la I8 la fórmula  ="("&F7" , "&F8&"]")   i copieu-la a tot el rang I9:I37 i ja tindreu escrits "automàticament" els intervals.
  • Ara cliqueu al gràfic que teniu i feu Datos de origen | Serie i, amb l'ajut del botó poseu que els Rótulos del eje de categorías siguin els del rang I7:I37. Llavors cliqueu als rètols de l'eix de les x i amb Formato de ejes feu que la font tingui una mida adequada i que quedin verticals.
  • Ara veureu que, pel que fa a la corba normal i perquè quedi correctament situada, convé calcular no els valors que corresponen als extrems dels intervals sinó els valors de les marques de classe (punt mitjà de cada interval). Per fer-ho, corregiu la fórmula que teniu a la cel·la H7 i (després de reflexionar per què es fa així) poseu-hi
                                      =DISTR.NORM(F7-0,25;42;1;0)
  • Copieu aquesta fórmula a tot el rang H8:H37.

D'aquesta manera veureu que s'ha dibuixat la corba normal que realment correspon.

Tot seguit transcrivim com a exemple el gràfic corregit, atl com s'ha explicat en aquesta ampliació, corresponent a la mateixa simulació de què havíem mostrat el gràfic en el text de la pràctica.

Oi que, sense cap mena de dubte, l'ajust és molt millor?

 
Torna a la pràctica