Enrera
Mòdul 7
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  Idees sobre estimació. Estimació d'una proporció   Documentació
Glossari
Glossari
  El teorema del límit central. Estimació d'una mitjana Documentació
 
 
Quin és el millor estimador?
   
 

L'objectiu d'aquesta pràctica és fer simulacions que visualitzaran l'exemple que es presenta en un dels documents teòrics d'aquest mòdul per entendre què es pot fer en una situació pràctica per decidir quin és el millor estimador.

 
Imatge
 
Quin és el màxim nombre que ha intervingut en un sorteig o en una tria de nombres aleatoris?

Treballareu aquests aspectes concrets:

  • Realització de simulacions amb l'Excel.
  • Constatació empírica de la distribució mostral de diversos estimadors.
  • Anàlisi del biaix i precisió d'aquests estimadors
Pràctica Plantejament del problema i simulacions
   
 

Us presentem una situació didàctica que ajuda a presentar l'objectiu i el marc de treball de l'estimació estadística i els recursos de què es disposa per donar consistència als procediments que es fan servir.

Imagineu que en començar una classe presenteu al vostre grup d'alumnes un conjunt de 50 dades (nombres enters positius), per exemple aquesta:

	  36  	  45	  95  	 107  	 149  	
222 258 400 423 489
509 549 566 638 849
892 918 947 962 989
1063 1078 1087 1090 1102
1116 1150 1172 1214 1246
1406 1479 1606 1609 1626
1642 1700 1702 1764 1895
1964 2018 2056 2089 2090
2298 2311 2414 2435 2457

Els dieu que l'heu generada amb la funció de l'Excel ALEATORIO.ENTRE, posant al quadre de diàleg corresponent inferior: 1, però sense dir-los quin és el superior. La feina que els proposeu és suggerir idees que els permetin esbrinar quin és el valor màxim que havíeu posat per fer la generació de nombres aleatoris.

Els heu de dir que no ho poden saber del cert i que els demaneu que facin una inferència. Han d'inventar mètodes i amb cadascuna de les seves idees s'associarà un estimador. Ben segur que tindran una bona inventiva i passareu una bona estona posant en comú les seves idees.

Com sabríem quines característiques tenen els estimadors inventats en el problema que ens ocupa? Com es pot saber en una situació d'aplicació pràctica quin dels possibles és el millor estimador?

Per poder-ho decidir, es fa un treball de laboratori. Es parteix d'una situació anàloga a la que interessa estudiar, però amb tots els paràmetres coneguts, i se'n fan repetides simulacions. Llavors s'analitza la distribució mostral de cadascun dels estimadors i es comparen unes amb les altres. I encara més: hi ha moltes situacions en estadística en què la distribució mostral de l’estimador més adequat té un model teòric ben conegut: aquests són els casos interessants.

Així, doncs, ara farem simulacions en l'exemple que ens ocupa. Ara sí que sabrem quin és el nombre màxim que pot sortir i llavors mirarem què passa.

  • Escriviu a la cel·la A1 la funció =ALEATORIO.ENTRE(1;400) (o bé genereu-la amb el quadre de diàleg que mostrava la imatge de presentació posant al quadre de diàleg Inferior 1, Superior 400.
  • Copieu la fórmula anterior perquè sigui vàlida en tot el rang A1:GR50.
  • Així haureu generat 200 columnes amb 50 dades aleatòries en cada columna... i ja esteu a punt per investigar.
  • Com que els nombres generats per ALEATORIO.ENTRE es renoven en cada acció de l'Excel que comporti un càlcul, es podria pensar en Edición|Pegado Especial|Valores per aconseguir tenir un conjunt de nombres generats aleatòriament però fixos per tota la pràctica. Però no ho fareu així, perquè al final, justament, interessa fer moltes observacions i estudiar l'evolució d'allò que calculeu.
Pràctica
Alguns estimadors: variabilitat mostral

Pràctica


 


Al document teòric ja es comenten alguns possibles estimadors inventats. Quines idees sorgiran en una classe? Segur que aquelles que ja s'han comentat... i moltes altres. Poden ser-ne exemples:

  • La visió "més conservadora": el màxim observat.
  • Però també: el màxim més 1, o el màxim més 10, o el màxim més l'1 %, o el màxim més el 10 %...
  • El doble de la mitjana.
  • El doble de la mediana.
  • Per què no la mitjana més la mediana? O la mediana més el rang interquartíl·lic?
  • Etcètera!

Com podem valorar quin d'aquests estimadors ens ajudaria més? Ja tenim unes simulacions fetes. Analitzarem com es comporta cada estimador amb el nostre conjunt de dades. Ara ho farem amb tres d'aquests estimadors: el màxim observat, el doble de la mitjana i el doble de la mediana. Aquests tres estimadors il·lustraran molt bé la idea de biaix i de precisió i ens serviran per fer un debat sobre quin dels tres seria més encertat de prendre com el millor estimador.

Recordeu que tenim plenes les primeres 50 files i 200 columnes, que representen 200 simulacions de l'extracció de 50 boles (amb reemplaçament) d'una bossa amb nombres de l'1 al 400.

Comencem per l'anàlisi de l'estimador el màxim observat:

  • A la cel·la A51 escriviu Màxims de cada simulació i ho podeu posar en negreta.
  • A la cel·la A52 escriviu la fórmula =MAX(A1:A50), que heu de copiar en tot el rang que interessa, fins a la columna GR. Seleccioneu la cel·la A52 i feu Control + C; tot seguit, feu Control + Majúscules + Fi i això us portarà segurament a la cel·la que voleu, la GR52. Llavors feu Control + V.
  • A la cel·la A53 escriviu Mitjana i a la B53 poseu-hi la fórmula corresponent, =PROMEDIO(A52:GR52).
  • A la cel·la C53 escriviu Desv. est. i per obtenir la desviació estàndard de la distribució mostral de l'estimador que ara estem estudiant poseu a la cel·la D53 la fórmula =DESVEST(A52:GR52). (Creiem que és millorconceptualment la funció DESVEST que no DESVESTP, perquè no ens interessa exactament què ha succeït amb les simulacions que hem vist, sinó intentar fer una deducció de quin podria ser el model teòric de la distribució mostral de l'estimador.)

Repetiu aquestes accions a les files 54, 55 i 56 amb l'estimador el doble de la mitjana.

  • A la cel·la A54 escriviu Doble de la mitjana de cada simulació.
  • A la cel·la A55 escriviu la fórmula =2*PROMEDIO(A1:A50) que heu de copiar en tot el rang A55:GR55.
  • Al rang A56:D56 podeu copiar-hi el que teniu a les cel·les A53:D53.

Finalment, repetiu-ho encara a les files 57, 58 i 59 per a l'estimador el doble de la mediana.

Cada vegada que premeu F9 es fa una nova simulació. Feu-ho unes quantes vegades i observeu com varien la mitjana i la desviació estàndard dels tres estimadors que hem estudiat. La mitjana de la distribució mostral té relació amb el biaix; la desviació estàndard de la distribució mostral, amb la precisió.

Tot seguit, podeu observar dos resultats. La mitjana de la distribució mostral empírica de l'estimador en les 200 simulacions que més s'ha acostat al veritable valor en aquestes dues experimentacions és el doble de la mediana. Passa el mateix en les proves que feu vosaltres? Vol dir això que aquest és el millor estimador?

Un estudi més complet del comportament d'aquests estimadors el tindríem si miréssim no solament els dos paràmetres comentats, sinó un histograma de la distribució mostral empírica, en les nostres simulacions, de cada estimador. Així podríem tendir a fer-ne una valoració global.

Així, doncs, quin és el millor estimador?
 

Pràctica
Biaix i precisió. Conclusions
 

 

 

Un estimador és centrat si la mitjana de la distribució mostral coincideix amb el valor del paràmetre que es vol estimar; és esbiaixat en cas contrari.

En l'exemple que estem estudiant:

  • És clar que l'estimador màxim observat és un estimador esbiaixat cap a l'esquerra. Ben segur que la mitjana mostral d'aquest estimador (tant en les proves i simulacions que fem com si en sabéssim el model teòric que el regula) sempre és més petita que 400, perquè només en alguns casos comptats el màxim observat és 400; altrament, el màxim és més petit que 400 i, per tant, la mitjana també.
  • Si feu diverses proves amb F9, us convencereu que l'estimador doble de la mitjana és centrat. Un resultat teòric ens ho permetria assegurar.
  • També podreu veure que l'estimador doble de la mediana apareix sense un biaix molt decantat.

Ara bé, el biaix no és l'únic element que cal tenir en compte. També és molt important la precisió en l'estimació, que es mesura en funció de la desviació estàndard de la distribució mostral de l'estimador.

  • Amb molta diferència, l'estimador més precís és el màxim observat.
  • La variabilitat que s'observa per a l'estimador doble de la mitjana ens el desaconsella força; el marge d'error de les estimacions seria massa gran.
  • Pel que fa al doble de la mediana, la desviació estàndard de la distribució de l'estimador és tan i tan gran que no podem pensar a fer-lo servir.

Què hem de tenir més en compte, el biaix o la precisió? És difícil d'afirmar-ho amb rotunditat. En aquest exemple didàctic, ben segur que ens posaríem d'acord dient: "Si sabéssim com hem d'augmentar una mica el màxim, aquesta seria la millor manera!". Us proposem que continueu "jugant" amb aquest exemple en un dels exercicis.

 
Amunt
 

Ampliacions, aclariments i comentaris

   
Atenció !
Gràfics per analitzar globalment el comportament dels tres estimadors

Abans de fer els gràfics, us suggerim fixar les dades per estudiar els gràfics que resulten d'una simulació i que les dades aleatòries no vagin modificant-se.

  • Seleccioneu tot el rang A1:GR200. Feu Control + C. Tot seguit, encara amb el rang seleccionat, feu Edición | Pegado Especial | Valores.

Ara procedireu a fer l'histograma de les distribucions mostrals empíriques dels tres estimadors estudiats.

  • Escriviu a A61 Classes i llavors els nombres que delimitaran les classes que, vista la variabilitat que mostra algun dels conjunts de dades que volem estudiar, us suggerim que poseu de A62 a A85 els valors 337,5; 342,5..., 452,5.
  • Ara feu Herramientas|Análisis de datos|Histograma per al rang d'entrada A52:GR52 i el rang de classes A62:A85.
  • Repetiu-ho per als rangs d'entrada A55:GR55 i A58:GR58.
  • Modifiqueu la presentació dels gràfics perquè siguin, realment, histogrames.
    • Recordeu, sobretot, clicar a les barres del gràfic i fer Formato de serie de datos | Opciones | Ancho del rango i posar-lo a 0.
    • Igualeu també Escala de l'eix vertical en els tres gràfics. Suggerim de 0 a 70 amb 10 per a la Unidad mayor.
    • Podeu fer altres modificacions.

D'aquesta manera obtindreu unes sortides en pantalla semblants a les que es mostren tot seguit (on a mà hem afegit un senyal per a la classe [397,5; 402,5) que conté el vertader valor del paràmetre que volem estimar.

En aquests gràfics, es fa del tot clara la precisió de cada estimador: el més precís és el màxim; el que ho és menys, el doble de la mediana (fixeu-vos en el gran nombre de valors menors que 337,5 i el gran nombre de valors més grans que 452,5).

Pel que fa al biaix, és clar que el màxim és esbiaixat cap a l'esquerra; en canvi, el doble de la mitjana i el doble de la mediana semblen força centrats (però amb tanta –o "tantíssima!"– variabilitat) que costa pensar que siguin uns bons estimadors.

 


Torna a la pràctica