Enrera
Mòdul 7
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  Idees sobre estimació. Estimació d'una proporció   Documentació
Glossari
Glossari
  El teorema del límit central. Estimació d'una mitjana Documentació
 
 
Simulacions d'enquestes
   
  L'objectiu d'aquesta pràctica és fer simulacions amb el programa Excel sobre enquestes d'opinió a partir d'una hipotètica població de 40.000 persones per consolidar empíricament les idees relatives a la fitxa tècnica d'una enquesta. Aquest treball es consolida en la pràctica següent amb l'aplicació de les fórmules presentades a la teoria.
 

Els objectius, doncs, se centren en:

  • Conèixer el procediment Análisis de datos | Muestra de l'Excel.
  • Fer simulacions d'enquestes i reflexionar sobre els conceptes d'interval de confiança i marge d'error.

Treballareu amb el llibre de l'Excel ELECCIONS.XLS que s'ha incorporat al material del curs.
 

Pràctica
Realització d'enquestes electorals


Obriu el llibre de l'Excel indicat (que trobareu a la carpeta D128/FITXERS si us heu baixat el curs i heu fet la instal·lació recomanada) i preneu el full Partits.

Al rang A1:GR200 hi teniu escrita l'opinió política respecte a 3 partits que concorren a unes eleccions (ABC, XYZ i RRR) dels 40.000 votants d'una població.

  • Com que el procediment Herramientas | Análisis de datos | Muestra que volem fer servir no s'aplica a dades alfanumèriques, caldria fer un canvi de codi, per exemple de XYZ a 1, de ABC a 2, de RRR a 3. Això es faria amb Edición | Reemplazar; escriuríeu XYZ al requadre Buscar, 1 al requadre Reemplazar con i faríeu clic a Reemplazar todas. Després, faríeu el mateix amb els altres dos partits... però ja teniu aquesta feina feta al full Codis.
  • Recupereu, doncs, aquest full on ja tenim l'opinió dels 40.000 votants codificada numèricament. Activeu el procediment Análisis de datos|Muestra. Veureu que presenta dues formes de fer el mostreig: periòdic (en realitat el terme correcte és sistemàtic i és semblant al que es pot fer servir per consultar censos molt nombrosos, per exemple triar la 22a persona de cada pàgina) i aleatori. Ara farem servir el mètode aleatori i en els exercicis us proposarem que treballeu amb el peròdic després de veure a la propera pràctica la correcció que s'ha de fer en el càlcul del marge d'error. Poseu: Rang $A$1:$GR$200, cliqueu a Aleatorio i poseu 800 com a valor del Número de muestras (sic) (que en realitat vol dir mida de la mostra; l'Excel només tria una sola mostra en cada execució del procediment).
  • Deixeu que els valors obtinguts en la mostra triada quedin en un full nou. Els valors recollits en l'enquesta queden a la primera columna. Busqueu la cel·la A1 i feu Insertar | Filas i a la nova cel·la A1 poseu un títol (per exemple, Mostra) i d'aquesta manera es podran fer servir les taules dinàmiques per fer el recompte.
  • Activeu Datos|...tablas dinámicas. Indiqueu que el rang sigui $A$1:$A$801; en el disseny poseu el rètol Mostra a FILA i també a DATOS, amb molt de compte que ha d'estar activa l'opció Contar de mostra (us haurà sortit segurament suma de mostra, però amb un doble clic ho podeu arreglar). Aprofiteu per clicar a Opciones>> i llavors al desplegable de Mostrar datos como poseu que aparegui el tant per cent de la columna. Feu que es col·loqui al mateix full amb l'angle superior esquerre a $B$1. Si treballeu amb la versió 2000, deixeu obert el tauler auxiliar de les taules dinàmiques perquè el podreu fer servir per actualitzar dades.

Si ara voleu fer proves noves, és a dir, altres simulacions d'una enquesta electoral (d'una en una), cal repetir a mà una bona part de les accions que hem indicat.

  • Obriu el full Codis i activeu Herramientas | Análisis de datos | Muestra. Veureu que encara teniu posats els mateixos valors per al rang d'entrada i per a la mida de la mostra. Ja és correcte així! Ara bé, ara hem d'indicar el rang de sortida dintre del full nou que s'ha creat abans i que, si no li heu canviat el nom, es dirà Hoja1. Llavors, ja sigui amb el botó , ja sigui teclejant, heu de posar que el rang de sortida sigui Hoja1!$A$2$A$801 (començant a la cel·la A2 perquè així conserveu el rètol). Si feu diverses proves, a partir de la tercera també trobareu ja escrita aquesta referència, que podeu mantenir.
  • Accepteu que les noves dades se superposin i, per tant, esborrin les anteriors.
  • Tot seguit, heu d'actualitzar les dades de la taula dinàmica, cosa que no es fa automàticament:
    • Si treballeu amb la versió 2000, podeu fer servir el quadre d'acció auxiliar que teniu obert. (En cas que l'hagueu tancat, fent clic amb el botó dret al títol de la taula dinàmica, veureu que s'obre un menú on també teniu la icona per actualitzar dades.)

    • Si treballeu amb la versió 97, no tindreu obert cap quadre com l'anterior. En aquest cas, per actualitzar les dades cliqueu una cel·la qualsevol de la taula, premeu el botó dret del ratolí i trieu l'opció Actualizar datos.

Podeu fer diverses enquestes diferents i analitzar a ull la variabilitat mostral; el funcionament del procediment que hem de fer servir (una sola mostra cada vegada) fa difícil, en aquest cas, fer una recollida de dades de la proporció mostral observada en moltes simulacions i estudiar-la empíricament, però tanmateix, a diferència de l'exemple que hem vist a la pràctica 1, en aquest cas coneixem del tot el model des d'un punt de vista teòric.

Pràctica
Ho hem encertat? Marge d'error i interval de confiança

Pràctica


Hem fet una enquesta i això ens ha permès fer una estimació. La nostra previsió, ha estat encertada?

  • Ja sabem que encertar no vol dir, de cap manera, que els percentatges de votants de cada partit observats en la mostra siguin idèntics que els que es donen realment en la població, sinó que, a partir dels percentatges observats, puguem indicar uns intervals (dits intervals de confiança) on es trobin els veritables valors.
  • També sabem (vegeu document teòric) que aquests intervals depenen de la mida de la mostra i de la proporció observada en la mostra, però que en cas d'enquestes múltiples, com la que ara ens ocupa, s'acostumen a donar les estimacions amb un marge d'error màxim que permet definir intervals de confiança amb el mateix marge d'error/variabilitat per totes les estimacions només segons la mida de la mostra (i, eventualment, segons el mètode de mostratge de la mida de la població).
  • És important comentar que aquests intervals de confiança depenen, també, de l'anomenat nivell de confiança amb què es vol donar l'estimació. L'atzar implica que si es vol donar una estimació amb el 100 % del nivell de confiança, l'interval de confiança hauria d'abastar tots els possibles valors; aquest no és el cas habitualment en la pràctica: llavors, com més petit sigui el nivell de confiança (admetem, doncs, un risc d'error/equivocació més gran), podem donar les estimacions amb un marge d'error/variabilitat més petit.

Per cada enquesta que fem, després d'actualitzar la taula dinàmica que indica els percentatges mostrals, pot ser interessant escriure quins són aquests intervals de confiança. Escriurem els intervals de confiança corresponents a l'error màxim que es pot observar per a un nivell de confiança del 80 %. (No és l'usual, però ens serveix per exemplificar millor el que volem comentar seguidament.)

 


Podeu aplicar la fórmula corresponent, que traduïda a Excel per a una mostra de mida 800 i un nivell de confiança del 80 %, ens diu que l'error màxim és =1,28/RAÍZ(4*800) (amb el benentès que treballem amb mostres aleatòries, és a dir, amb reemplaçament, i llavors el model escaient és el binomial i no s'ha de fer la correcció que té en compte la grandària de la població).

  • A les cel·les C3, C4 i C5 tenim els percentatges observats.
  • Escriviu a D3 la fórmula =C3-1,28/RAIZ(4*800) i a E3 poseu =C3+1,28/RAIZ(4*800). Com que C3 estava definit en tant per cent, els resultats a D3 i E3 s'expressaran igualment en tant per cent.
  • Copieu la fórmula de D3 a D4 i D5 i la fórmula de E3 a E4 i E5. Podeu posar a les cel·les D1:E2 un títol que expliqui que aquests són els intervals de confiança amb el marge d'error màxim associat a un nivell de confiança del 80 %.
  • Si (tal com hem explicat més amunt) feu diverses proves de selecció d'una mostra aleatòria de mida 800, podreu anar veient com varien aquests intervals de confiança.

Ara bé, interessa recordar que estem fent simulacions, i en aquesta situació de laboratori partim d'una població ben coneguda i podem establir els vertaders valors de la variable estudiada en la població. Si els voleu conèixer:

  • Podeu fer-ho amb la fórmula condicional CONTAR.SI.
  • Escriviu a F3, F4 i F5 els noms dels partits polítics que apareixen al full Partits, respectivament XYZ, ABC i RRR.
  • Escriviu a G3 la fórmula condicional següent que ja indica que volem fer comptes de valors que estan en un altre =CONTAR.SI(Partits!$A$1:$GR$200; F3) i copieu-la a G4 i G5 perquè es faci els recompte dels percentatges en la població favorables a ABC i RRR.
  • Una vegada obtingudes les freqüències absolutes, escriviu a H3 la fórmula =G3/40000, que copiareu a H4 i H5. Tot seguit, amb el rang H3:H5 seleccionat, feu Formato | Celdas | Número | Porcentaje (amb 2 xifres decimals, per exemple).

Fent-ho així, veureu a les cel·les H3:H5 que els percentatges reals respectius, en tota la població coneguda dels partits XYZ, ABC i RRR, són 30,24 %, 49,88 % i 19,88 %.

Si treballem amb un nivell de confiança del 80 % (risc d'equivocació del 20 %), vol dir que si es fan moltes simulacions de l'enquesta, llavors podem pensar que encara que el procediment el fem correctament i apliquem perfectament les fórmules de l'estimació, una de cada cinc vegades pot ser que fallem en l'estimació.

Vegeu tot seguit una "foto" d'un cas que hem trobat els autors després d'algunes proves en què l'estimació ha fallat:

Proveu-ho algunes vegades (recordeu que heu de generar una nova mostra i heu d'actualitzar la taula dinàmica; la resta s'actualitza automàticament per les característiques de treball del programa Excel). Segur que amb una mica de paciència trobareu un cas que falla i això us ajudarà a comprendre millor què es el que significa l'interval de confiança.

En un dels exercicis que es proposen al final del mòdul podreu reprendre el tema.

   
 
Amunt
  Ampliacions, aclariments i comentaris
   
Atenció !

En la fórmula de l'interval de confiança d'una estimació que s'ha donat per a un nivell de confiança del 95,5 % apareix un 2.

També s'ha comentat que si en lloc del 95,5 % volem el 95,0 %, llavors aquest 2,0 s'ha de substituir per 1,96.

Quin valor hem de posar-hi si volem treballar amb un nivell de confiança del 80 %? Com que en les enquestes habituals podem treballar sempre amb l'aproximació donada per la distribució normal, podem suposar simetria. Llavors, l'interval de probabilitat 80 % està delimitat pels límits del 10 % i del 90 % de probabilitat acumulada en la distribució normal estàndard. Aquests valors crítics són -1,28 i +1,28, que es poden obtenir respectivament amb les fórmules

= DISTR.NORM.ESTAND.INV(0,1)
= DISTR.NORM.ESTAND.INV(0,9)

Aquest valor, 1,28, és el que substitueix el 2 de la fórmula de l'interval de confiança si volem treballar amb un nivell de confiança només del 80 %.

   
 
Torna a la pràctica