Enrera
Mòdul 4
Estadística amb el full de càlcul: usos didàctics
  Pràctica
1
2
3
4
5
6
   
Exercicis
Exercicis
  La probabilitat
Documentació
 
Glossari
Glossari
  Les distribucions de probabilitat discretes     Documentació
 
 
 
  El model adequat per estudiar les enquestes
   
 

La distribució binomial és el model teòric adequat per al tractament formal de les enquestes d'opinió i per aprendre a donar-ne les conclusions de manera consistent. En aquesta pràctica, es comença a treballar aquest tema que més endavant reprendreu en diverses ocasions (sobretot en el mòdul 7). Ara treballareu:

  • El càlcul de probabilitats i la recerca de valors crítics que ja heu vist a la pràctica anterior.
  • La formulació dels problemes fent servir el llenguatge de les enquestes: nivell de confiança, marge d'error, etc.
 
...una enquesta als diaris...
   
Pràctica Comencem amb unes consideracions
   

La definició de probabilitat que donen el GDLC i el DIEC ens diu que la probabilitat d'un esdeveniment és un "nombre que permet d'expressar quantitativament el caràcter aleatori d'un esdeveniment o fenomen que hom creu que pot succeir".

En el primer document conceptual d'aquest mòdul n'hem donat una visió un xic més intuïtiva, tot dient que és "un nombre que representa la proporció de vegades que podem esperar que l'esdeveniment succeeixi quan l'experiment és repetit moltes vegades en idèntiques condicions".

Les dues visions, però, ens porten a la idea que els problemes relacionats amb el càlcul de probabilitats en experiències aleatòries es poden formular en termes de prediccions del que pot passar quan fem una experiència aleatòria. Des d'aquest punt de vista, s'incorporen al llenguatge diversos conceptes que tot seguit s'enuncien i en el transcurs d'aquesta pràctica s'exemplificaran adequadament.

Els dos primers que es comenten són contraris l'un de l'altre:

Definició En una experiència aleatòria, s'anomena risc d'una predicció (o més explícitament risc d'error) el nombre que representa la probabilitat que la predicció no es compleixi.

Definició En una experiència aleatòria, s'anomena nivell de confiança (o, de vegades, marge de confiança) d'una predicció el nombre que representa la probabilitat que s'encerti la predicció en una realització de l'experiència.

  • Habitualment, el nivell de confiança i el risc s'expressen en tant per cent.
  • Per exemple, si tirem un dau enlaire i fem la predicció "Sortirà un sis", la probabilitat d'èxit és 1/6 = 0,167. El nivell de confiança d'aquesta predicció és del 16,7 % i el risc d'error és del 83,3 %.
  • Si tirem cinc monedes enlaire i fem la predicció "Sortirà alguna cara", la probabilitat de l'esdeveniment contrari (tot creus) és 1/32 = 0,031. La predicció, doncs, té un risc d'error del 3,1 % i, per tant, podem enunciar-la amb un nivell de confiança del 96,9 %.

Les prediccions que podem fer en el marc de les experiències aleatòries poden tenir formulacions molt diverses segons el tipus d'experiència i els esdeveniments que ens pugui interessar estudiar. Ara bé, en les experiències que corresponen al model de la distribució binomial –de què en tenim l'exemple més paradigmàtic en la realització d'enquestes d'opinió–, hi ha un tipus de prediccions que són les que es consideren més sovint.

En aquestes situacions, repetim de manera independent i moltes vegades una experiència. Llavors, si estudiem el percentatge d'èxits que tenim, és lògic preguntar-se quin és el conjunt més versemblant dels resultats que es poden obtenir.

Com que aquest tipus d'experiències, quan tenen aplicació pràctica, es fan amb un nombre gran de repeticions, llavors es pot suposar que hi ha una simetria de la distribució respecte de la mitjana que, per altra banda, és el valor esperat (i, per tant, el més versemblant). Per aquesta raó, la resposta a la pregunta anterior es dóna com un interval de valors centrat en la mitjana.

Definició En una experiència aleatòria que correspon al model binomial B(n, p) i que, per tant, té mitjana m = n · p, s'anomena interval de confiança (o de tolerància) amb un nivell de confiança del c % (o, abreujadament, interval de confiança del c %) el més petit dels intervals centrats en la mitjana que té la propietat que el resultat de l'experimentació pertanyi a aquest interval supera el c %.

Simbòlicament, l'interval de confiança del c % és el més petit dels intervals
[m - e, m + e] que compleix p[m - e, m + e] c/100.

Definició El radi e de l'interval de confiança rep el nom de marge d'error.

  • Habitualment, els límits de l'interval de confiança i el marge d'error s'expressen en tant per cent respecte a la mida n de la mostra (o nombre de repeticions en la distribució binomial). La previsió lligada amb aquests conceptes es pot fer, doncs, de dues maneres:

    • Es pot preveure, amb un nivell de confiança del c %, que la proporció d'èxits observada pertany a l'interval [a %, b %] (aquest interval està centrat en la mitjana expressada en tant per cent, és a dir (p · 100)%.
    • Es pot preveure, amb un nivell de confiança del c %, que la proporció d'èxits observada és aproximadament igual a (p · 100)%; amb rigor, expressada en tant per cent és igual a (p · 100) (e/n · 100)

  • Al mòdul 7 aprofundirem el comentari següent: no s'ha de confondre el significat del mot error en l'expressió marge d'error de l'estimació, concepte lligat amb el fet que els resultats de l'estadística sempre tenen un marge de variabilitat (i, per tant, no podem fer mai cap previsió segura) amb el sentit que té error quan parlem de risc d'error on volem dir, exactament, risc d'equivocació en les prediccions que fem.
L'esquema següent

explica que (basant-nos com ja s'ha dit en què l'àmbit d'aplicació permet suposar la simetria de la distribució binomial) per calcular els límits de l'interval de confiança del 90 % hem de buscar els valors crítics del 5 % (probabilitat acumulada de 0,05) i del 95 % (probabilitat acumulada de 0,95).

Semblantment, si volem l'interval de confiança del 95 %, els valors crítics que cal buscar són els que corresponen a les probabilitats acumulades de 0,025 i 0,975.

L'exemple que es treballa en aquesta pràctica il·lustra a bastament aquestes consideracions.  

 

Pràctica Calculem probabilitats com a camí per entendre les estimacions
   

Una enquesta: suposem que en una població només el 45 % de persones són favorables a la gestió municipal. Se selecciona aleatòriament una mostra de 100 persones i se'ls passa una enquesta, de manera independent a una persona i una altra.

  1. Quina és la probabilitat que a la mostra hi surtin exactament el 45 % de persones favorables al govern municipal?
  2. Quina és la probabilitat que el percentatge de persones de la mostra favorables a l'alcalde estigui en l'interval [40 %, 50 %]?
    (Vegeu que aquest enunciat es podria formular, de manera equivalent, dient que volem saber el nivell de confiança de la previsió "el percentatge serà aproximadament del 45 % amb un marge d'error del 5 %".)
  3. És gaire probable que a la mostra, si està ben triada, hi pugui sortir una majoria de persones favorables a l'alcalde?
  4. Si l'ajuntament pretén fer una previsió a partir de la mostra dient que "la majoria dels enquestats estaran a favor nostre", quin risc té aquesta predicció?
  5. Quina previsió podem fer que comenci dient "Hi ha més del...% d'opinions favorables a l'alcalde" si volem fer la predicció amb un nivell de confiança del 80 %?
  6. Quin és l'interval de tolerància (o de confiança) en la realització de l'enquesta que s'ha plantejat en aquest exemple si es vol treballar amb un nivell de confiança del 95 %?
    (Aquesta pregunta equival a estudiar quina previsió podem fer per al "percentatge més habitual de persones favorables a l'alcalde que sortiran a la mostra" si admetem un risc màxim d'equivocar-nos del
    5 %.)

Vegeu que el model per a aquesta experiència aleatòria és la distribució binomial
B
(n = 100, p = 0,45).

Per tot el que heu treballat a la pràctica anterior, ja sabeu que tenim dues maneres d'enfocar el problema: amb la construcció i observació de la taula de la distribució binomial o amb el càlcul, pas per pas, només de les dades que ens interessen.

Podeu, doncs, obrir el llibre DISTRIBUCIONS-DISCRETES.XLS que heu elaborat a la pràctica anterior. Al full Binomial, poseu 0,45 a la cel·la A2 i 100 a la cel·la A4. Comentarem les respostes a les qüestions plantejades amb l'ús d'aquesta taula i de les fórmules DISTR.BINOM i BINOM.CRIT.

  1. Heu de mirar la cel·la C47 de la taula o bé escriure la fórmula
    =DISTR.BINOM(45; 100; 0,45; 0) [Recordeu que els arguments són: nombre d'èxits de què volem trobar la probabilitat; nombre de proves; probabilitat d'èxit; acumulat o no, i que, en cas de dubte sobre la sintaxi podeu fer Insertar|Función.]
    Així trobareu la resposta, que arrodonint és 0,080. Potser pensareu que és un valor molt petit, però és que en realitat les enquestes no pretenen trobar valors concrets, sinó fer estimacions relatives a intervals.

  2. Ara ja volem calcular la probabilitat d'un interval. Com que el 40 % i el 50 % de persones de la mostra són 40 i 50 (i aquests valors estan inclosos), si indiquem amb X el nombre de persones de la mostra favorables a l'ajuntament, heu de calcular p[X 50] – p[X 39]. Podeu fer-ho amb la fórmula =DISTR.BINOM(50; 100; 0,45; 1) – DISTR.BINOM(39; 100; 0,45; 1) o bé sumar el rang C42:C52 de la taula de valors que teniu al full de l'Excel. Recordeu que si teniu activat Ver | Barra de Estado | Suma, només seleccionant el rang podeu llegir la suma a la part inferior de la pantalla. La resposta és 0,731 o bé una probabilitat del 73,1 %. Aquest és el nivell de confiança amb què es pot fer la predicció "a la mostra sortirà el 45 % de persones favorables a l'ajuntament, amb un marge d'error/variabilitat del 5 %".

  3. És poc probable que es pugi fer aquesta "trampa", però a causa de l'atzar, pot ser que succeeixi. A la taula hem de fer 1 – D52 o bé sumar el rang C53:C102 i per fórmules seria = 1-DISTR.BINOM(50; 100; 0,45; 1). La resposta és una probabilitat del 13,5 %, però més avall veureu que si s'augmenta la mida de la mostra, aquesta probabilitat es fa molt més petita.

  4. És una reflexió entorn a la resposta anterior: el risc d'error/equivocació seria del 86,5 % (el contrari de la probabilitat d'encert, és clar)

  5. L'esdeveniment "Hi ha més de x persones favorables" és el contrari de "Com a màxim x–1 persones seran favorables", que és allò que calcula la funció de distribució o probabilitat acumulada. Si el nivell de confiança o probabilitat d'encert del primer enunciat ha de ser superior al 80 %, la del segon ha de ser inferior al 20 % (però el més propera al 20 % possible). Podem mirar la columna D del full de càlcul i veurem que aquesta probabilitat acumulada correspon al valor 40 (el 40 % de la mostra). És a dir, que si l'alcalde vol tenir un nivell de confiança del 80 % (i això ja comporta tenir un risc d'error del 20 %) l'enunciat més optimista que pot fer és: "Més del 40% de persones estan a favor de la gestió de l'equip de govern".
    La fórmula que respon a la qüestió que ara ens ocupa és: =BINOM.CRIT(100; 0,45; 0,2), que dóna com a resultat 41; és a dir, 41 persones o més, equivalent a més del 40 %.

  6. En aquest cas, recordeu-ho, donarem la resposta centrada en la mitjana o el valor esperat, 45 persones. Hi ha, fonamentalment, dues maneres de fer-ho:
    • La més semblant a la manual seria estudiar els rangs centrats a la cel·la C47 de la taula, a saber, C46:C48, C45:C49... fins que se'n trobés un que sumés més de 0,95. Si ho feu, veureu que el que correspon a l'interval de valors [36, 54] té una probabilitat total del 94,43 %. Encara no ens serveix! Hem de prendre l'interval [35, 55] (rang de la taula C37:C57), que dóna una probabilitat d'encert o nivell de confiança del 96,57 % (és que en aquest cas no podem trobar exactament el 95 % com a valor de la probabilitat d'un interval centrat en la mitjana).
    • L'altra manera correspon al que ja s'ha comentat anteriorment i a buscar el nombre que correspon a una probabilitat acumulada superior al 95 % i el nombre més gran que té una probabilitat acumulada inferior al 5 %. Els nombres que interessen (extrems de l'interval de tolerància/confiança) són =BINOM.CRIT(100; 0,45; 0,025) i =BINOM.CRIT(100; 0,45; 0,975). Arribeu, naturalment, al mateix resultat.
    Si formulem la conclusió d'aquest apartat amb el llenguatge de les enquestes, tenim:
    • L'interval de confiança corresponent a un nivell de confiança del 95 % és
      [35 %, 55 %].
    • O, equivalentment: amb un nivell de confiança del 95 %, (o risc d'error/equivocació del 5 %) podem fer la predicció que sortirà el 45 % de persones favorables a l'ajuntament amb un marge d'error/variabilitat de 10 %.

De seguida sorgeix la pregunta: "I com es pot abaixar el marge d'error?"

Augmentant la mida de la mostra!

 

Pràctica Augmentem la mida de la mostra i millorem els resultats
   

Una nova enquesta: som encara en una població en què només el 45 % de persones són favorables a la gestió municipal. Se selecciona ara una mostra de 500 persones i se'ls passa una enquesta, de manera independent a una persona i una altra. Quines són, en aquestes condicions, les respostes a les qüestions a) - f) estudiades anteriorment?

Cal repetit tot el que s'ha fet, però posant 500 a la cel·la A4 del full Binomial del llibre DISTRIBUCIONS-DISCRETES.XLS o bé, si treballeu amb fórmules, substituint els 100 que representaven el nombre de proves del model binomial per 500.

Podeu pensar, primer de tot, que el valor esperat (o mitjana de la variable aleatòria) que correspon al 45 % de 500 és 225. Tot seguit, podeu comprovar que les respostes són:

  1. En aquest cas, 0,0358. Com és natural, aquest valor tan concret ha disminuït, però això no és representatiu; el que cal és que ens fixem en els intervals.
  2. Hem d'estudiar l'interval [200, 250]. Probabilitat: 97,8 %.
  3. Majoria: més de 250. Probabilitat: 0,011. Només l'1,1 %.
  4. Com en el cas anterior el risc d'equivoació és el contrari de la probabilitat d'encert. Serà del 98,9%.
  5. Resulta més de 215 persones, és a dir, el 43 %; però aquest no és el tipus d'estimacions que es fan a les enquestes.
  6. Resulta l'interval [203, 247], o sigui, [40,6 %, 49,4 %], que també es pot enunciar com a 45 % 4,4 %.

Adoneu-vos, doncs, que el fet d'augmentar la mida de la mostra de 100 a 500 persones ha fet que el radi de l'interval de tolerància/confiança disminueixi del 10 % al 4,4 %.

Hem d'aumentar més la mida de la mostra! Efectivament, però ja hem comentat que això fa de vegades impossibles els càlculs amb la distribució binomial. Hem d'esperar el mòdul següent i treballar amb la distribució normal!  

 

Pràctica Acabem amb una consideració
   

Hi ha una diferència fonamental entre el que s'ha treballat en aquesta pràctica i la realització d'una enquesta d'opinió per fer una estimació.

Ara hem estat treballant en una situació de laboratori: partíem d'una situació coneguda (la proporció de persones favorables ben determinada) i fèiem simulacions d'enquestes per estudiar la variabilitat dels resultats observats pel que fa a la proporció mostral.

Quan es fa una enquesta d'opinió, la situació és justament la contrària: es fa una sola observació i, a la vista de la proporció observada a la mostra, es vol fer una estimació del valor (desconegut) de la proporció de persones que manifesten una determinada característica.

Ara bé, el coneixement del model teòric (la distribució binomial) és el que ens permet, al mòdul 7, afrontar decididament el problema de l'estimació d'una proporció.

Per acabar, comentarem que a la bibliografia estadística es feia, fa un temps, una clara distinció en la denominació entre interval de tolerància (expressió que feia referència sempre a problemes de probabilitat) i interval de confiança (d'aplicació a les conclusions de les estimacions fetes a partir d'un mostratge). Actualment, però, en tots dos casos es parla d'interval de confiança.

 
Amunt