|
|||||||||||||||||
Pràctica |
|
|
Exercicis
|
||||||||||||||
L'estadística bivariant |
|
Glossari
|
|||||||||||||||
Correlació i regressió: aspectes a tenir en compte | |||||||||||||||||||||||||||||||||
En aquesta pràctica treballereu més aspectes relacionats amb la correlació i la regressió lineals. Concretament, haureu de:
|
|||||||||||||||||||||||||||||||||
Regressió lineal i subpoblacions | |||||||||||||||||||||||||||||||||
Torneu a obrir el fitxer DADES74.XLS. A la pràctica 4, havíeu arribat a representar gràficament el núvol de punts i la recta de regressió per a les variables PES1 i PES3 (pes dels nois i les noies de 14 anys i el pes corresponent als 16 anys). Ens havíem preguntat què passaria si estudiéssim per separat el grup de noies i noies. Fem-ho. Per començar, cal ordenar les dades respecte al sexe:
Fixeu-vos que les dues rectes són gairebé paral·leles. Podeu calcular el coeficient de correlació lineal per a cada sexe, fent servir la funció =COEF.DE.CORREL( ), com heu fet en l'apartat anterior però aplicant-la als rangs de les noies i dels nois, respectivament. Compareu-los amb el que sortia per a tot el conjunt de valors. A continuació, podeu fer prediccions de valors, com a la pràctica 4, però tenint en compte el sexe de cada individu. En aquest cas, cal que feu servir la recta de regressió corresponent a cada subpoblació.
En definitiva, els resultats són: Fixeu-vos en la diferència entre les prediccions que es fan per a les noies, les que es fan per als nois i les que havíeu fet globalment. |
|||||||||||||||||||||||||||||||||
Importància dels valors atípics en l'estudi de la correlació | |||||||||||||||||||||||||||||||||
Els bitllets d'euro són iguals per a tots els països que s'han incoporat a la unió monetària europea. La taula següent en dóna les característiques:
A partir d'aquesta taula podeu fer un gràfic molt personalitzat, semblant al que es mostra seguidament: Donem tot seguit, a títol orientatiu, les indicacions detallades del procediment que us permetrà elaborar el diagrama anterior:
Ara podeu estudiar la correlació lineal entre les variables Valor, Ample i Alt.
Tot seguit s'analitzen i es comenten aquests valors.
En canvi, el coeficient de correlació valor/alt és més baix... Però és que si mireu la taula veureu de seguida que els bitllets de 200 € i 500 € són atípics pel que fa a l'ample, que no segueix la cadència creixent dels anteriors, sinó que repeteix l'ample del bitllet de 100 €. Hem de tenir molt present que l'existència de valors atípics condiciona en gran manera el valor del coeficient de correlació, sobretot si, com en aquest cas, estem treballant amb un conjunt poc nombrós de dades. Què succeeix si fem l'estudi de la correlació lineal sense tenir en compte aquests dos valors atípics?
Adoneu-vos de com han augmentat tots els valors després de suprimir
els dos valors atípics! |
|||||||||||||||||||||||||||||||||
Un exemple de regressió no lineal | |||||||||||||||||||||||||||||||||
Dèiem més amunt que el coeficient de correlació valor/ample, que és la parella de variables que apareix al gràfic que s'ha donat com a exemple, és alt. En canvi, l'aspecte del núvol de punts no és pas el d'una recta. Realment, l'aspecte és el de la funció logarítmica. Aprofitem l'exemple per analitzar un cas de regressió no lineal.
Podeu veure, gràficament, com la regressió logarítmica s'ajusta molt bé al núvol de punts. Per arribar a aquest gràfic, només s'ha de seguir el procediment explicat en la pràctica 4, a l'hora de dibuixar la recta de regressió, i triar el model logarítmic en comptes del lineal. Si volguéssim dissenyar un bitllet de 300 €, quin ample li donaríem? Per contestar aquesta pregunta, podeu fer servir, directament, la fórmula que apareix al gràfic anterior o bé fer servir la funció PRONOSTICO entre les variables Logvalor i Ample:
Podeu comprovar que, amb els dos mètodes, surt el mateix resultat. |
|||||||||||||||||||||||||||||||||
D'on ve la denominació de regressió? | |||||||||||||||||||||||||||||||||
En aquest estudi final us suggerim de repassar diversos conceptes i procediments ja treballats anteriorment i us comentem l'experiència de Galton que dóna nom a la regressió. Fareu servir el fitxer TERCERJM.XLS.
Podeu observar que la mitjana d'aquesta última variable -alçada mitjana dels fills- és superior al de la primera - alçada mitjana dels pares. És allò que es diu que "la raça tendeix a millorar". En canvi, l'experiència de Galton postula una regressió. Potser la denominació sembla contradictòria, però és que aquest és un altre concepte. Si per un moment suposem que la població dels pares és una mostra representativa de la població catalana, veureu que es pot considerar l'alçada mitjana de la generació paterna igual a 165,2 cm, que és el resultat que heu obtingut a la cel·la H2. A continuació, ordeneu les dades respecte a la variable ALMIG.
D'aquesta manera heu ordenat les dades respecte a l'alçada mitjana dels pares.
Veureu que la mitjana d'alçades dels fills de pares baixos ha augmentat i s'ha acostat a la mitjana estimada de la població global, i veureu també que la mitjana d'alçades dels fills de pares alts ha disminuït i s'ha acostat també a la mitjana de la població. Això és el que afirma l'experiment de Galton de la regressió filial: la població tendeix a uniformitzar-se perquè les mitjanes per subpoblacions regredeixen cap a la mitjana de la població. L'exemple anterior, doncs, ho il·lustra.
A la pràctica següent, tornareu a treballar aquesta situació pràctica. |
|||||||||||||||||||||||||||||||||