Enrera
Mòdul 3
Estadística amb el full de càlcul: usos didàctics  
  Pràctica 1 2
3
4
5
6
 
 
 
Exercicis
Exercicis
  L'estadística bivariant Documentació    
 
   
Glossari
Glossari
 
 
 
Relacions entre variables numèriques
   

En aquesta pràctica revisareu els procediments gràfics i numèrics que permeten l'estudi de les relacions entre variables quantitatives. Els objectius són, doncs: 

  • Representar gràficament els núvols de punts.
  • Calcular i interpretar la covariància i el coeficient de correlació lineal.
  • Observar la importància de les subpoblacions en el càlcul del coeficient de correlació lineal.

Aquestes qüestions es treballaran des del punt de vista descriptiu i es completen a les pràctiques següents amb l'estudi de la regressió i la seva utilitat per a la predicció de valors. 

Per altra banda, en els darrers mòduls d'aquest curs, es plantejaran amb més rigor alguns aspectes inferencials.

 
Pràctica
Núvol de punts o diagrama de dispersió
   
 

En aquesta pràctica treballareu amb el fitxer IRIS.XLS, que conté dades de flors (lliris) de tres varietats diferents. Estudiarem, en primer lloc, el comportament conjunt de les variables AMPLPETA i LONGPETA que recullen, respectivament, les mesures de l'amplada i la longitud dels pètals.

  • Recupereu el fitxer IRIS.XLS. Fixeu-vos com que té un únic full anomenat Iris.
  • Seleccioneu les dades de les variables LONGPETA i AMPLPETA, és a dir, el rang D2:E151.
  • Accediu a Insertar | Gráfico i trieu el tipus de gràfic anomenat XY (Dispersión). Premeu Siguiente dos cops.
  • A la fitxa Títulos, escriviu Pètals com a títol del gràfic, Longitud a Eje de valores (X) i Amplada a Eje de valores (Y). A la fitxa Leyenda, desactiveu Mostrar leyenda. A la fitxa Líneas de división, desactiveu Lineas de división principales. Premeu Terminar.
  • Situeu el gràfic en el rang H2:L21, aproximadament.
  • Seleccioneu el rectangle gris (Zona de trazado) i esborreu-lo.
  • Seleccioneu un dels punts del núvol i premeu el botó dret del ratolí. Trieu l'opció Formato de serie de datos.
  • Accediu a Tramas | Marcador i trieu un estil per als punts circular amb una mida més petita. Premeu Aceptar.

Ja teniu dibuixat el núvol de punts que relaciona les variables amplada i longitud dels pètals. Si analitzeu el diagrama que en resulta, s'observa una forta relació entre les dues variables i l'existència de subpoblacions.

Núvol de punts

Analitzeu, a continuació, la relació que hi ha entre les variables LONGSEPA i AMPLSEPA (mesures de la longitud i de l'amplada dels sèpals). Per estudiar la relació gràfica entre aquestes dues variables, cal repetir el procediment anterior, seleccionant, primerament, els valors de les variables (rang B2:C151). Situeu el gràfic en el rang M2:Q21.

Núvol de punts

Segurament, les conclusions que podeu treure, en aquest cas, són diferents. En general, i sense tenir en compte les varietats, heu observat que sembla que hi ha una correlació lineal acceptable entre la longitud i l'amplada dels pètals; és a dir, com més gran és el pètal, també més ample i la relació es pot explicar per un model lineal. En canvi en el cas dels sèpals, la correlació lineal és força baixa. En el segon apartat de la pràctica, confirmareu o no aquestes conclusions inicials.

Ara bé, no es veuen, a simple vista, on estan situades les tres varietats diferents de flors. L'Excel permet destacar en el gràfic els punts de cada subpoblació i això ens podrà ajudar en una anàlisi de les relacions entre variables.

Per poder seguir aquest procediment, és imprescindible que les dades estiguin ordenades respecte a les varietats. En el full Iris ja és així; altrament hauríem de començar per l'ordenació de les dades de manera que les de cada varietat definissin un rang rectangular (vegeu la pràctica 2 del mòdul 1).

En primer lloc modificarem el darrer gràfic que hem vist, que tenim a M2:Q21 i que relaciona visualment les variables LONGSEPA i AMPLSEPA, però ara es diferenciaran les dades que corresponen a cada varietat de lliris.

  • Cliqueu a l'interior de la finestra gràfica i, prement el botó dret del ratolí o bé accedint al menú Gráfico, trieu l'opció Datos de origen | Serie.
  • En aquest moment, es consideren totes les dades sense cap classificació. Entreu a la casella Nombre el nom Varietat 1. Canvieu el contingut de Valores de X i de valores de Y pels rangs que corresponen a les dades de les flors de la varietat 1, és a dir, =iris!$B$2:$B$51 i =iris!$C$2:$C$51, respectivament. Aquests rangs els podeu entrar pel teclat o bé fent servir el botó de manera similar a les pràctiques anteriors. Premeu Agregar.

A continuació, haureu de fer el mateix per les altres dues varietats.

  • Entreu a Nombre el nom Varietat 2. Canvieu el contingut de valores de X i de valores de Y pels rangs que corresponen a les dades de les flors de la varietat 2, és a dir, =iris!$B$52:$B$101 i =iris!$C$52:$C$101, respectivament. Premeu Agregar.
  • Entreu ara a Nombre el nom Varietat 3. Canvieu el contingut de valores de X i de valores de Y pels rangs que corresponen a les dades de les flors de la varietat 3, és a dir, =iris!$B$102:$B$151 i =iris!$C$102:$C$151, respectivament. Premeu Aceptar.
  • Amb el botó dret del ratolí accediu a Opciones de gráfico | Leyenda i activeu mostrar leyenda. Premeu Aceptar.
  • Clicant sobre el requadre de la llegenda i fent servir el botó dret del ratolí, podeu fer que la mida (Fuente) del rètol sigui més petita.
  • Clicant sobre un punt de cada color, amb el botó dret del ratolí, podeu accedir a Formato de serie de datos | Tramas per canviar la forma i el color dels punts de cada varietat.

Us ha quedat un gràfic semblant a aquest:


Núvol de punts amb subpoblacions

Fixeu-vos com ara s'observen millor les tres subpoblacions. També podeu observar com hi ha dos punts de les varietats 2 i 3 que estan allunyats de la resta; intuïtivament podríem dir que són valors atípics en el conjunt de la varietat corresponent.

Si feu el mateix amb les variables LONGPETA i AMPLPETA (que corresponen a les columnes D i E), obteniu un gràfic com aquest:


Núvol de punts amb subpoblacions

Podeu comparar les distribucions de les diferents subpoblacions en cada cas; ben segur que la valoració intuïtiva de la possible correlació no serà la mateixa pels punts d'un color o pels punts d'un altre o globalment.

 

 
Pràctica
Correlació lineal
   
 

De seguida que s'ha fet una ullada inicial als gràfics anteriors, sorgeix la necessitat de tenir una confirmació numèrica de les conclusions intuïtives a què s'ha arribat. El recurs més emprat amb aquesta finalitat és el coeficient de correlació lineal (o de Pearson), amb totes les observacions que cal tenir presents sobre el seu significat.

En l'Excel, hi ha dues maneres de calcular el coeficient de correlació lineal. La primera consisteix a fer servir la funció =COEF.DE.CORREL(;), que podeu entrar directament en una cel·la com una fórmula i que podeu trobar, junt amb les altres funcions estadístiques, accedint a Insertar | Función i triant Estadísticas del desplegable Categoria de la función. Calculem aquest coeficient per als pètals i per als sèpals:

  • Entreu a H23 del full Iris el rètol Corr. lin., (fixeu-vos que situeu el rètol a sota del gràfic que teniu a H2:L21, que relaciona LONGPETA i AMPLPETA.)
  • Entreu a I23 la fórmula =COEF.DE.CORREL(D2:D151;E2:E151), que calcula el coeficient de correlació lineal de les variables LONGPETA i AMPLPETA.
  • Copieu el rètol anterior a M23, (en aquest cas a sota del segon gràfic que teniu a M2:Q21)
  • Entreu a N23 la fórmula =COEF.DE.CORREL(B2:B151;C2:C151), que calcula el coeficient de correlació lineal de les variables LONGSEPA i AMPLSEPA.

A partir d'aquests valors, podeu confirmar les observacions intuïtives que havíeu fet.

Una altra manera de calcular aquest coeficient consisteix a fer servir una de les opcions d'Herramientas | Análisis de datos que, com sempre, ha d'estar ben instal·lada i activa.

  • Accediu a Herramientas | Análisis de datos. Trieu l'opció Coeficiente de correlación. Premeu Aceptar.
  • Entreu el rang B1:E151 (és a dir, les dades de les quatre variables) a Rango de entrada. Activeu l'opció Rótulos en la primera fila. Entreu H25 a Rango de salida. Premeu Aceptar.

Apareix la taula següent:

Aquí teniu tots els coeficients de correlació lineal que es donen entre aquestes quatre variables. Fixeu-vos en els valors que ja havíeu calculat abans i en les correlacions que apareixen entre les variables que no havíeu estudiat.

 
Pràctica Correlació lineal i classificació en categories
   
 

En l'anàlisi de la correlació entre les variables del fitxer IRIS hem vist certa tendència a l'associació negativa entre algunes variables. No sembla gens normal aquest fet entre les mesures de les magnituds d'una mateixa flor. Això voldria dir, per exemple, que com més ample sigui el pètal hi ha tendència a que el sèpal sigui més estret, fet que no sembla que tingui justificació.

En aquest apartat analitzarem aquest resultat a la llum del fet que en la població hi ha tres subpoblacions definides per tres varietats diferents de flors. A la vista dels diagrames de dispersió amb les varietats diferenciades sembla del tot necessari aquest estudi: les varietats semblen, a priori, molt difrenciades l'una de l'altra

  • Accediu a Herramientas | Análisis de datos. Trieu l'opció Coeficiente de correlación. Premeu Aceptar.
  • Entreu el rang B2:E51 (les dades de la primera varietat) a Rango de entrada. Cal recordar que si les dades no estan ordenades respecte a la varietat, cal fer-ho (vegeu la pràctica 2 del mòdul 1). Desactiveu l'opció Rótulos en la primera fila. Entreu a Rango de salida la referència d'una cel·la (H32, per exemple), a partir de la qual es pugui escriure la matriu de correlacions. Premeu Aceptar.
  • Copieu el contingut del rang I25:L25 a I32:L32 i del rang H26:H29 a H33:H36. Són els noms de les variables.
  • Entreu a H32 el rètol Varietat 1. Doneu-hi el color vermell.
  • Repetiu aquest procediment per a les dades de la varietat 2 (rang B52:E101) i de la varietat 3 (rang B102:E151), col·locant les tres matrius una a sota de l'altra, amb els noms de les variables i el rètol de cada varietat.

Heu arribat a :

Observeu que ja no hi ha cap coeficient de correlació negatiu; si ens restringim a l'anàlisi de les subpoblacions, la tendència a l'associació és sempre positiva (de vegades feble, però així ja és normal).

  • Veiem amb aquest exemple la influència que pot tenir l'existència de subpoblacions en el càlcul de la correlació: aquest coeficient, calculat globalment, pot ser que no representi res. La pràctica 6 us permetrà fer activitats interactives que us ajudaran a entendre-ho millor.

Fixem-nos en les variables LONGSEPA i AMPLSEPA que globalment no mostraven gens de relació. Si ens restringim a les flors de la varietat 1, la correlació entre elles és 0,742; per a la varietat 2, la correlació corresponent és 0,382, i per a la varietat 3, finalment, és 0,279. 

A l'altre extrem de constatació de la (possible) no-significativitat del coeficient de correlació en un col·lectiu que té subpoblacions, parem atenció en les varietats LONGPETA i AMPLPETA. Globalment, el coeficient de correlació és 0,963; potser se'ns acut de dir: com que sembla normal, hi ha una gran relació entre aquestes dues variables. Fal·làcia? Potser sí. Per a la varietat 1, correlació 0,332; varietat 2, correlació 0,787; varietat 3, correlació 0,322. Les circumstàncies especials de les dades fan que una tendència a l'associació positiva (que és certa, però més aviat feble) doni una aparença global d'un grau de relació extraordinari.

  • Hem vist uns gràfics que permeten palesar, ràpidament, l'existència de subpoblacions que és imprescindible considerar en un estudi estadístic. Hem de concloure que, abans de fer càlculs, sempre és recomanable analitzar amb deteniment un diagrama de dispersió (núvol de punts). Així, farem els càlculs més adients i entendrem millor què ens diuen (o no ens diuen) els nombres. 
   
Pràctica
Covariància i correlació lineal
 
 

En el document de fonaments teòrics d'aquest mòdul s'ha comentat el fet que la covariància entre dues variables estadístiques depèn de manera decisiva de les unitats amb què s'han expressat les variables i que, per buscar un paràmetre que expliqui també la variació conjunta, però passant per sobre de les unitats, s'introdueix el coeficient de correlació de Pearson. En aquesta part de la pràctica ho fareu visual amb les variables ALT1 i PES1 del fitxer DADES74.XLS, que estan expressades respectivament en centímetres i en quilograms.

En primer lloc, definireu dues noves variables que correspondran aproximadament al pes i a l'altura expressats respectivament en lliures (i decimals de lliura) i en peus (i decimals de peu).

  • Recupereu el fitxer DADES74.XLS.
  • Inseriu dues noves columnes entre la D i la E.
  • Entreu el títols WEIGHT1 i HEIGHT1 a les noves E1 i F1. Feu més ample aquestes columnes perquè hi càpiguen.
  • Entreu a E2 la fórmula  =B2/0,4  i a F2 la fórmula  =D2/30,3. Copieu-les sobre el rang E3:F111. Així ja teniu el pes i l'altura expressats en lliures i peus, ja que 1 lliura = 0,4 kg i 1 peu = 30,3 cm.
  • Accediu a  Herramientas | Análisis de datos | Covarianza.
  • Entreu a Rango de entrada el rang B1:D111. Així calculareu les covariàncies entre el pes, l'altura i l'envergadura, expressats en unitats del sistema mètric decimal. Activeu l'opció Rótulos en la primera fila. Entreu a Rango de salida la referència a una cel·la del full Resum, que heu creat en la pràctica 6 del mòdul 2, a partir de la qual pugui quedar escrita la matriu de covariàncies. Premeu Aceptar.
  • Repetiu el procediment ara per les variables WEIGHT1 i HEIGHT1. Observeu com les covariàncies entre el pes i l'altura depenen de les unitats en què estan expressades (peu·lliura i, abans, cm·kg).
  • Si ara repetiu el procediment per als coeficients de correlació lineals (fet a l'apartat anterior) per a les variables altura i pes en diferents unitats (és a dir PES1 i ALT1 per una banda i WEIGHT1 i HEIGHT1 per una altra), observareu que surten idèntics.
Guardeu el llibre d'Excel DADES74.XLS tal com el teniu ara, amb les noves variables definides; serà amb aquestes referències com trobareu indicada la feina que heu de fer en la pràctica 4.
 
Amunt