D128. Mòdul 3. Documentació 1. Estadística amb l'Excel

Mòdul 3

Estadística amb l'Excel

Pràctica

Exercicis

Glossari

L'estadística bivariant

La recollida de dades bivariants (o multivariants) en una població té com una de les seves principals finalitats l'estudi conjunt de dues variables. En estudis d'aquest tipus es considera com a fonamental la recerca de relacions entre les variables que permetin inferències posteriors.

Cal comentar d'antuvi la diferència essencial entre la relació funcional i la relació estadística: no s'ha de tendir a buscar fórmules estrictes, sinó, més aviat, cal pensar en tendències en l'associació de valors que permeten predir què pot succeir quan s'examinen aquestes mateixes variables en una altra població.

Pel que fa a la recollida de dades d'una distribució estadística bivariant, hem de fer notar que ha de ser feta de tal manera que per cada individu de la població s'hagi observat i mesurat el valor de dues (o més) variables que s'han enregistrat associades. Analitzarem un exemple per aclarir aquesta idea.

Imaginem que es vol fer un estudi per buscar relacions entre el rendiment pel que fa a la llengua catalana i a la llengua castellana.

Cal recollir les notes. Si ens donen les taules següents, recollides en un conjunt de 339 alumnes de tercer d'ESO:

Nota de
català Freqüència
absoluta

Insuf. 120

Aprovat 168

Not./Exc. 51

Nota de
castellà Freqüència
absoluta

Insuf. 158

Aprovat 139

Not./Exc. 42

no es pot dir de cap manera que volem fer estadística bivariant; l'única cosa que podríem fer és una descripció global de cada variable.

Amb les taules anteriors no podríem relacionar les variables; per fer-ho, necessitaríem saber, per exemple, si les bones notes de català corresponen en bona part a les mateixes persones que els excel·lents de castellà o no; si el conjunt d'insuficients en una matèria i l'altra té una intersecció molt gran o no... cosa que de les taules anteriors no es pot deduir.

Tot seguit, comencem l'estudi pràctic de presentació de dades de l'estadística bivariant.

Taules creuades

Per fer estadística bivariant cal presentar els resultats de la tabulació en forma de taules creuades (dites també de doble entrada o de contingència), en què es fa avinent la manera de recollir les dades: dades emparellades; sobre cada individu de la població estadística en estudi s'han observat els valors de dues variables.

Les categories en què s'ha tabulat una variable queden expressades al marge esquerre, i les de l'altra variable, al marge superior de la taula, les caselles de la qual recolliran les freqüències dels valors creuats per reflectir la informació relativa a la distribució conjunta de les dues variables que es consideren.

Vegeu un exemple de taula creuada que es correspon a les que hem analitzat anteriorment:

Nota de català	Nota de castellà
Nota de català	Insuf	Aprov.	Not./Exc.	Total
Insuf.	98	22	0	120
Aprov.	59	97	12	168
Not./Exc.	1	20	30	51
Total	158	139	42	339

En una taula creuada s'inclouen sempre una fila i una columna de totals; aquestes distribucions de totals reben el nom de distribucions marginals, que són les que donàvem a l'apartat d'introducció.

Adoneu-vos que, a partir de les dades creuades, es poden construir les distribucions marginals, però no al revés. Amb una taula creuada ja es poden estudiar les relacions entre les dues variables.

Per analitzar el comportament conjunt de les dues variables interessa constatar si hi ha una associació de valors, és a dir, si es pot observar que algun(s) valor(s) d'una variable tendeixen a aparèixer emparellats amb algun(s) valor(s) de l'altra variable. A l'exemple veuríem que els insuficients d'una matèria "tendeixen a ser" insuficients de l'altra; també els aprovats; també les bones notes... (i això és el que ens fa dir intuïtivament que "hi ha relació" entre els rendiments en les dues assignatures). Però també es pot veure que hi ha força discrepàncies. Tots aquests aspectes són els que no es podrien analitzar, de cap manera, només amb les distribucions marginals.

Per fer més acurada l'anàlisi d'una taula creuada, de vegades es presenten les dades no amb freqüències absolutes, sinó amb percentatges respecte del total de dades.
En d'altres ocasions interessa analitzar el comportament d'una variable per cada valor concret de l'altra, i llavors es presenta una taula en què s'han calculat els percentatges per files (que ens donen els perfils fila de la distribució) o bé els percentatges per columnes (i llavors apreixen els perfils columna.)

Vegeu la taula de percentatges per files corresponent a l'exemple que analitzem. Aquesta taula respon a la pregunta: Quin és el rendiment en llengua castellana segons la nota obtinguda en llengua catalana?

Nota de català	Nota de castellà (percentatges)
Nota de català	Insuf	Aprov.	Not./Exc.	Total
Insuf.	81,7	18,3	0	100 %
Aprov.	35,1	57,7	7,1	100%
Not./Exc.	2,0	39,2	58,8	100%
Total	46,6	41,0	12,4	100%

L'apartat següent mostra un altre exemple de la utilitat dels percentatges per files o per columnes per analitzar les relacions entre variables o la influència d'una sobre una altra.

Les taules creuades, tant amb freqüències absolutes o percentatges globals com les que mostren els percentatges per files o per columnes, es fan visuals amb els diagrames de barres combinats, ja presentats en el mòdul 1. Tant el treball amb taules creuades com la realització de diagrames de barres amb l'Excel es treballen a les pràctiques 1 i 2 d'aquest mòdul.

Causalitat o casualitat?

Ja hem dit que en els estudis bivariants es busquen relacions entre les variables i hem comentat que això no s'esdevé amb fórmules estrictes, sinó que cal pensar en tendències en l'associació de valors.

Hi ha dues maneres d'enfocar el problema de les relacions entre variables:

L'estudi de la independència entre variables si aquestes juguen un mateix paper. Aquest és l'estudi que es feia a l'apartat anterior; intuïtivament diríeu que no hi havia pas independència, sinó una forta relació.
En situacions en què es vol estudiar la influència d'una variable (de classificació o de control) sobre una altra variable (de resposta) es tendeix a examinar l'homogeneïtat de la variable de resposta respecte de la variable de classificació. Estem davant d'una clara utilitat dels percentatges per files (o per columnes segons com s'hagin situat les variables a la taula).

A més de veure un exemple d'aquest darrer enfocament del problema de les relacions entre variables, en aquest apartat comentarem la precaució amb què s'ha d'anar quan es desenvolupen estudis de relacions entre variables per analitzar correctament la realitat.

Es presenta seguidament un exemple, adaptat de Moore. S., Statistics and Controversies, on es dóna una visió simplificada d'una situació real.

Una universitat americana ofereix només dos cursos de postgrau, un d'enginyeria electrònica i l'altre de filologia. L'admissió a aquests cursos és molt competitiva i el col·lectiu feminista de la zona sospita que hi ha discriminació contra les dones en el procés d'admissió, perquè ha recollit aquesta taula:

	Aptes	No aptes	Total
Homes	40	40	80
Dones	20	40	60
Total	60	80	140

Hi ha alguna associació significativa entre l'admissió als cursos i el sexe de les aspirants i els aspirants? La resposta a aquesta pregunta és més fàcil si refem la taula anterior, però amb l'expressió de tants per cent per files.

	Aptes	No aptes	Total
Homes	50%	50%	100%
Dones	33,3%	66,7%	100%
Total	42,9%	57,1%	100%

La meitat dels homes que es presentaven han estat admesos, però, en canvi, només la tercera part de les dones! Sembla clar que hi ha discriminació! (És a dir, que la variable sexe té una influència clara sobre la variable apte / no apte.)

Ara mirarem més a fons el problema, aportant-hi dades noves.

La universitat respon que, tot i que es pot creure que l'associació de valors observada és correcta, el que no és cert és que sigui deguda a la discriminació, i per a justificar-ho presenta unes taules on es consideren els tres factors que intervenen, sexe, admissió o no, i també el curs al qual s'havia apuntat cadascú. Unes dades com aquestes es presenten com diverses taules de doble entrada, una per cada valor de la tercera variable. En aquest cas hi ha dues taules, una per cada curs de postgrau.

ENGINYERIA	Aptes	No aptes	Total
Homes	36	24	60
Dones	12	8	20
Total	48	32	80

FILOLOGIA	Aptes	No aptes	Total
Homes	4	16	20
Dones	8	32	40
Total	12	48	60

Adoneu-vos que realment aquestes dades concorden amb les inicials. La universitat simplement ha reproduït la taula inicial però desglossada per departaments, sense ajuntar-la en una de sola.

Vegem les taules de percentatges per files que permetran estudiar la influència del sexe en l'admissió. En aquest cas, tal com s'han presentat les taules, ens interessen els perfils fila.

ENGINYERIA	Aptes	No aptes	Total
Homes	60%	40%	100%
Dones	60%	40%	100%
Total	60%	40%	100%

FILOLOGIA	Aptes	No aptes	Total
Homes	20%	80%	100%
Dones	20%	80%	100%
Total	20%	80%	100%

Així, veiem que al curs d'enginyeria s'han admès el 60 % dels sol·licitants, tant pel que fa als homes com pel que fa a les dones. Semblantment passa a filologia: el 20 % d'admesos.

Per tant, és del tot clar que no hi ha associació entre el sexe i la decisió sobre l'admissió en cap dels dos cursos. Per veure això ens adonem que els percentatges per columnes són idèntics en un cas o en l'altre.

Com pot ser que si no hi ha associació de valors en cap dels dos cursos, quan s'ajunten les dades hi ha una aparença d'associació de valors home-apte i dona-no apta? Senzillament, és difícil entrar al curs de filologia on s'hi preinscriuen moltes dones; és fàcil ser admès al curs d'enginyeria, i aquest el demanen molts homes.

Tot i que l'exemple anterior pot semblar massa senzill per representar una situació real, sí que ens ha de servir per comprovar:

L'interès dels percentatges per files (o per columnes, segons la distribució de la taula) per analitzar una suposada relació entre dues variables. En el cas de taules que relacionen variables categòriques amb dos valors en cadascuna d'elles (taules 2 x 2) es pot donar una altra visió intuïtiva.
Que una pretesa relació que s'ha observat entre dues variables pot ser deguda a una interpretació errònia provocada per alguna altra variable (o factor extern) que influïa en ambdues i que no havia estat inicialment tingut en compte.

Moltes vegades s'intenten establir relacions de tipus causal entre dues variables. Convé observar que quan es volen establir associacions s'ha d'anar molt amb compte abans de treure una conclusió definitiva, que moltes vegades anirà molt més enllà del marc del treball estadístic, tal com ha quedat esquematitzat a l'exemple anterior.

Els gràfics següents mostren diverses situacions que es poden presentar quan hom troba que hi ha un lligam o associació entre dues variables A i B, que s'ha representat per la línia de punts:

Qualsevol experiència que tendeixi a establir relacions de causa-efecte entre variables ha de ser repetida en circumstàncies ben diferents; així, es pot constatar que, realment, a la vista de les dades recollides, és plausible que determinats valors d'una de les variables estiguin efectivament associats amb determinats valors de l'altra, però, al mateix temps, fer avinent que no es tracti de falses aparences o que no hi hagi un factor extern que influeixi en les dues variables estudiades. És clàssic, en aquest sentit, l'exemple d'una població nòrdica on, degut a l'època de les migracions de les aus i al ritme de natalitat, hi ha una correlació molt elevada entre el nombre de naixements cada mes i el nombre de cigonyes que nien al campanar d'aquella població. Podem deduir d'això que les cigonyes porten els nens?

Abans de passar a fer càlculs per estudiar les relacions entre variables hem de tenir molt en compte el que s'acaba de dir; que no ens passi que els càlculs numèrics que exposarem als apartats següent ens enceguin i no analitzem prou bé la realitat... fins al punt que encara hi ha un altre tipus d'associació de variables que es pot donar a la vista dels números: uns valors que mostrin una aparença de lligam o relació poden ser fruit no de la causalitat, sinó de la casualitat!

Correlació

En aquest apartat presentarem des d'un punt de vista conceptual els procediments gràfics i numèrics per estudiar la relació entre dues variables numèriques. Per veure com es poden dur a la pràctica amb l'Excel, consulteu la pràctica 3 d'aquest mòdul.

Per a l'estudi inicial es recomana sempre fer en primer lloc un gràfic, anomenat sovint núvol de punts, que permet fer visual el comportament global d'una distribució bidimensional de dues variables numèriques.

El diagrama de dispersió (o bé núvol de punts) consisteix en una representació sobre un sistema d'eixos en què es dibuixa un punt (o un altre símbol) de coordenades (x_i, y_i) per cada individu de la població o mostra estudiada, i x_i és el valor observat de la primera variable i y_i el valor de la segona variable corresponent a aquest individu.

A la vista del núvol de punts, es poden fer ben avinents algunes característiques de la població que poden fer necessari un estudi especial. Per exemple, l'existència de dues o més sub-poblacions diferenciades que calgui treballar separadament.

La primera observació que s'acostuma a fer per estudiar les relacions entre variables numèriques és la de constatar si hi ha una tendència a l'associació dels valors grans d'una variable amb els valors grans de l'altra (associació positiva) o bé dels valors grans d'una variable amb els valors petits de l'altra (associació negativa) o bé no es constata cap associació significativa de valors.

Per posar de manifest alguna d'aquestes associacions es recomana dibuixar, pel punt mitjà de la distribució, paral·leles als eixos. Hi ha associació positiva quan la major part dels punts del núvol queden al primer i al tercer quadrant determinats per aquestes paral·leles; hi ha associació negativa quan la major part de punts queden al segon i al quart quadrant; si els punts es dispersen per tots els quadrants, no s'observa relació. Vegeu la pràctica 6.

Després de comprovar que els valors d'una variable s'associen amb determinats valors de l'altra, hom es pregunta de seguida si es podria mesurar numèricament el grau de relació o interdependència que se sospita que hi ha entre dues variables. Per això es defineixen els coeficients de correlació.

En estadística es consideren diversos coeficients d'aquest tipus, que depenen de la manera com s'estudiï la possible relació, però que tenen diverses característiques comunes:

Varien entre -1 i + 1.
El valor absolut del coeficient mesura el grau d'associació observat. Com més gran sigui el valor absolut, més gran la relació entre les variables. En el marc de les proves de contrast d'hipòtesis que s'estudien en els tractats d'estadística superior se'n poden trobar alguns que permeten inferir a partir del coeficient calculat (en una mostra) el grau de significació de la relació entre les variables (en la població).
El signe del coeficient indica com és la tendència observada en la relació:
- Positiu: valors grans d'una variable s'associen amb valors grans de l'altra, i valors petits d'una variable s'associen amb valors petits de l'altra.
- Negatiu: valors grans de la primera variable s'associen amb valors petits de la segona i recíprocament.

Tot seguit, introduirem conceptualment alguns d'aquests coeficients de correlació. En primer lloc, veurem el coeficient de correlació lineal (de Pearson), possiblement el més emprat en estudis superiors. També s'empren alguns coeficients de correlació no paramètrics, que tenen en compte només l'ordenació de valors i, doncs, corresponen a un tipus de treball d'estil anàleg al que es fa amb la mediana i els quartils. S'explica el coeficient de correlació de Spearman.

El coeficient de correlació de Pearson, que més avall definirem amb rigor, mesura numèricament la tendència a una associació entre les dues variables que pugui ser explicada mitjançant un model lineal.

Això es constata sobre el núvol de punts per l'agrupament dels punts molt a prop d'una línia recta. Ja s'ha dit quin és el rang de valors possibles d'aquest coeficient; els valors extrems, +1 i –1, indiquen el tipus d'associació perfectament definits per una línia recta (creixent o decreixent, respectivament). Entremig d'aquests dos valors extrems, el coeficient de correlació mesura si els punts representats en el núvol tendeixen a agrupar-se entorn d'una línia recta de manera molt estricta o amb volta variabilitat.

A la pràctica 6 veureu recursos didàctics que ajuden a analitzar, a la vista del núvol de punts, el valor del coeficient de correlació lineal i entendre què representa i què no hi és considerat. Es pot observar que hi ha una coincidència en el signe del coeficient de correlació lineal i el signe del pendent de la recta entorn a la qual es poden considerar agrupats els punts de la distribució. Ara bé, la coincidència no s'estén pas als valors absoluts del pendent de la recta i del coeficient de correlació.

Per calcular el coeficient de correlació lineal corresponent a un conjunt bivariant de n dades emparellades, (x₁, y₁),(x₂, y₂)..., (x_n, y_n), es comença per calcular les mitjanes i desviacions tipus,, mirant independentment l'una de l'altra cadascuna de les dues variables.

Tot seguit es calcula la covariància, nombre que mesura la variació conjunta global de les dues variables.

La fórmula que defineix la covariància entre dues variables estadístiques és la següent:

Observi's la semblança formal de la definició de covariància i la de la variància que estudia la dispersió d'una sola variable.
Observi's també que cada sumand del numerador és positiu per als punts que són en el primer quadrant i en el tercer quadrant del núvol de punts si tracem paral·leles als eixos pel punt mitjà de la distribució i és negatiu per als altres. Això fa veure intuïtivament que la covariància és positiva si hi ha una tendència a l'associació positiva, i negativa en cas contrari.
La covariància mesura variabilitat absoluta i és fortament depenent de les unitats amb què s'expressen les dues variables (amb les quals també cal expressar la covariància). Vegeu la pràctica 3.

Per tant, de manera semblant a què es fa amb el procés d'estandardització, convé passar a un altre valor que mesuri la relació intrínseca entre les variables, independentment de les unitats. És per això que, de fet, es calcula la covariància entre les variables estandarditzades, se simplifica l'expressió que resulta i s'obté la fórmula següent:

El coeficient de correlació lineal (de Pearson) es defineix així:

Seguidament, donem algunes observacions sobre el coeficient de correlació lineal que acabem de definir que podeu constatar amb les pràctiques.

Tal com passa també amb la mitjana i la desviació tipus, el coeficient de correlació de Pearson és fortament influït per l'existència de valors atípics, sobretot si la distribució no és molt nombrosa.
El coeficient de correlació de Pearson és un coeficient de correlació lineal. Quan se'n vulgui donar la interpretació, doncs, cal tenir present que mesura únicament la tendència a un determinat tipus de relació entre dues variables: la lineal.
Un coeficient de correlació lineal petit o nul pot indicar una total dispersió de les dues variables. Ara bé, també s'obtindrà aquest resultat en algun cas de variables molt relacionades, en cas que la funció que expressa la tendència a la relació no sigui de primer grau o no sigui polinòmica.
En canvi, un coeficient de correlació alt no ens ha de portar pas necessàriament a concloure que hi una relació real entre les variables: hi pot haver falses interpretacions.
S'ha d'anar molt amb compte amb la interpretació del coeficient de correlació si hi ha subpoblacions ben diferenciades en el conjunt de dades que s'estudia. Aquest cas pot donar valors estranys per al coeficient de correlació. Vegeu la pràctica 3 per a una constatació numèrica i la pràctica 6 per a una visualització gràfica.

De la mateixa manera que en l'estadística univariant, es consideren la mediana i els quartils, que es basen fonamentalment en l'ordenació de les dades i no en els seus valors reals, i per això reben el nom de no paramètrics. Es defineixen també coeficients de correlació en aquest àmbit de treball; el més emprat és el coeficient de correlació de Spearman.

Consisteix, essencialment, a comparar els rangs que es poden assignar als individus de la població per una de les variables amb els rangs corresponents a l'altra. En aquest cas, el valor 1 de coeficient de correlació indica que s'ha trobat, exactament, el mateix ordre, i el valor -1 indica que s'ha trobat, exactament, l'ordre invers en una variable que en l'altra.

La fórmula que dóna el coeficient de correlació de Spearman és

on n representa el nombre d'elements de la distribució i D_i representa, per cada individu, la diferència entre el rang que té assignat per una variable i per l'altra.

Observació: La fórmula resulta de fer un còmput del total de la discrepància entre els rangs (valors assignats a les dades de cada conjunt per les respectives ordenacions), feta positiva pel quadrat i després sumada; de comparar aquesta discrepància amb el màxim valor que podria tenir (que es calcula algebraicament en funció de n) i, finalment, de canviar l'escala perquè l'abast dels valors del coeficient vagi de –1 fins a +1.

Com que el coeficient de Spearman té en compte exclusivament l'ordre dels valors observats de les variables els valors extrems -ni que siguin atípics- no influeixen decisivament en el càlcul d'aquest coeficient.

Vegeu un exemple del tipus de situacions en què s'aplica aquest coeficient. Dos jurats diferents han valorat deu treballs presentats i la taula següent mostra les puntuacions que han atorgat a cada treball:

Treball	A	B	C	D	E	F	G	H	I	J
Valoració jurat 1	6,1	5,8	7,2	8,3	4,4	5,3	7,9	3,2	9,1	6,6
Valoració jurat 2	3,5	6,1	8,6	9,0	4,6	5,5	8,1	5,5	8,0	7,0

Per computar el coeficient de correlació de Spearman, només interessen els rangs o classificacions ordenades de cada valoració:

Treball	A	B	C	D	E	F	G	H	I	J
Ordenació jurat 1	5	4	7	9	2	3	8	1	10	6
Ordenació jurat 2	1	5	9	10	2	3,5	8	3,5	7	6

Ara s'aplicaria la fórmula i s'obtindria c = 0,7727.

Es pot demostrar que el coeficient de correlació de Spearman coincideix amb el coeficient de correlació aplicat a les variables que donen els rangs, les que es poden veure a la darrera taula.
Recordeu que l'Excel no calcula exactament els rangs d'ordenació d'una variable estadística tal com és conceptualment més correcte. La funció JERARQUIA dóna els índexs de l'ordenació de dades però en cas d'empat assigna l'índex més petit entre els empatats i en canvi el concepte rigorós de rang assignaria la mitjana d'aquests "rangs empatats".
Una bona aproximació del coeficient de correlació de Spearman, doncs, s'obtindrà amb l'Excel aplicant la fórmula JERARQUIA a les dues variables que es volen relacionar i seguidament aplicar el càlcul del coeficient de correlació lineal a les variables que resulten com a aplicació de la JERARQUIA.

Finalment, plantegem-nos una pregunta. Ja hem calculat un coeficient de correlació. El valor que hem obtingut, és molt o és poc? Per rigoritzar la resposta a aquesta qüestió cal enfocar-la en el marc de les proves de contrast estadístic. Tanmateix, s'acostuma a entendre que un coeficient de correlació lineal de valor absolut superior a 0,7 indica una plausibilitat del model lineal per descriure el conjunt de dades o bé, en el cas del coeficient de correlació de Spearman, una acceptable concordança de les valoracions.

Models per explicar la relació entre variables numèriques

Una de les fites que es marca el treball científic, i també, doncs, l'estadística, és la possibilitat de predir resultats d'allò que pot passar quan es donen circumstàncies semblants a les ja estudiades.

Amb aquesta idea sorgeix el concepte de regressió, que rep el nom a partir d'una experiència de relacions entre variables duta a terme per Sir Francis Galton (1822-1911). A la pràctica 5 d'aquest mòdul la teniu exemplificada.

Es tracta d'establir, en el marc de l'estadística bivariant, una funció que permeti descriure de la millor manera possible la relació entre les variables i estimar el valor que pot tenir una de les variables (dita variable resposta) per a un element del que s'ha pogut mesurar el valor de l'altra variable (dita variable d'entrada o predictora).

Convé proporcionar vocabulari:

Funció d'ajust o de regressió és la funció y = f(x), que es vol emprar per descriure la relació entre dues variables.
Per un cert valor x_i que pot prendre la variable d'entrada, s'anomena ajust el nombre que resulta en calcular f(x_i).
Per a una observació emparellada (x_i, y_i) del valor de les dues variables en un individu de la població, s'anomena residu respecte d'una funció d'ajust, la diferència entre el valor de la variable de resposta mesurat realment i el valor que ens donaria la funció d'ajust per a un determinat valor de la variable predictora; r_i = y_i – f(x_i).
Els residus mesuren, doncs, la discrepància entre les observacions reals i el model d'ajust que es vol estudiar.

La situació més habitual és aquella en què la funció y = f(x) és una funció polinòmica de primer grau (una recta) però també s'estudien altres models. Els dos subapartats següents exposen aquestes situacions.

La recta de regressió

La recerca d'un model per descriure les relacions entre variables comença amb les funcions de manipulació més senzilla: les funcions lineals.

Quan hom s'ha convençut de la bondat d'un estudi del núvol de punts d'una distribució bivariant mitjançant una línia recta, de primer intuïtivament sobre el gràfic, i posteriorment amb el càlcul del coeficient de correlació, convé saber la forma adequada de dibuixar la recta que millor descriu la relació entre les variables. Aquesta recta rep el nom de recta de regressió.

La primera possibilitat intuïtiva per dibuixar la recta, com a primer supòsit, pot ser fer-ho a ull, mirant d'entendre quina és la recta que millor s'adapta al núvol de punts. Hi ha també d'altres mètodes descriptius, però, amb l'ajut de l'Excel, podem anar directament a obtenir la recta que, realment, dóna un millor ajust.

Quan es vol obtenir la fórmula de la recta de regressió, es fa servir el mètode dels mínims quadrats. Es tracta de raonar quins han de ser els valors dels coeficients a i b que fan que la suma dels quadrats dels residus de les observacions reals respecte del model d'ajust donat per la funció y = a + b·x tingui el valor mínim possible. Aquesta és la idea de millor ajust: residus com més petits millor!
Es pot demostrar que el pendent de la recta de regressió y = a + bx és
La recta de regressió, y = a + bx, passa pel punt mitjà de la distribució i, per tant, es pot escriure així:

Observeu allò que ja s'havia comentat, a saber, que el signe del pendent de la recta de regressió coincideix amb el signe del coeficient de correlació. De fet, aquests dos nombres tenen el signe de la covariància.

La recta calculada s'anomena recta de regressió de y sobre x, perquè parteix d'una variable d'entrada o predictora, que se suposa que està més sota el control de l'experimentador.

Una vegada establert el model, en aquest cas el que ens dóna la recta de regressió, podem fer prediccions del valor que pot tenir la variable de resposta. El valor que ens dóna la funció model, per a un cert valor x₀, és a dir, el que hem definit com a ajust, és el valor que estimarem. Per exemple, les màquines de pesar que podem trobar al metro o en algunes farmàcies, que comparen el pes que obtenen amb un anomenat pes ideal (després de preguntar dades d'alçada, edat, etcètera), fan prediccions a partir d'un estudi de regressió. En algunes de les pràctiques d'aquest mòdul treballareu aquest tema.

Atès que el coeficient de correlació de Pearson mesura com d'estricte és l'acostament del núvol de punts a una línia recta, és ben intuïtiu que, com més gran és el valor absolut del coeficient més fiabilitat tenen les prediccions que es poden fer i més petit és el marge d'error amb què cal enunciar-les.

Altres tipus de regressió

Quan el model lineal no apareix com a fiable, per a deduccions posteriors es pot acudir a l'estudi d'altres models, d'altres funcions que siguin les que millor s'ajusten al núvol de punts.

En alguns textos es parla molt amb detall de la regressió parabòlica, però en general es considera més interessant l'estudi de la correlació i la regressió lineal entre les variables i els seus logaritmes, com s'exemplifica a la pràctica 5. Els models que s'estudien són aquests:

Si la correlació lineal entre y i el logaritme ln(x) és gran per estudiar les relacions entre aquestes variables, és útil per estudiar l relacions entre variables el model logarítmic, y = a·ln(x)+b.
Si es troba una correlació elevada entre ln(y) i la variable x , presa com a independent, vol dir que una relació del tipus ln(y) = a+b·x és útil per a prediccions. Aquesta relació equival a y = e^a+bx i és per això que aquest model rep el nom de model exponencial de regressió.
Finalment, si es troba una correlació elevada entre ln(x) i Ln(y) , la funció que serveix com a model per a l'estudi de la relació entre les dues variables és del tipus
ln(y) = b·ln(x) + a, és a dir y = K·x^b, model que rep el nom de correlació multiplicativa.

També es considera de vegades un altre model de regressió simple, que s'anomena model recíproc, en el qual estudia la correlació lineal entre x i 1/y.

I no es pot acabar aquest apartat sense indicar que, en estudis superiors, s'ha de donar molta importància a la regressió múltiple, en què hom intenta establir numèricament la significativitat de la influència de diverses variables d'entrada o predictores sobre la variable de resposta.