Enrera
Mòdul 2
Estadística amb el full de càlcul: usos didàctics  
  Pràctica
1
2
3
4
5
6
 
 
 
Exercicis
Exercicis
         
 
  Estadística descriptiva Documentació    
 
 

El propòsit d'aquest document és comentar breument les tècniques i els conceptes de l'estadística descriptiva elemental que són, principalment:

  • Tabulació de les variables.
  • Realització de gràfics.
  • Càlcul d'uns nombres (anomenats estadístics) que ajuden a descriure el conjunt de dades recollides.
  • Anàlisi exploratòria de dades.

Conceptualment, cal distingir amb claredat, per al treball amb les variables numèriques, si es tracta d'una variable discreta o bé d'una variable contínua, tot i que l'ús de programaris, com és ara Excel, fa que moltes vegades aquesta distinció i algunes de les reflexions que es fan seguidament siguin supèrflues , perquè l'ordinador treballa sempre que pot amb totes les dades recollides.

   
Taules i gràfics
   
 

Per a una variable numèrica discreta es comença per fer una taula de freqüències on s'hi fan constar, per cada valor de la variable, les freqüències absolutes i relatives (expressades aquestes en tant per u o en tant per cent) i també les freqüències acumulades (freqüències dels valors observats menors o iguals que el que defineix aquella classe).

El diagrama més emprat per a la descripció d'aquest tipus de variables és el diagrama de barres.

Un diagrama de barres consisteix a dibuixar rectangles de la mateixa amplada i d'altura proporcional a les freqüències observades dels valors de la variable.

És interessant incloure dues escales de graduació a l'eix vertical -absoluta i percentual- a l'hora de representar els diagrames de barres. Si la variable que volem descriure és numèrica convé graduar l'eix horitzontal de manera consistent.


S'anomena polígon de freqüències la línia poligonal que resulta d'unir els punts mitjans superiors dels rectangles que formen el diagrama de barres, que ajuda a veure el perfil de la distribució i associar-hi algun dels models que s'estudiaran més endavant.

Per treballar amb una variable numérica contínua hem de reflexionar al voltant del concepte de precisió en el procés de mesura. Per a aquests tipus de variables, no tenen sentit les expressions del tipus X = a, sinó que sempre s'ha de pensar en valors localitzats en un interval. Per exemple, si diem que una persona pesa 65 quilos vol dir que hem arrodonit la mesura als quilos; en realitat, observarem aquest valor per a totes les persones en què el seu pes estigui comprès entre 64,5 kg i 65,5 kg.

Com que, per altra banda i tot i els arrodoniments, acostuma a ser bastant àmplia la gamma de valors que pot prendre una variable contínua, aquests valors s'agrupen en classes, definides per intervals, que és recomanable que siguin tots de la mateixa longitud. El procés d'agrupació en classes és la idea conceptual que distingeix el treball amb varibles contínues o amb variables discretes. Ara bé, aquest procediment és del tot subjectiu i és difícil dir quants i quins són els "intervals ideals" per a l'estudi d'una variable.

En la taula de valors d'una variable contínua convé indicar:

  • Els límits (superior i inferior) dels intervals.
  • El punt mitjà, dit a vegades marca de la classe.
  • Les freqüències observades en cada classe (absolutes o relatives).
  • Sovint és interessant afegir, a més, les freqüències acumulades corresponents a cada classe (suma de les freqüències corresponents a les classes amb valors més petits o iguals que els que pertanyen a aquella classe).


Un histograma de freqüències és un gràfic descriptiu d'una variable contínua que consisteix a graduar l'eix horitzontal segons els valors de la variable i construir, prenent com a base cada interval de classe, rectangles juxtaposats d'àrea proporcional a la freqüència observada en aquella classe. L'eix vertical es gradua amb freqüències absolutes o bé relatives o, preferiblement, s'hi poden fer constar les dues escales.

Nota: Si totes les classes en què s'han classificat les dades tenen la mateixa longitud, també l'altura de cada rectangle serà proporcional al nombre de valors observats en aquella classe.

  • A partir de l'histograma es construeix el polígon de freqüències, unint els punts mitjans dels costats superiors dels rectangles. Usualment, s'afegeixen a la dreta de la classe amb els valors més grans i a l'esquerra de la classe amb els valors més petits dues classes amb freqüència 0. Així, queda més ben caracteritzat el perfil de la distribució.

    La construcció del polígon de freqüències concreta la idea que, per a molts estudis, els valors de les dades d'una distribució contínua poden ser substituïts per les marques de la classe. En certa manera, aquesta idea és una modelització del conjunt de dades de la variable contínua.

  • Un dels gràfics més interessants per a l'estudi de les variables contínues és l'histograma de freqüències acumulades, en què sobre cada interval de classe s'hi construeix un rectangle d'àrea proporcional a la freqüència acumulada fins a aquella classe. El més usat és l'histograma de freqüències relatives acumulades.

  • A partir de l'histograma de freqüències (relatives) acumulades, es construeix el polígon de freqüències (relatives) acumulades, unint els vèrtexs superiors drets de cadascun dels rectangles.

    Aquesta construcció parteix de la idea que les dades que pertanyen a una classe estan uniformement repartides al llarg de la classe. És per això que es construeix el polígon, suposant que al llarg de la classe la freqüència acumulada augmenta linealment. Aquesta construcció representa una altra modelització de les dades d'una variable contínua i és la que s'empra habitualment per calcular percentatges de valors de la variable compresos en un interval.
   
Paràmetres estadístics
   
 

El càlcul de paràmetres estadístics sorgeix de la necessitat de resumir un conjunt nombrós de dades numèriques en uns pocs paràmetres representatius. Distingim:

  • Paràmetres de centralització o de tendència central, que intenten explicar a través d'un sol valor quina és la tendència majoritària dels valors observats en la col·lecció de dades que s'analitza. Comentarem breument la moda i amb més detall la mitjana i la mediana.
  • Paràmetres de dispersió, encaminats a palesar el grau d'agrupació o proximitat de les dades respecte als esmentats valors centrals. D'entre aquests paràmetres, s'estudiaran l'amplitud, la desviació estàndard (o desviació típica), que considera la dispersió respecte de la mitjana, i l'amplitud interquartíl·lica que, en certa manera, fa referència a la mediana.
  • Paràmetres per valorar la conveniència del "model normal". Es comenta el procés d'estandardització i es presenten el coeficient d'asimetria i la curtosi (grau d'apuntament).
Paràmetres de tendència central
   
  La moda
   
 
La moda es defineix com el valor de la distribució que ha estat observat amb una freqüència més elevada.

Aquesta definició s'ha d'entendre en un sentit ampli: el que es procura indicar amb la moda és l'existència d'un valor que destaca molt per sobre dels altres. Si hi ha dos (o més) valors les freqüències dels quals siguin relativament semblants i destacades per sobre de la resta, es parla de distribucions bimodals (o multimodals).

Aquest paràmetre és molt intuïtiu, però no acostuma a tenir transcendència estadística. Per altra banda el seu ús s'ha de limitar a variables qualitatives o discretes.

L'Excel calcula la moda d'una variable contínua amb els valors individuals de les dades i llavors no acostuma a tenir cap significativitat. Si, en aquest cas, es vol considerar la moda s'hauria de començar per l'agrupació en classes i parlar llavors , més aviat, de la classe modal.

   
  La mitjana
   
  La mitjana és el resultat de fer la suma de tots els valors observats de la variable numèrica i dividir pel nombre total d'observacions i és un paràmetre molt sensible a l'existència de valors extrems (a vegades dits anòmals o atípics) en la distribució.
   
 

Si designem amb xi les dades individuals observades de la variable, o bé vi els valors i Fi les respectives freqüències absolutes (indicades amb un subíndex per a les diferents dades) i n el nombre total d'observacions, la mitjana d'aquesta variable es defineix formalment així:

on la lletra sigma majúscula indica que cal fer una suma repetida que, en aquest cas, s'estén a tots els valors observats per a la variable.

Per calcular la mitjana en una variable contínua:

  • Si disposem de les dades originals, ho farem de la mateixa manera que per una discreta. Així actua l'Excel.
  • Si no disposem de les dades originals, sinó d'una taula amb els valors ja agrupats, podem calcular la mitjana utilitzant les marques de classe i escriure la fórmula corresponent de l'Excel, com veurem en les pràctiques.
   
  La mediana
   

 

 

 

La mediana es defineix com aquell valor que, si s'ordenen els valors de la distribució, ocupa el lloc central en aquesta ordenació.

Aquesta definició, que és la que empra l'Excel en tots els casos, necessita una petita matisació.

  • Si el nombre de dades és imparell, la mediana és el valor que deixa tants valors a la seva esquerra com a la seva dreta.
  • Si el nombre de dades és parell, llavors hi ha dues dades centrals. Si els seus valors coincideixen, aquest valor és la mediana. Si són diferents, es pren com a mediana la mitjana entre les dues dades centrals.

La definició de la mediana indica que és un paràmetre que, sobre tot per a conjunts molt nombrosos de dades (que és quan realment té sentit pràctic fer-ne el càlcul) no queda alterat pels possibles canvis de valor de les dades extremes de la distribució de frequències. Per això es recomana sovint per "prevenir" possibles errades en l'entrada de dades.

Ara bé, si es fa el càlcul de la mediana seguint la definició inicial en un conjunt de dades discretes, una variació en una sola dada de la distribució pot provocar un salt brusc en el valor de la mediana. Vegeu-ho:

Per altra banda, en altres ocasions apareix el mateix valor de la mediana per a conjunts de dades ben diferents.

En aquesta darrera imatge, oi que estaria bé indicar d'alguna manera que la posició de la mediana en el conjunt de valors iguals a 5 és ben diferent?

Això mateix escau quan es treballa amb variables contínues: hi ha moltes ocasions en què no es disposa de les dades inicials, sinó únicament d'un estudi que ja ens dóna les freqüències que corresponen a una determinada agrupació en classes. En aquest cas, es podria parlar simplement de la classe medianera, però, de fet, es pot precisar més i es defineix la mediana com el valor de la variable que correspon a una freqüència acumulada del 50 %, llegida sobre el polígon de freqüències relatives acumulades. Aquesta definició de la mediana (que, tanmateix, habitualment no està incorporat als programes estadístics d'ordinador) evita els salts bruscs de valor que hem comentat deguts a petits canvis en el valor d'una o algunes dada.

Podeu clicar, si us interessa, sobre la icona d'ampliació que teniu a l'esquerra i veureu un exemple que mostra clarament la conveniència d'aquesta matisació i il·lustra aquest procediment per calcular la mediana per a variables numèriques contínues.

   
  Estudi comparatiu de la mitjana i la mediana
   

 

 

 

Per a la utilització de la mediana i de la mitjana com a paràmetres de centralització, hem de tenir ben present les idees següents:

  • La mitjana és un paràmetre centralitzador, el centre de gravetat de la distribució. Experimentació sobre la mitjana amb una aplicació feta amb la calculadora Wiris , del portal educatiu edu365.cat. Per poder-la executar (i semblantment amb les que es comenten més avall) caldrà que estigueu treballant en línia o que tingueu instal·lada la versió local d'aquesta eina, tal com hem comentat a la guia.
  • La mediana presenta limitacions pel fet de no tenir en compte totes les dades de la distribució (el canvi d'una dada no té per què fer canviar el valor d'aquest paràmetre).
  • Precisament pel que acabem de comentar, la mediana és un paràmetre rellevant en cas que la distribució presenti dades singulars, justament el contrari de la mitjana, que es veu fortament influïda si ens trobem amb dades singulars.
  • Vegeu una altra aplicació interactiva que permet obtenir una visualització de la mitjana i la mediana i copsar la influència dels valors atípics.

Una manera intuïtiva de mesurar el grau de simetria d'una variable numèrica és la de comparar els valors de la mediana i la mitjana. Efectivament, si la distribució és totalment simètrica, la mediana i la mitjana coincideixen i, en canvi, la distribució difereix més d'un model simètric com més distanciades estiguin la mediana i la mitjana, de tal manera que "la cua més allargada" es presenta cap al cantó de la distribució on es trobi la mitjana.

Ara bé, cal tenir en compte que sempre que es fan càlculs per tal d'establir "la simetria" es fa amb la intenció de confrontar si el model normal (de què parlarem a bastament en mòduls més avançats) és o no un model consistent per a la població de la qual s'ha pres una mostra. Un conjunt de dades "és com és", el que ens preocupa en un treball estadístic rigorós és saber què en podem inferir per a la població. Mai hi ha criteris "absolutament segurs" en l'àmbit de la inferència estadística i menys per aquesta regla heurística que ara ens ocupa (comparació de la mitjana i la mediana en una mostra per tal d'inferir la simetria de la variable estudiada en la població.)

Podeu ampliar l'estudi d'aquest tema si cliqueu a la icona d'ampliació. Pot ser interessant fer-ho en acabar de llegir tot el document de fonaments.

   
Estudi de la dispersió d'una distribució
   
 

La moda, la mediana i la mitjana resulten insuficients si hom vol resumir en un únic paràmetre numèric el comportament global d'una distribució estadística. No hem pas de donar la raó als que posen en boca de l'estadística la frase que diu: "Si tu menges dos pollastres i jo no en menjo cap, és com si cadascú n'hagués menjat un". Convé mesurar d'alguna manera el grau de dispersió de les dades.

 

El primer i més senzill dels paràmetres de dispersió és l'amplitud de la distribució, que s'obté calculant la diferència entre el màxim i el mínim valor observat.

El valor d'aquest paràmetre està fortament influït per l'existència de valors atípics situats als extrems de la distribució, molt allunyats de la resta del conjunt de dades. Això el fa ben poc representatiu, de vegades, i és poc potent per mesurar el grau de dispersió de les dades d'una distribució estadística.

   
  La desviació estàndard o desviació tipus
   
  Per quantificar el grau de dispersió d'un conjunt de dades al voltant de la mitjana es pot pensar a sumar totes les diferències de cada dada menys la mitjana, però el fet que algunes diferències siguin positives i d'altres negatives fa que, en sumar-les, s'anul·lin entre elles. No es tenen en compte les diferències, sinó les magnituds. En aquest sentit, es treballa amb els quadrats de les diferències (sempre positius) que s'acumulen per totes les dades de la distribució.

S'anomena variància (o desviació quadràtica mitjana) la mitjana dels quadrats de les desviacions de cada dada respecte a la mitjana.

El fet d'haver elevat al quadrat les diferències a l'hora de calcular la variància, fa que la unitat amb què es mesura aquest paràmetre sigui igual al quadrat de la unitat amb què es mesuren les dades de la distribució. Per aquest motiu, es treballa amb el paràmetre que resulta de fer l'arrel quadrada de la variància.

S'anomena desviació tipus o desviació estàndard i se simbolitza habitualment amb la lletra grega sigma minúscula l'arrel quadrada de la variància.


Aquest és el paràmetre més emprat com a eina d'anàlisi de la desviació d'una distribució. La desviació estàndard es mesura en les mateixes unitats que les dades de la distribució.

També es considera a vegades el coeficient de dispersióper relativitzar la mesura de la dispersió d'una distribució de frequències prenent com a punt de referència el valor absolut de les dades de la distribució (representat per la mitjana). Amb aquest coeficient es fa avinent que no representa el mateix una desviació estàndard d'una unitat (per exemple) si la mitjana de les dades té un valor de 5 que si la mitjana de les dades té un valor de 500. En aquest cas la desviació estàndard seria pràcticament inapreciable en el conjunt de les dades i en l'altre seria molt important.


S'anomena coeficient de dispersió (que s'expressa sense unitats i de vegades en tant per cent) el resultat de dividir la desviació estàndard entre la mitjana,

   
  La desviació estàndard, la calculadora i l'estadística inferencial
   
  Les calculadores científiques que tenen mode de treball estadístic presenten dues funcions amb el símbol de la desviació estàndard, sn (o simplement s) i sn–1 (també designada com a s en alguns models).

Aquestes dues tecles donen dos paràmetres calculats amb fórmules anàlogues que difereixen només en el denominador de la fracció: mentre per a la primera dividim per n (nombre de dades), per a la segona dividim per n – 1.

La diferència entre els dos paràmetres és conceptualment molt important. Si volem fer una tasca d'inferència i intentar estimar paràmetres de la població a partir dels que hem observat en una mostra, es pot demostrar que la desviació tipus calculada amb denominador n – 1 a partir de les dades que tenim recollides en la mostra és un millor estimador de la desviació tipus de la població que no pas la calculada amb denominador n.

La desviació estàndard calculada amb denominador n és qualificada pels manuals com a desviació estàndard poblacional o bé com a desviació estàndard no corregida, i la segona, la que es calcula amb denominador n – 1, s'anomena desviació tipus mostral o, de vegades, desviació estàndard corregida.

A la pràctica 5 del mòdul 7 es treballa a fons aquest tema i es constata que el millor paràmetre per fer estimacions és la

  • Atenció! Si es fa servir l'opció Herramientas | Análisisi de datos | Estadística descriptiva, l'Excel imagina que sempre fem una tasca inferencial i dóna el valor de la desviació estàndard corregida i la variància corregida com a desviació estàndard i variància.

  • En canvi, si fem servir les funcions estadístiques, podem distingir-ho, perquè =DESVESTP() és la desviació estàndard de la població, mentre que =DESVEST( ) és la corregida. Semblantment passa amb VARP i VAR (variàncies de la població i corregida, respectivament)

  • Nota: Per què no hi ha una mitjana de la mostra i una mitjana corregida per a la població? Perquè aquests dos valors coincideixen. El millor estimador per a la mitjana de la població és el valor calculat per a la mitjana de la mostra.
   
Estandardització de dades. Altres paràmetres estadístics
   
  Per buscar un model escaient per a una distribució estadística de dades interessa sovint prescindir de la influència de les unitats amb què estan expressades les dades. Per fer-ho es tenen en compte dues propietats:

  • Si a totes les dades d'una distribució estadística els sumem/restem un mateix nombre, la mitjana queda incrementada/disminuïda en aquest mateix nombre i la desviació estàndard no varia.
  • Si totes les dades d'una distribució estadística es multipliquen (divideixen) per un mateix nombre, la mitjana i la desviació tipus o estàndard de la distribució queden multiplicades/dividides per aquest mateix nombre.

A partir dels valors xi d'una distribució estadística X i de la seva mitjana i la desviació estàndard, es poden definir els valors zi d'una altra distribució Z, anomenada variable estandarditzada de X (o variable tipificada) de la manera següent:

A partir de les dues propietats comentades anteriorment es pot assegurar que:

  • La distribució Z té mitjana 0 i desviació estàndard 1.
  • El procés de pas de la distribució amb valors xi a la que té com a valors zi rep el nom de procés d'estandardització o també procés de tipificació i fins i tot en alguns casos «procés de normalització» (sic), denominació que no considerem recomanable.
  • Si observem el fet que els valors de la variable (i les seves diferències) i la desviació estàndard s'expressen en les mateixes unitats, ens podem adonar que la variable estandarditzada construïda a partir d'una variable s'ha d'expressar sense unitats. És per això que la consideració d'aquesta nova variable és un bon camí per a la recerca d'un model teòric apropiat, que comença per la consideració dels dos paràmetres que es comenten seguidament i que es defineixen amb l'objectiu fonamental de confrontar les dades amb el model donat per a la distribució normal.

 

   
  Coeficient d'asimetria
   
 

Per una distribució estadística amb n dades es defineix el coeficient d'asimetria com la mitjana dels cubs dels valors de la variable estandarditzada.

Com que la variable estandarditzada s'expressa sense unitats, això mateix succeeix amb el valor del coeficient d'asimetria.

Quan la distribució és simètrica, Cas = 0, perquè els sumands positius es compensen amb els negatius; si el valor de Cas és proper a 0, es pot considerar un grau de simetria alt per a la distribució estudiada i, doncs, una versemblança del model normal si ens fixem només en la simetria.

En canvi, si el Cas té un valor positiu gran, és que predominen els sumands positius en el sumatori que ens porta al valor de Cas ; aquests sumands corresponen als valors de la variable superiors a la mitjana. En aquest cas, en què predominen els valors allunyats de la mitjana cap a la dreta es diu que la distribució és esbiaixada cap a la dreta o que presenta "una cua" cap a la dreta.

Semblantment, si el coeficient d'asimetria té un valor negatiu gran en valor absolut es diu que la distribució és esbiaixada cap a l'esquerra i, en aquest cas, el perfil presenta "una cua" cap a l'esquerra.

La funció de l'Excel que calcula el coeficient d'asimetria és:

=COEFICIENTE.ASIMETRIA(rang de dades)

   
  Coeficient de curtosi (grau d'apuntament)
   
  De forma anàloga a allò que hem vist per al coeficient d'asimetria, s'estudia la mitjana de les quartes potències dels valors estandarditzats.

Es comprova que el paràmetre que resulta quan fem el càlcul té relació amb el grau d'apuntament (o sigui amb el grau de punxa del perfil corresponent o, mirat des de l'altre punt de vista, amb el caràcter més o menys aplanat d'aquest perfil).

El coeficient que mesura el grau d'apuntament (semblantment al que passa amb el coeficient d'asimetria) té com a finalitat principal la comparació de les dades empíriques recollides amb un model teòric, per sobre de tots els models donats per la distribució normal, de la qual parlarem a bastament al llarg del curs. Per qualsevol distribució que s'ajusti a un model normal es demostra que el sumatori anterior val 3 i és per això que es dóna la definició següent.

Per una distribució estadística amb n valors, que representem com a xi i variable estandarditzada zi es defineix el coeficient de curtosi, K, així:

Si K té un valor proper a 0, la variable estudiada presenta un perfil d'apuntament semblant al de la distribució normal i rep el nom de distribució mesocúrtica, com és ara la B del gràfic següent (corba negra):

Si K té un valor positiu gran, el perfil de la variable tindrà cues llargues o, equivalentment, una punxa molt pronunciada a la part central si ho comparem amb la distribució normal estàndard. Aquest tipus de distribucions s'anomenen leptocúrtiques. N'és un exemple la distribució de perfil A al gràfic (corba verda).

Finalment, si K és molt negatiu, el perfil de la variable té molt poc apuntament i rep el nom de platicúrtica, com és ara la C del gràfic (corba vermella).

Tanmateix hi ha altres condicionants que afecten el valor del coeficient de curtosi i el fan poc intuïtiu.

La funció de l'Excel que calcula el coeficient de curtosi és =CURTOSIS(rang de dades )

   
Anàlisi exploratòria de dades (AED)
   
 

Sota aquesta denominació s'agrupen un conjunt de procediments, relativament «moderns» i molt emprats en els tractats d'estadística aplicada a les ciències socials, potser pel fet que en la seva presentació no intervenen recursos matemàtics elevats.

Aquestes tècniques tenen com a objectiu una visualització ràpida i global de les dades que, de fet, haurien de ser prèvies a altres estudis més aprofundits.

Hem definit uns paràmetres de tendència central: la mitjana com a paràmetre uniformitzador i la mediana com la dada que ocupa la posició central de la distribució si posem per ordre creixent els seus valors i hem comentat que ambdós paràmetres resulten insuficients per tenir una idea del comportament global de la distribució de les dades, de la dispersió amb què les observem. És per això que es defineix la desviació estàndard com a paràmetre numèric per mesurar el grau de dispersió de les dades.

A partir de la mediana es defineixen tot seguit els quartils i l'amplitud interquartíl·lica en el camí d'arribar a una descripció més detallada del repartiment dels valors de la distribució al llarg de tota l'amplitud de valors.

   
  Els quartils i l'amplitud interquartíl·lica
   
















La mediana d'una distribució estadística divideix la relació ordenada dels seus valors en dues parts que tenen el mateix nombre de dades. La idea intuïtiva dels quartils correspon a dividir la distribució ordenada en quatre parts.

S'anomenen així:

  • Primer quartil o quartil inferior, valor que determina la primera quarta part de la distribució, o el 25 % de les dades.
  • Segon quartil (que naturalment coincideix amb la mediana).
  • Tercer quartil o quartil superior, valor que indica les tres quartes parts de la distribució, és a dir, que té una quarta part dels valors més grans que ell i correspon a un percentatge del 75 % de les dades.

Tot i que la idea intuïtiva és ben clara, a l'hora de fer el càlcul dels quartils no hi ha un tractament unívoc per part dels programes estadístics d'ordinador. Les diferències es constaten quan la distribució té poques dades i en canvi no són apreciables si el conjunt de dades és força nombrós. Això ens porta necessàriament a un comentari: si hi ha poques dades potser se'n pot fer una anàlisis individualitzada; no calen paràmetres descriptius!

Podeu accedir a un apartat d'ampliació que explica com calcula els quartils el programa Excel i la seva relació amb els percentils i les dades que corresponen a un determinat percentatge.

Per a les variables contínues es pot fer un tractament conceptual semblant al de la mediana, que podeu consultar també com a ampliació. Ara bé l'Excel fa sempre el càlcul dels quartils amb la consideració de variable numèrica discreta és a dir que, si es tracta d'una variable numèrica contínua, té en compte el valor de totes i cadascuna de les dades.

L'amplitud interquartíl·lica (AIQ) és la diferència entre el tercer i el primer quartil.

Aquest valor indica l'amplitud de l'interval en què podem trobar el 50 % de dades centrals de la distribució i és, per tant, una mesura de dispersió.

No solament l'amplitud sinó que la consideració conjunta dels quartils, la mediana i l'amplitud serveixen com una eina d'anàlisi important de la dispersió de dades de la distribució. Aquest estudi es plasma en els diagrames de caixa, que estudiarem tot seguit.

   
  Diagrama de caixa (box-plot)
   

 

 

S'anomena diagrama de caixa o, en la denominació inicial Box-and-whisker plot, textualment diagrama de caixa i bigotis, una representació gràfica, introduïda per G. E. P. Box en el marc de l'anomenada anàlisi exploratòria de dades, que es pot elaborar després de localitzar les dades extremes d'una distribució estadística i calcular els valors dels quartils, amb la finalitat de fer visual la posició relativa d'aquests valors i, doncs, donar una idea de la dispersió que presenta la distribució de les dades al llarg del rang.

Com a primera idea, per construir un diagrama de caixa dibuixarem un eix graduat amb els valors de la variable i, referit a aquest eix, un rectangle de base igual al segment que separa el primer i el tercer quartil, partit en dos per una línia feta pel valor de la mediana. A banda i banda del rectangle es dibuixen uns segments (cues o bigotis) que, en una abasten tota l'amplitud o rang de la distribució. És clar que cal acompanyar el diagrama de caixa d'un eix graduat segons els valors que pot tenir la variable i també és important

  • Vegeu un exemple de diagrama de caixa:

  • El gràfic de l'exemple (que recull les notes d'un grup d'alumnes en un examen) mostra una major concentració de notes a la zona central de la distribució perquè la longitud de la caixa és més petita que la de les cues. Cues més llargues no vol dir que hi ha moltes dades lluny de la mediana, sinó que les dades lluny de la mediana són més disperses.
  • També ens mostra que es tracta d'una distribució lleugerament esbiaixada cap a l'esquerra: la "cua" d'aquest costat és sensiblement més llarga que la de la dreta, però aquesta tendència queda matisada pel fet que les dues parts de la caixa central tenen la mateixa llargada (i això indica un repartiment ben simètric del 50 % de dades centrals entorn a la mediana).

Notes:

  • El programa Excel no recull entre els seus procediments estadístics la construcció de diagrames de caixa. Tanmateix, com que aquests diagrames són molt il·lustratius, ha semblat interessant, en la pràctica 6, explicar com es poden elaborar i guardar-los com a "gràfics propis".
  • Quan s'ha donat la definició intuïtiva de mediana s'ha comentat que per a variables discretes una petita variació en una de les dades podia portar com a conseqüència un salt brusc en el valor de la mediana. Això mateix passa amb els quartils. En tots aquests casos es pot aplicar el càlcul dels paràmetres per mètodes d'interpolació, cosa que és interessant d'aplicar sobretot per a les variables contínues. El diagrama de caixa elaborat calculant la mediana i els quartils a partir de la definició intuïtiva o bé mitjançant la fórmula d'interpolació pot tenir un aspecte ben diferent en un cas de l'altre. Podeu veure exemples de diagrames de caixa calculats de les dues maneres si cliqueu sobre la icona d'ampliació que teniu a l'esquerra.
 

La longitud de la caixa central (amplitud interquartíl·lica, AIQ) és molt important en la construcció dels diagrames de caixa i en l'anàlisi de la distribució que es vol visualitzar. Aquesta longitud, relativitzada en el context de les dades de la distribució, ens explica com de juntes estan les dades centrals i per això, com ja hem dit, pot ser entès com un paràmetre de dispersió i s'empra també per caracteritzar les dades atípiques.

En el treball estadístic convé distingir especialment aquelles dades que s'aparten significativament de la resta de dades de la distribució. Aquesta definició és poc precisa, perquè, de fet, interessa sobretot des del punt de vista intuïtiu: no deixa clar què s'ha d'entendre per "apartar-se significativament" de la resta de dades. Quan en una distribució estadística apareixen dades anòmales, s'ha d'estudiar molt bé si poden ser degudes a errors comesos en el procés de recollida de dades: errors de transcripció, errors a l'hora de fer les mesures, etc. Si realment es confirma que s'ha produït algun error d'aquest tipus, cal eliminar aquestes dades o, si és possible, esmenar l'error. En qualsevol altre cas, no és lícita l'eliminació de les dades atípiques tot i que s'ha de tenir molt present com poden influir en l'estudi.

En l'anàlisi exploratòria de dades, es consideren dades atípiques en una distribució (també anomenades, de vegades, anòmales) aquelles que, per damunt del 3r quartil, difereixen d'aquest valor en més de 1,5·AIQ, o les que, per sota del 1r quartil, difereixen d'aquest en més de 1,5·AIQ, és a dir, que si designem per Q1 i Q3 els quartils es consideren, doncs, atípiques les dades que queden fora de l'interval [Q1–1,5·(Q3–Q1), Q3+1,5·(Q3–Q1)].

En els diagrames de caixa de les distribucions que contenen dades anòmales, aquestes es representen mitjançant punts aïllats i els "bigotis" arriben per un costat a la més petita de les dades no atípiques i per l'altre costat a la més gran d'aquestes dades no atípiques. Per tant, com a màxim, la longitud dels bigotis més la caixa és de 4 amplituds interquartíl·liques. En el diagrama que hem donat com a exemple no apareixen valors atípics però sí que en veureu en els que es mostraran seguidament.

Nota: En la pràctica 6 no es tindrà en compte aquesta distinció i es dibuixaran els "bigotis" des del mínim per un costat fins al màxim per a l'altre. Tanmateix si alguna de les lectores o algun dels lectors té coneixement del disseny de macros amb Excel ho pot intentar!

   
  Diagrames de caixa múltiples
   
 

L'ús fonamental dels diagrames de caixa no el trobem en la descripció d'una variable sinó com a element intuïtiu de contrast entre distribucions de variables estadístiques.

Efectivament, si imaginem juxtaposats dos diagrames de caixa relatius a variables anàlogues (per exemple, les notes d'un altre examen en el mateix grup classe que l'anterior), veurem que efectivament això permet una comparació global i ràpida entre la distribució de dades de dues variables anàlogues definides sobre la mateixa població. Semblantment, si hom ha de comparar dues o més distribucions d'una mateixa variable mesurada sobre poblacions diferents (o sobre diferents grups estadístics en una mateixa població), la visualització simultània dels corresponents diagrames de caixa sol aportar una informació molt valuosa. Seria un exemple d'aquesta darrera situació la comparació de les notes d'un mateix examen en dos grups classe o bé el que es mostra seguidament.

Diagrama de caixes múltiple corresponent als valors del producte nacional brut per càpita
entre grups de països (dades de 1984, de l'obra de Caterine Marsh citada a la bibliografia).

Plantegem-nos algunes qüestions sobre aquestes dades:

  • En quin grup de països hi ha més variabilitat en els valors del producte nacional brut per càpita?
  • Quin és el grup de països on globalment podem observar uns valors més alts en el producte nacional brut per càpita?
  • Per què les cues inferiors, corresponents als països de l'Àsia i de l'Àfrica, són tan curtes?
  • Per què apareixen valors atípics? Estudieu bé quins són.

Les qüestions anteriors i moltes d'altres es poden respondre amb claredat a la vista dels gràfics dels diagrames de caixa.

  • A l'Orient Mitjà trobem, al costat de països amb un PNB per càpita molt baix, d'altres països que (en aquesta font de dades) són els que corresponen als valors més alts d'aquest indicador econòmic.
  • Tanmateix, podem observar que la majoria de països occidentals queden per sobre de la mitjana dels de l'Orient Mitjà (i també del conjunt de dades de tots els altres grups de països).
  • Alerta! Les cues curtes en un diagrama de caixa no volen dir que hi hagi poques dades, sinó que el 25 % de dades del conjunt estudiat queden molt concentrades. A l'Àfrica i a l'Àsia la quarta part dels països (i a l'Àfrica quasi fins a la meitat) tenen un PNB per càpita quasi inapreciable.
  • Què ens diu l'estrany diagrama de caixa que correspon als estats socialistes de 1984? Pràcticament tots els països se situen en un mateix nivell de PNB per càpita, excepte uns pocs que el tenen més baix. Convé dir que per a aquest grup de països la font de dades era molt incompleta i això tergiversava el diagrama.

 

   
 
Amunt
  Ampliacions, aclariments i comentaris
   
Ampliació Podeu consultar, si us interessa, un exemple que mostra clarament la conveniència d'una matisació conceptual per al càlcul de la mediana per a les variables contínues

Vegeu les taules de freqüències de dues variables que anomenarem EXEMPLE1 i EXEMPLE2 on es mostren els aspectes comentats fins ara.

               Taula de freqüències  EXEMPLE1

Intervals Marca Freq.abs. Freq.rel. Freq.acum. Perc.ac.
­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­
[0.5,1.5] 1.0 5 10% 5 10%
[1.5,2.5] 2.0 17 34% 22 44%
[2.5,3.5] 3.0 16 32% 38 76%
[3.5,4.5] 4.0 8 16% 46 92%
[4.5,5.5] 5.0 4 8% 50 100%
­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­
Nombre dades 50


Taula de freqüències EXEMPLE2

Intervals Marca Freq.abs. Freq.rel. Freq.acum. Perc.ac.
­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­
[0.5,1.5] 1.0 5 10% 5 10%
[1.5,2.5] 2.0 8 16% 13 26%
[2.5,3.5] 3.0 16 32% 29 58%
[3.5,4.5] 4.0 17 34% 46 92%
[4.5,5.5] 5.0 4 8% 50 100%
­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­
Nombre dades 50

Tots dos exemples corresponen a conjunts de 50 dades; en tots dos casos la "classe medianera" és la que té com a marca de classe 3.0, perquè és aquella en què la freqüència relativa acumulada supera el 50 %. Tanmateix, aquests dos exemples que acabem de presentar tenen uns polígons de freqüències relatives acumulades ben diferents.

La forma de les poligonals que s'han dibuixat sobre els histogrames de freqüències acumulades (en vermell) provenen del fet de suposar els elements de cada classe uniformement repartits al llarg dels corresponents intervals. Si imaginem les 50 dades de cada conjunt distribuïdes i ordenades d'aquesta manera es veu força clarament que, tot i que els valors centrals d'una distribució i de l'altra queden a la classe del 3.0, en el primer cas queden al principi de la classe i en el segon cas al final. Aquesta idea ens suggereix la conveniència d'ajustar més el valor de la mediana.

Per materialitzar l'observació de la mediana com el valor al qual li correspon la freqüència acumulada del 50 % s'han traçat les línies en verd sobre els gràfics anteriors:

  • Es dibuixa a l'alçada del 50 % de l'eix una recta paral·lela a l'eix d'abscisses, fins que talli la poligonal.
  • A partir d'aquest punt de tall, es traça una recta paral·lela a l'eix d'ordenades per tal de llegir l'abscissa corresponent a aquell punt de tall.
  • El valor determinat sobre l'eix és la mediana.

Podeu veure que la mediana del primer conjunt de dades mesurada sobre el gràfic és, aproximadament, 2.7, i la del segon conjunt de dades és 3.2, valors que concreten allò que ja s'ha dit: en el primer cas, la mediana queda al principi de l'interval de classe, i en el segon cas, al final.

Recordeu que l''exemple que s'acaba de fer segueix una idea conceptual (teòrica) associada a la tabulació d'una variable contínua i que l'Excel no calcula la mediana d'aquesta manera, sinó a partir de les dades originals, i no incorpora de manera clara el treball a partir d'una taula de dada/freqüència.

Si es fa un estudi mitjançant la semblança de triangles en el rectangle corresponent a la classe medianera, es pot establir una fórmula per al càlcul de la mediana com a variable contínua, que es pot escriure així:

  • m representa la mediana que volem calcular.
  • li representa el límit inferior de l'interval de classe on està situada la mediana.
  • L representa la longitud dels intervals de classe.
  • Fa representa la freqüència acumulada en tant per cent corresponent a la classe anterior a aquella en què observem que hi ha d'haver la mediana.
  • Fm representa la freqüència acumulada en tant per cent corresponent a la classe de la mediana (adoneu-vos que Fm- Fa és el percentatge de dades que pertany a la classe medianera).

Si s'aplica aquesta fórmula, naturalment més precisa que l'observació dels gràfics, als dos exemples anteriors, resulta:

Exemple 1: m = 2,69

Exemple 2: m = 3,25

 
Torna a la pràctica
Ampliació

Càlcul dels quartils a l'Excel. Comparació amb altres programes

Seguint amb la visió intuïtiva amb què s'han presentat els quartils, es podria dir que el primer quartil és la mediana de la distribució de dades formada pel conjunt del 50 % de dades inferiors i semblantment el tercer quartil és la mediana del conjunt format pel 50 % de dades superiors. Ara bé, aquesta visió intuïtiva no és del tot rigorosa i porta a diferents criteris sobre "què s'ha de fer amb la mediana" si inicialment hi havia un nombre imparell de dades. La posem en les "meitats de la distribució" o no? Segons que es decideixi una cosa o una altra els valors dels quartils seran diferents i la idea de repartir les dades en "quatre quarts" a vegades no semblarà prou reeixida intuïtivament.

Com a idea general de totes les referències que es poden consultar per a calcular els quartils podem dir que es parteix dels valors ordenats de la distribució

v1, v2, v3, ..., vn–1, vn
i llavors es busquen els "quartils" del conjunt {1, 2, ..., n–1, n} i s'interpola adequadament entre els valors de les dades.

  • A l'obra Exploring data esmentada a la Bibliografia es calculen els quartils com a "medianes de les meitats de la distribució", sense tenir en compte la mediana (si és una dada de la distribució) en els conjunts "meitat de la distribució" (també en el procediment anomenat Diagrames de lletres del programa Minitab es calculen d'aquesta manera uns valors anomenats hinges anàlegs del tot als quartils); la calculadora Wiris del portal edu365.cat procedeix de manera semblant però, en aquest cas, incloent la mediana si escau en cada "meitat" per a calcular els quartils com a "medianes de les meitats".
  • En el programa Minitab, procediment Estadística descriptiva, es calculen els quartils i la mediana (sense més explicació) com els valors que corresponen a (n+1)/4, (n+1)/2 i 3·(n+1)/4.
  • L'Excel ho fa d'una altra manera que explicarem amb detall més avall.
  • D'aquesta manera ens trobem amb els resultats següents:
    Conjunt {1, 2, ..., 10}; quartils Minitab {2,75, 8,25}; quartils Wiris {3, 8}, quartils Excel {3,25, 7,75}
    Conjunt {1, 2, ..., 10, 11}; quartils Minitab {3, 9}; quartils Wiris {3,5, 8,5}, quartils Excel {3,5, 8,5}
    Conjunt {1, 2, ..., 11, 12}; quartils Minitab {3,25, 9,75}; quartils Wiris {3,5, 9,5}, quartils Excel {3,75, 9,25}
  • Tot seguit, en cada cas, si el quartil correspon a un valor k que pertany a l'interval [j, j+1] s'interpola adequadament entre vj i vj+1 per obtenir el valor del quartil de la distribució de dades.

Per buscar els "quartils" del conjunt {1, 2, ..., n–1, n}, és a dir per dividir el conjunt de dades "en quatre parts", i tot seguit obtenir els quartils de la distribució de dades l'Excel procedeix així:

  • Assenyala els nombres 1 i n com el 0 % i el 100 % de la llista que s'ha de "repartir en 4 parts", a manera de "regle graduat".
    Nota: Aquest és el punt que no es fa de la mateixa manera en totes les referències; d'altres consideren que la primera dada ja ha "gastat" un cert percentatge de la llista. Però, tanmateix, aquesta idea de l'Excel correspon fil per randa a la presentació "conceptual" que hem vist en l'ampliació anterior per al càlcul de la mediana sobre el polígon de freqüències.
  • Per trobar la mediana s'observa que el punt del 50% d'aquest "regle graduat" correspon al "subíndex" m = (n + 1)/2, el punt mitjà entre 1 i n. Posarem "subíndex" entre " " perquè pot passar que no resultin nombres enters i, és clar, llavors no són subíndexs. Si aquest valor m és enter (cosa que passarà si n és imparell) el corresponent valor vm és la mediana; altrament caldrà sumar i dividir per dos per interpolar entre els dos valors de la distribució on queda situada la mediana.
  • Si seguim amb aquesta idea, el punt del 25% correspondrà al "subíndex" que hi ha en el punt mitjà entre 1 i (n + 1)/2. D'aquesta manera resulta per al primer quartil el "subíndex" k = (n+3)/4. Si k coincideix amb un nombre enter, j, llavors vj és el quartil buscat; altrament si k queda entre j i j + 1, el quartil buscat s'obtindrà interpolant adequadament entre vj i vj+1.
  • Semblantment es fa per al tercer quartil i es comprova que correspon al "subíndex" donat per l'expressió (3n + 1)/4.

Vegem un exemple amb el conjunt de 10 dades (que es donen ja ordenades) {2, 5, 8, 8, 10, 12, 12, 14, 16, 18}.

  • Si fem el procediment indicat suara veurem que els quartils corresponen a "les posicions" 3,25 i 7,75 respectivament.
  • Per veure el valor del primer quartil hem d'interpolar entre v3 i v4 de la mateixa manera que 3,25 està situat entre 3 i 4. Però com que el tercer i el quart valor de la llista són iguals a 8, aquest seria el valor del primer quartil.
  • Per al tercer quartil hem d'interpolar entre la setena i la vuitena dada, que són 12 i 14 respectivament, de la mateixa manera que 7,75 està entre 7 i 8, és a dir dividint l'interval en 4 parts i agafant la tercera. Per aquesta raó el tercer quartil és 13,5.

En aquest apartat d'ampliació és interessant completar encara una mica més el tema i generalitzar la idea de quartils a la d'un percentil qualsevol en una distribució.

El percentil de l'a % és aquell nombre (no necessàriament un valor de la distribució) que, si s'ordenen les dades de la distribució, correspon a una "posició" expressada en percentatge, de l'a %.

En determinades circumstàncies es pot dir que correspon al valor que té com a freqüència relativa acumulada l'a %.

És del tot clar, llavors, que el primer quartil correspon al percentil del 25 %, la mediana correspon al percentil del 50 % i el tercer quartil correspon al percentil del 75 %.

El procediment de l'Excel per calcular un percentil segueix la idea exposada en la il·lustració anterior (amb la interpolació inclosa) però amb el percentatge que interessi enlloc del 25 %.

  • L'Excel disposa d'una funció que dóna el percentatge que correspon a un valor en una llista. És la funció =RANGO.PERCENTIL(rang de dades; valor; xifres decimals) que retorna un nombre del 0 a l'1 (anècdoticament: no dóna doncs un tant per cent com semblaria lògic vist el nom de la funció, sinó que l'expressa en tant per u).
  • Per calcular, a partir d'una distribució de dades estadístiques, quin és el nombre correspon a un percentatge donat es fa amb la funció PERCENTIL(rang de dades; a) on a representa el "percentatge en tant per u" (sic); aquest nombre que resulta és el que rep el nom de percentil de l'a%.
  • Amb la mateixa denominació que hem fet servir per a l'explicació de la mediana i els quartils i amb un senzill càlcul algebraic podeu veure que el "subíndex" que correspon a un percentil de l'a % és p = 1 + a·(n - 1)/100. Si p és enter el corresponent valor vp ens dóna el percentil de l'a %; altrament caldrà fer la interpolació escaient.
 
Torna a la pràctica
Ampliació En el cas de les variables contínues, es pot fer per als quartils un tractament conceptual semblant al de la mediana

  • Recordeu que la mediana és el valor de la distribució per al qual la freqüència relativa acumulada és del 50 % i ja hem vist com es llegia aquest valor al gràfic del polígon de freqüències relatives acumulades.
  • El primer quartil correspon al valor que té com a freqüència relativa acumulada, llegida sobre el polígon de freqüències acumulades, el 25 %.
  • El tercer quartil correspon al valor que té com a freqüència relativa acumulada, llegida sobre el polígon de freqüències acumulades, el 75 %.

Es pot establir també una fórmula, derivada de l'aplicació de la semblança de triangles, per a cada quartil.

La primera cosa que cal fer, en cas de tenir únicament una tabulació de dades d'una variable contínua, és localitzar les classes a què pertanyen els quartils. Seguidament una fórmula com la que s'ha donat per a la mitjana però substituint-hi el 50 per 25 en el cas del primer quartil i per 75 en el cas del tercer ens dona els valors més precisos per a aquests quartils.

 
Torna a la pràctica
   
Ampliació

Sobre la comparació de la mitjana i la mediana de la mostra per intentar inferir la simetria de la variable estudiada en la població.

  • En primer lloc cal que tingueu en compte que les consideracions seran ben diferents en el cas de dades discretes i mostres no gaire grans (amb el càlcul de la mediana fet seguint la definició intuïtiva, cosa que porta a que una petita variació de les dades pugui portar a un gran canvi en el valor d'aquests paràmetres) o bé si estem treballant amb un conjunt de dades d'una variable contínua que imaginem força nombrós (i llavors apliquem les consideracions d'interpolació que es comenten als apunts del curs, després d'imaginar que hem fet una agrupació en classes i que en cada classe prenem el model "com si" les dades es repartissin de manera uniforme.)
  • Sempre que es vulgui fer una inferència sobre el caràcter de simetria d'una variable en una població la manera més consistent és el càlcul del coeficient d'asimetria. Podem afegir, però, que de tota manera es tracta sempre d'un criteri poc robust.

  • El criteri de "valors semblants per a la mitjana i la mediana, distribució simètrica; mitjana sensiblement més gran que la mediana, cua cap a la dreta, etc..." és un criteri heurístic, absolutament intuïtiu i amb excepcions flagrants.

    • Si es fa el càlcul de la mediana (seguint la definició inicial) en un conjunt de dades discretes, una variació en una sola dada de la distribució pot provocar un "salt" brusc en el valor de la mediana. Això és el que fa que el criteri enunciat en el paràgraf anterior s'hagi de prendre amb moltes precaucions. Podeu veure una aplicació didàctica per a variables discretes feta amb la calculadora Wiris que s'engega amb un exemple clar que ens ensenya la poca fiabilitat del criteri "comparació de la mitjana amb la mediana" (veureu una distribució gens simètrica i, en canvi, coincideixen el valor de la mitjana i la mediana.)
      Podreu modificar la forma de la distribució de dades i anar traient les vostres conclusions.
      Vol dir, a partir del que veiem, que el criteri que ara comentem és erroni? No! simplement que és una visió intuïtiva, amb moltes excepcions.

    • En canvi el criteri és molt més consistent si imaginem que partim d'un histograma corresponent a un conjunt gran de dades d'una variable contínua i fem el càlcul de la mediana per interpolació. Podeu veure-ho en una segona aplicació didàctica per a variables contínues feta amb els supòsits que acabem de comentar. Comprovareu que s'obre amb un exemple de perfil idèntic al del cas anterior però ara el criteri de comparació de la mitjana i la mediana porta a una conclusió correcta.

 

 
Torna a la pràctica
   
Ampliació

Per consultar exemples de diagrames de caixa i confrontar possibles diferències si es fa el càlcul a partir de la definició inicial o per interpolació.

Ja s'ha comentat la possibilitat de "salts" en els valors de la mitjana (i semblantment en els quartils) si es calcula amb la definició intuïtiva. Ara bé, si imaginem que partim d'un histograma corresponent a un conjunt gran de dades d'una variable contínua i fem el càlcul de la mediana per interpolació s'aconsegueix una matisació en el valor de la mediana que evita els "salts bruscs de valor" i, alhora, explica amb més precisió la posició de la mediana.

Si fem el càlcul de la mediana d'una manera o d'una altra, això afecta molt la forma dels diagrames de caixa. L'aplicació didàctica (amb dues versions) que s'ha presentat en l'ampliació anterior permet construir de manera interactiva el vostre propi diagrama de barres o histograma i confrontar-lo amb el diagrama de caixa corresponent (i, per tant, visualitzar els valors de la mediana i els quartils.)

  • Mediana i quartils per un conjunt de dades discretes. Diagrama de caixa.

  • Mediana i quartils calculats per interpolació en un histograma corresponent a una variable contínua. Diagrama de caixa.

 

 
Torna a la pràctica