På väg till nollpunkten
Diagram där y-axeln inte börjar på 0 kan ses som vilseledande, genom att
de förmedlar ett intryck av att en skillnad är större än den faktiskt
är. Detta diskuteras i ett inlägg av Neil Saunders som publicerades för
några veckor sedan (Saunders 2016), där han exemplifierar med diagram
som visar hur antalet röster på demokraternas och republikanernas
kandidater i de amerikanska presidentvalen förändrats från 2008 till
2016. Han visar på hur standardinställningarna för y-axeln varierar
mellan olika typer av diagram i ggplot2, ett populärt grafiksystem för R
(Wickham 2009). Om valtrenden ritas upp som stapeldiagram börjar y-axeln
på 0; om den däremot ritas upp som linjediagram börjar den på något
under 60 miljoner (strax över minimum för någon partikandidat). Det går
förstås att ändra genom att explicit ange limits
, men det verkar bygga
på idén att det är viktigt att börja på 0 i stapeldiagram, men inte
nödvändigtvis i linjediagram. Det sägs också i en Quartzartikel inlägget
hänvisar till (Yanofsky 2015). För linjediagram det är det i många
fall olämpligt att börja skalan på y-axeln på 0. Är det t.ex. en
feberkurva för en människa vore det absurt. Är det ett diagram med
logaritmisk skala vore det omöjligt – \(\log(0)\) är inte definierat. Men
stapeldiagram skall alltid börja på 0, därför att staplarna måste
sträcka sig till 0 för att korrekt spegla kvoterna mellan datapunkterna.
Detta kan kopplas till diskussionen om S.S. Stevens klassifikation av
olika nivåer
av skalor för mätning. En skala \(s\) tilldelar en individ
eller ett objekt \(i\) ett tal \(s(i)\) beroende på dess längd, vikt,
temperatur, kön, humör etc. En transformation \(f\) kan överföra en skala
till en annan: Celsius till Fahrenheit, tum till meter, gram till
skålpund. Grundidén är att ju mer information som ges av de tal som
används i en skala, desto färre transformationer till andra skalor kan
göras utan att information går förlorad.
- Nominal
- Enkel klassificering utan rangordning. Alla transformationer är tillåtna så länge grupperingen av individer inte förändras. Siffror kan ersättas med bokstäver. Typiska exempel är klassificering efter kön, bostadsort, yrke etc.
- Ordinal
- Rangordning utan information om intervallens storlek. Tillåtna transformationer bevarar rangordningen: om \(s(i)>s(j)\) gäller att \(f[s(i)]>f[s(j)]\). Psykologiska mätningar av kognitiva förmågor, attityd och liknande räknas ofta hit.
- Intervall
-
Ger information om intervallens storlek. För att en transformation
skall bevara denna information krävs att det finns en konstant \(c\),
där \(s(i)-s(j)=c(f[s(i)]-f[s(j)])\). Ett exempel är konvertering från
Fahrenheit till Celsius, där \(c=1{,}8\), t.ex.
\(104-68=1{,}8(40-20)\). - Kvot
- Ger information om kvoter: för tillåtna transformationer gäller \(s(i)/s(j)=f[s(i)]/f[s(j)]\). Meter kan transformeras till kilometer, millimeter, tum, men kvoterna mellan längder förblir konstanta. Transformationer får därmed inte förskjuta nollpunkten. Temperaturskalor som utgår från den absoluta nollpunkten, som Kelvin och Rankine, räknas också hit.1
Ju färre transformationer som är tillåtna, desto mer statistik över
mätvärdena överlever alla tillåtna transformationer utan att dess mening
förändras. En idé som förespråkades av Stevens är att forskare bara
skall använda sådan statistik vars mening förblir oförändrad över alla
tillåtna transformationer. Kvoter mellan temperatur på Celsius och
Fahrenheit uppfyller t.ex. inte detta: 40 °C motsvarar 104 °F och
\(40/2=20\), men \(104/2=52\) och 52 °F motsvarar ca 11 °C. Sådana kvoter,
som på detta vis är beroende av valet av skala, beskrivs ofta som
meningslösa
.
Om dessa idéer om tillåtna transformationer och tillåten statistik kombineras med Quartzartikelns argument att staplar måste spegla kvoter mellan datapunkter korrekt, blir slutsatsen att vi aldrig kan använda stapeldiagram för att jämföra sådant som inte mäts på kvotskala. Utgår vi från den nämnda klassifikationen av temperaturskalor kan vi t.ex. inte göra stapeldiagram med temperaturjämförelser om vi inte utgår från den absoluta nollpunkten.
Men Stevens idéer har kritiserats ända sedan 1950-talet, bl.a. med
hänvisning till att det är bakvänt att klassificera vissa
transformationer och statistiska metoder som meningsfulla för ens
mätvärden oberoende av de frågor som skall besvaras och de resultat
olika tester ger (Velleman och Wilkinson 1993). Om vi transformerar meterskalan genom
att dra ifrån en konstant, som 1,7 (något i närheten av medellängden för
Sveriges befolkning), har vi inte längre ett mått på absolut längd, utan
på avvikelse från medellängden: därför är det inte en tillåten
transformation av längdskalan. Vi kan använda ett måttband graderat
enligt den nya skalan för att mäta längdskillnader i ett sammanhang där
förhållandet till medellängden inte har någon speciell betydelse: då kan
den ses som en intervallskala för längd. Men är vi intresserade av just
detta förhållande finns å andra sidan inga hinder för att beräkna kvoter
och rita staplar, där avvikelsen utgör skalan på y-axeln. Anta att vi
vill rita upp en mängd positiva avvikelser från medellängden (kanske
längden hos spelarna i ett basketlag): staplarnas relativa storlek
förblir då densamma oavsett om vi har en skala baserad på avvikelsen,
där y-axeln börjar på 0, eller om vi har en absolut längdskala, där
y-axeln börjar på 1,7. Därför är det tveksamt om staplar som inte
sträcker sig till 0 nödvändigtvis ger en felaktig representation av
kvoterna: är det avvikelsen från 1,7 vi är intresserade av är det 1,7
som är den relevanta nollpunkten.
Något liknande förhållandet mellan skalorna för absolut längd och avvikelse från medellängden gäller förhållandet mellan Kelvinskalan och Celsiusskalan. Celsiusskalan kan betraktas som en intervallskala för temperatur, men den kan också, på motsvarande sätt som den transformerade meterskalan i exemplet ovan, betraktas som en kvotskala för temperaturavvikelse från vattnets fryspunkt (även om det med moderna SI-definitioner bara är ungefärligt sant). I de flesta sammanhang kanske inte just kvoter mellan sådana avvikelser är så intressanta, men om de är av intresse är det inte längre en godtycklig nollpunkt.
Ett exempel i Quartzartikeln handlar, som nämnts, om feberkurvor: de
vore inte speciellt informativa om de började på 0, i Celsius,
Fahrenheit eller Kelvin. För feberkurvor används linjediagram, där
argumentet om kvoter mellan staplar inte gäller. Men vi kan vilja
använda stapeldiagram för att jämföra temperaturen hos ett antal
individer med feber: det vi då vill åskådliggöra är just deras avvikelse
från normal temperatur. Strängt taget borde vi då kanske definiera en ny
mänsklig
temperaturskala M, med en formel för konvertering från
Celsius i stil med \(\text{M}=\text{C}-36{,}8\). Det vore då en skala med
i sammanhanget icke godtycklig nollpunkt. Men frågan är om det inte i
ett sådant fall vore mindre förvirrande för de som skall läsa diagrammet
att utgå från Celsiusskalan och låta y-axeln börja på 36,8.
Många stapeldiagram i olika media är utan tvivel missvisande därför att skalan på y-axeln konstruerats på ett tendentiöst sätt, utifrån ett intervall som inte har någon verklig relevans för de samband om illustreras, men det är inte samma sak som att alla stapeldiagram måste utgå från 0.
Referenser
Det sägs ibland att kvotskalor inte kan anta värden under 0 (Eliasson 2013, 38). Men det kriteriet riskerar att utesluta även de absoluta temperaturskalorna, eftersom åtminstone vissa moderna definitioner av temperatur och relaterade begrepp tillåter negativa temperaturer även för dessa skalor (Wikipedia 2016).↩︎