På väg till nollpunkten

Postad 2016-12-11 av Karl Pettersson. Taggar: grafik

Diagram där y-axeln inte börjar på 0 kan ses som vilseledande, genom att de förmedlar ett intryck av att en skillnad är större än den faktiskt är. Detta diskuteras i ett inlägg av Neil Saunders som publicerades för några veckor sedan (Saunders 2016), där han exemplifierar med diagram som visar hur antalet röster på demokraternas och republikanernas kandidater i de amerikanska presidentvalen förändrats från 2008 till 2016. Han visar på hur standardinställningarna för y-axeln varierar mellan olika typer av diagram i ggplot2, ett populärt grafiksystem för R (Wickham 2009). Om valtrenden ritas upp som stapeldiagram börjar y-axeln på 0; om den däremot ritas upp som linjediagram börjar den på något under 60 miljoner (strax över minimum för någon partikandidat). Det går förstås att ändra genom att explicit ange limits, men det verkar bygga på idén att det är viktigt att börja på 0 i stapeldiagram, men inte nödvändigtvis i linjediagram. Det sägs också i en Quartzartikel inlägget hänvisar till (Yanofsky 2015). För linjediagram det är det i många fall olämpligt att börja skalan på y-axeln på 0. Är det t.ex. en feberkurva för en människa vore det absurt. Är det ett diagram med logaritmisk skala vore det omöjligt – \(\log(0)\) är inte definierat. Men stapeldiagram skall alltid börja på 0, därför att staplarna måste sträcka sig till 0 för att korrekt spegla kvoterna mellan datapunkterna.

Detta kan kopplas till diskussionen om S.S. Stevens klassifikation av olika nivåer av skalor för mätning. En skala \(s\) tilldelar en individ eller ett objekt \(i\) ett tal \(s(i)\) beroende på dess längd, vikt, temperatur, kön, humör etc. En transformation \(f\) kan överföra en skala till en annan: Celsius till Fahrenheit, tum till meter, gram till skålpund. Grundidén är att ju mer information som ges av de tal som används i en skala, desto färre transformationer till andra skalor kan göras utan att information går förlorad.

Nominal
Enkel klassificering utan rangordning. Alla transformationer är tillåtna så länge grupperingen av individer inte förändras. Siffror kan ersättas med bokstäver. Typiska exempel är klassificering efter kön, bostadsort, yrke etc.
Ordinal
Rangordning utan information om intervallens storlek. Tillåtna transformationer bevarar rangordningen: om \(s(i)>s(j)\) gäller att \(f[s(i)]>f[s(j)]\). Psykologiska mätningar av kognitiva förmågor, attityd och liknande räknas ofta hit.
Intervall
Ger information om intervallens storlek. För att en transformation skall bevara denna information krävs att det finns en konstant \(c\), där \(s(i)-s(j)=c([f[s(i)]-[f[s(j)])\). Ett exempel är konvertering från Fahrenheit till Celsius, där \(c=1{,}8\), t.ex.
\(104-68=1{,}8(40-20)\).
Kvot
Ger information om kvoter: för tillåtna transformationer gäller \(s(i)/s(j)=f[s(i)]/f[s(j)]\). Meter kan transformeras till kilometer, millimeter, tum, men kvoterna mellan längder förblir konstanta. Transformationer får därmed inte förskjuta nollpunkten. Temperaturskalor som utgår från den absoluta nollpunkten, som Kelvin och Rankine, räknas också hit.1

Ju färre transformationer som är tillåtna, desto mer statistik över mätvärdena överlever alla tillåtna transformationer utan att dess mening förändras. En idé som förespråkades av Stevens är att forskare bara skall använda sådan statistik vars mening förblir oförändrad över alla tillåtna transformationer. Kvoter mellan temperatur på Celsius och Fahrenheit uppfyller t.ex. inte detta: 40 °C motsvarar 104 °F och \(40/2=20\), men \(104/2=52\) och 52 °F motsvarar ca 11 °C. Sådana kvoter, som på detta vis är beroende av valet av skala, beskrivs ofta som meningslösa.

Om dessa idéer om tillåtna transformationer och tillåten statistik kombineras med Quartzartikelns argument att staplar måste spegla kvoter mellan datapunkter korrekt, blir slutsatsen att vi aldrig kan använda stapeldiagram för att jämföra sådant som inte mäts på kvotskala. Utgår vi från den nämnda klassifikationen av temperaturskalor kan vi t.ex. inte göra stapeldiagram med temperaturjämförelser om vi inte utgår från den absoluta nollpunkten.

Men Stevens idéer har kritiserats ända sedan 1950-talet, bl.a. med hänvisning till att det är bakvänt att klassificera vissa transformationer och statistiska metoder som meningsfulla för ens mätvärden oberoende av de frågor som skall besvaras och de resultat olika tester ger (Velleman och Wilkinson 1993). Om vi transformerar meterskalan genom att dra ifrån en konstant, som 1,7 (något i närheten av medellängden för Sveriges befolkning), har vi inte längre ett mått på absolut längd, utan på avvikelse från medellängden: därför är det inte en tillåten transformation av längdskalan. Vi kan använda ett måttband graderat enligt den nya skalan för att mäta längdskillnader i ett sammanhang där förhållandet till medellängden inte har någon speciell betydelse: då kan den ses som en intervallskala för längd. Men är vi intresserade av just detta förhållande finns å andra sidan inga hinder för att beräkna kvoter och rita staplar, där avvikelsen utgör skalan på y-axeln. Anta att vi vill rita upp en mängd positiva avvikelser från medellängden (kanske längden hos spelarna i ett basketlag): staplarnas relativa storlek förblir då densamma oavsett om vi har en skala baserad på avvikelsen, där y-axeln börjar på 0, eller om vi har en absolut längdskala, där y-axeln börjar på 1,7. Därför är det tveksamt om staplar som inte sträcker sig till 0 nödvändigtvis ger en felaktig representation av kvoterna: är det avvikelsen från 1,7 vi är intresserade av är det 1,7 som är den relevanta nollpunkten.

Något liknande förhållandet mellan skalorna för absolut längd och avvikelse från medellängden gäller förhållandet mellan Kelvinskalan och Celsiusskalan. Celsiusskalan kan betraktas som en intervallskala för temperatur, men den kan också, på motsvarande sätt som den transformerade meterskalan i exemplet ovan, betraktas som en kvotskala för temperaturavvikelse från vattnets fryspunkt (även om det med moderna SI-definitioner bara är ungefärligt sant). I de flesta sammanhang kanske inte just kvoter mellan sådana avvikelser är så intressanta, men om de är av intresse är det inte längre en godtycklig nollpunkt.

Ett exempel i Quartzartikeln handlar, som nämnts, om feberkurvor: de vore inte speciellt informativa om de började på 0, i Celsius, Fahrenheit eller Kelvin. För feberkurvor används linjediagram, där argumentet om kvoter mellan staplar inte gäller. Men vi kan vilja använda stapeldiagram för att jämföra temperaturen hos ett antal individer med feber: det vi då vill åskådliggöra är just deras avvikelse från normal temperatur. Strängt taget borde vi då kanske definiera en ny mänsklig temperaturskala M, med en formel för konvertering från Celsius i stil med \(\text{M}=\text{C}-36{,}8\). Det vore då en skala med i sammanhanget icke godtycklig nollpunkt. Men frågan är om det inte i ett sådant fall vore mindre förvirrande för de som skall läsa diagrammet att utgå från Celsiusskalan och låta y-axeln börja på 36,8.

Många stapeldiagram i olika media är utan tvivel missvisande därför att skalan på y-axeln konstruerats på ett tendentiöst sätt, utifrån ett intervall som inte har någon verklig relevans för de samband om illustreras, men det är inte samma sak som att alla stapeldiagram måste utgå från 0.

Referenser

Eliasson, Annika. 2013. Kvantitativ metod från början. 3., uppdaterade uppl.

Saunders, Neil. 2016. ”The y-axis: to zero or not to zero”. https://nsaunders.wordpress.com/2016/11/20/the-y-axis-to-zero-or-not-to-zero/.

Velleman, Paul F. och Leland Wilkinson. 1993. ”Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading”. The American Statistician 47. doi:10.2307/2684788.

Wickham, Hadley. 2009. ggplot2: Elegant Graphics for Data Analysis. http://ggplot2.org.

Wikipedia. 2016. ”Negative temperature – Wikipedia”. https://en.wikipedia.org/w/index.php?title=Negative_temperature&oldid=742542669.

Yanofsky, David. 2015. ”It’s OK not to start your y-axis at zero”. Quartz (8 juni). http://qz.com/418083/its-ok-not-to-start-your-y-axis-at-zero/.


  1. Det sägs ibland att kvotskalor inte kan anta värden under 0 (Eliasson 2013, 38). Men det kriteriet riskerar att utesluta även de absoluta temperaturskalorna, eftersom åtminstone vissa moderna definitioner av temperatur och relaterade begrepp tillåter negativa temperaturer även för dessa skalor (Wikipedia 2016).