Tal om tal
Den 11 januari 2018 skrev jag om Frans (2017),
en bra bok som går ut på att hjälpa folk att genomskåda sådant som
vilseledande information om vetenskapliga resultat i media. En annan bok
som berör delvis överlappande ämnen är Kernighan (2018). Författaren,
Brian W. Kernighan, är sedan länge välkänd inom IT-kretsar. Han var
delaktig i utvecklingen av Unix och relaterade verktyg vid Bell Labs
från 1970-talet och framåt, och är K
dels i boken The C progamming
language (K&R), skriven tillsammans med Dennis Ritchie, dels i
programspråket/verktyget awk, som skapades 1977 och fortfarande är ett
av de mest effektiva verktygen för att rensa, strukturera och även
utföra enkla analyser av dataset i textformat, som jag exemplifierade
den 12 oktober. Det framgår av tryckortssidan i
Kernighans nya bok att han fortfarande typsätter med hjälp av groff
(öppen implementering av troff, ett annat Unixprogram från 1970-talet).
Boken är som helhet enkel och koncis (som awk). Trots överlappningarna skiljer den sig från Frans bok genom att den inte fokuserar så mycket på vad vetenskap är utan, som titeln antyder, mer handlar om att utveckla ett sinne för vad som är rimligt när det gäller siffror, för att kunna avgöra när det finns behov att granska vad som ligger bakom påståenden om numeriska kvantiteter, som ofta förekommer i traditionella nyhetskanaler, böcker, sociala medier etc. Det är t.ex. användbart att ha ungefärlig kunskap om enkla numeriska fakta, som länders befolkning och medellivslängd, förhållandet mellan olika måttsystem och tumregler som 72-regeln för exponentiell tillväxt och Littles lag, som kan användas för att relatera t.ex. folkmängden och medellivslängden till antalet personer som genomgår en viss fas i livet (även om det förstås är en approximation, på grund av förändringar i födelse- och dödstal och in- och utvandring).
Kernighans bok innehåller en hel del slående exempel på felaktig användning av siffor. Någon kommentator i klimatfrågan tänker sig att eftersom 1 °C motsvarar 33,8 °F, skulle en temperaturökning med 0,5 °C motsvara nära 17 °F (Kernighan 2018, 78). Möjligen var poängen att några sådana temperaturökningar uppenbarligen inte har ägt rum, och att det klimatforskarna säger alltså är nonsens. Dock är inte heller de som tar klimatkrisen på allvar immuna mot enkla matematiska fel. Glaciärerna i Alperna minskar med 1 procent per år, alltså kommer de att vara borta om 100 år, om den minskningstakten hålls konstant (Kernighan 2018, 128). Det kan i och för sig, som Kernighan påpekar, vara så att de är borta om 100 år, men det skulle innebära en avvikelse från detta exponentiella avtagande.
Det finns också ett kapitel om vilseledande diagram. Liksom Frans tar
Kernighan här upp diagram med beskuren
y-axel (gee-whiz graphs
)
(Kernighan 2018, 96–99). Han säger att dessa kan vara vilseledande
men hänvisar också till Edward Tufte (som jag tog upp den 28 januari
2018), som ger rådet att göra diagram med en
baslinje som visar ens data, inte en massa tomt utrymme ned till 0, och
Kernighan säger att det inte finns något enda rätt svar i frågan. Jo,
jag argumenterade i mina inlägg för att det inte är meningsfullt att
rekommendera att börja på 0
oberoende av vad som är en relevant
baslinje för undersökningen. Samtidigt är det otvivelaktigt så att den
som tolkar ett diagram måste vara uppmärksam på vilket variationsområde
diagrammet visar.
En del exempel handlar om sammanblandning av olika typer av mått när det
gäller hälsoutfall. Det kan vara sammanblandning av årlig risk med
livstidsrisk, som när det sägs att 221 000 amerikanska män, one out
every six men
, kommer att diagnostiseras med prostatacancer under 2003
(Kernighan 2018, 122). Eller så kan det vara sammanblandning av
mortalitet med prevalens, som att 150 000 amerikanska kvinnor dör av
anorexi varje år (Kernighan 2018, 112). I båda dessa fall kan den som
har en ungefärlig uppfattning om folkmängd och medellivslängd i USA lätt
inse att något inte är korrekt.
En sak jag skrivit en del om tidigare är kampanjer kring olika
sjukdomar, som sepsis och cirkulationssjukdom bland kvinnor, där ett
viktigt inslag är att framställa dem som bortglömda
i förhållande till
andra sjukdomar, gärna med hänvisning till enkäter. Den 4 juni
2017 tog jag upp sepsis, där det uppgetts att
37 000 personer i Storbritannien och 8000 i Sverige dör varje år.
Problemet här är att olika sätt att uppskatta dödsorsaker (underliggande
dödsorsak, nämnd dödsorsak på intyget, antal personer som dött kort
efter att de vårdats med en viss diagnos, modeller av säsongsrelaterad
överdödlighet) kan ge resultat som varierar med en eller flera
storleksordningar, speciellt när det gäller tillstånd som influensa,
lunginflammation och sepsis, som ofta är bidragande dödsorsaker hos
personer med andra allvarliga sjukdomar. Sedan ställs mått för olika
dödsorsaker baserade på olika typer av uppskattningar bredvid varandra,
vilket lätt blir missvisande. Dessa problem tas inte upp av Kernighan,
men åter gäller att en uppgift som att 8000 svenskar per år dör av
sepsis borde få den som har en ungefärlig uppfattning om folkmängd och
medellivslängd i Sverige att fatta misstankar om att det är något som
behöver klargöras närmare. Likaså i fallet med hjärt- eller
cirkulationssjukdom: här är det så att alla dödsfall torde kunna
beskrivas som i viss mån hjärtrelaterade (en observation som gjordes
redan av Björnström (1883)). De siffror som figurerar handlar ofta om
andelen personer med cirkulationsjukdom som underliggande dödsorsak,
vilket (speciellt bland kvinnor) är starkt beroende av benägenheten att
rapportera detta vid hög ålder, där många lider av multipla sjukdomar
och försämringar i kroppen.