Tal om tal

Postad 2019-12-14 av Karl Pettersson. Taggar:

Den 11 januari 2018 skrev jag om Frans (2017), en bra bok som går ut på att hjälpa folk att genomskåda sådant som vilseledande information om vetenskapliga resultat i media. En annan bok som berör delvis överlappande ämnen är Kernighan (2018). Författaren, Brian W. Kernighan, är sedan länge välkänd inom IT-kretsar. Han var delaktig i utvecklingen av Unix och relaterade verktyg vid Bell Labs från 1970-talet och framåt, och är K dels i boken The C progamming language (K&R), skriven tillsammans med Dennis Ritchie, dels i programspråket/verktyget awk, som skapades 1977 och fortfarande är ett av de mest effektiva verktygen för att rensa, strukturera och även utföra enkla analyser av dataset i textformat, som jag exemplifierade den 12 oktober. Det framgår av tryckortssidan i Kernighans nya bok att han fortfarande typsätter med hjälp av groff (öppen implementering av troff, ett annat Unixprogram från 1970-talet).

Boken är som helhet enkel och koncis (som awk). Trots överlappningarna skiljer den sig från Frans bok genom att den inte fokuserar så mycket på vad vetenskap är utan, som titeln antyder, mer handlar om att utveckla ett sinne för vad som är rimligt när det gäller siffror, för att kunna avgöra när det finns behov att granska vad som ligger bakom påståenden om numeriska kvantiteter, som ofta förekommer i traditionella nyhetskanaler, böcker, sociala medier etc. Det är t.ex. användbart att ha ungefärlig kunskap om enkla numeriska fakta, som länders befolkning och medellivslängd, förhållandet mellan olika måttsystem och tumregler som 72-regeln för exponentiell tillväxt och Littles lag, som kan användas för att relatera t.ex. folkmängden och medellivslängden till antalet personer som genomgår en viss fas i livet (även om det förstås är en approximation, på grund av förändringar i födelse- och dödstal och in- och utvandring).

Kernighans bok innehåller en hel del slående exempel på felaktig användning av siffor. Någon kommentator i klimatfrågan tänker sig att eftersom 1 °C motsvarar 33,8 °F, skulle en temperaturökning med 0,5 °C motsvara nära 17 °F (Kernighan 2018, 78). Möjligen var poängen att några sådana temperaturökningar uppenbarligen inte har ägt rum, och att det klimatforskarna säger alltså är nonsens. Dock är inte heller de som tar klimatkrisen på allvar immuna mot enkla matematiska fel. Glaciärerna i Alperna minskar med 1 procent per år, alltså kommer de att vara borta om 100 år, om den minskningstakten hålls konstant (Kernighan 2018, 128). Det kan i och för sig, som Kernighan påpekar, vara så att de är borta om 100 år, men det skulle innebära en avvikelse från detta exponentiella avtagande.

Det finns också ett kapitel om vilseledande diagram. Liksom Frans tar Kernighan här upp diagram med beskuren y-axel (gee-whiz graphs) (Kernighan 2018, 96–99). Han säger att dessa kan vara vilseledande men hänvisar också till Edward Tufte (som jag tog upp den 28 januari 2018), som ger rådet att göra diagram med en baslinje som visar ens data, inte en massa tomt utrymme ned till 0, och Kernighan säger att det inte finns något enda rätt svar i frågan. Jo, jag argumenterade i mina inlägg för att det inte är meningsfullt att rekommendera att börja på 0 oberoende av vad som är en relevant baslinje för undersökningen. Samtidigt är det otvivelaktigt så att den som tolkar ett diagram måste vara uppmärksam på vilket variationsområde diagrammet visar.

En del exempel handlar om sammanblandning av olika typer av mått när det gäller hälsoutfall. Det kan vara sammanblandning av årlig risk med livstidsrisk, som när det sägs att 221 000 amerikanska män, one out every six men, kommer att diagnostiseras med prostatacancer under 2003 (Kernighan 2018, 122). Eller så kan det vara sammanblandning av mortalitet med prevalens, som att 150 000 amerikanska kvinnor dör av anorexi varje år (Kernighan 2018, 112). I båda dessa fall kan den som har en ungefärlig uppfattning om folkmängd och medellivslängd i USA lätt inse att något inte är korrekt.

En sak jag skrivit en del om tidigare är kampanjer kring olika sjukdomar, som sepsis och cirkulationssjukdom bland kvinnor, där ett viktigt inslag är att framställa dem som bortglömda i förhållande till andra sjukdomar, gärna med hänvisning till enkäter. Den 4 juni 2017 tog jag upp sepsis, där det uppgetts att 37 000 personer i Storbritannien och 8000 i Sverige dör varje år. Problemet här är att olika sätt att uppskatta dödsorsaker (underliggande dödsorsak, nämnd dödsorsak på intyget, antal personer som dött kort efter att de vårdats med en viss diagnos, modeller av säsongsrelaterad överdödlighet) kan ge resultat som varierar med en eller flera storleksordningar, speciellt när det gäller tillstånd som influensa, lunginflammation och sepsis, som ofta är bidragande dödsorsaker hos personer med andra allvarliga sjukdomar. Sedan ställs mått för olika dödsorsaker baserade på olika typer av uppskattningar bredvid varandra, vilket lätt blir missvisande. Dessa problem tas inte upp av Kernighan, men åter gäller att en uppgift som att 8000 svenskar per år dör av sepsis borde få den som har en ungefärlig uppfattning om folkmängd och medellivslängd i Sverige att fatta misstankar om att det är något som behöver klargöras närmare. Likaså i fallet med hjärt- eller cirkulationssjukdom: här är det så att alla dödsfall torde kunna beskrivas som i viss mån hjärtrelaterade (en observation som gjordes redan av Björnström (1883)). De siffror som figurerar handlar ofta om andelen personer med cirkulationsjukdom som underliggande dödsorsak, vilket (speciellt bland kvinnor) är starkt beroende av benägenheten att rapportera detta vid hög ålder, där många lider av multipla sjukdomar och försämringar i kroppen.

Referenser

Björnström, Fredrik. 1883. ”Hjertsjukdomar”. I Nordisk familjebok, 1800-talsutgåvan 6, red. B. F. Olsson, John Rosén, och Theodor Westrin, 1322–1323. http://runeberg.org/nfaf/0666.html.
Frans, Emma. 2017. Larmrapporten : Att skilja vetenskap från trams.
Kernighan, Brian W. 2018. Millions, billions, zillions.