Visar inlägg med etikett Bayes teorem. Visa alla inlägg
Visar inlägg med etikett Bayes teorem. Visa alla inlägg

torsdag 16 april 2020

En bayesiansk analys av pandemin

På senare tid har intresset för bayesiansk analys ökat starkt. Läkare, ingenjörer och finansmän använder bayesianska metoder som stöd i beslutsfattande. Psykologer och hjärnforskare utforskar hjärnans bayesianska funktionssätt. Det används inom maskininlärning och AI. Ditt spamfilter arbetar enligt bayesianska principer. Statistiker använder i allt högre grad bayesiansk analys.

Du startar med en hypotes och en viss grad av tro på den hypotesen. Denna tro är baserad på dina förkunskaper. Därefter samlar du in data och uppdaterar din ursprungliga tro. Om data stöder hypotesen ökar sannolikheten, om de inte stöder hypotesen, minskar sannolikheten.

Det finns ingen naiv prognosmetodik

Det är ungefär så din hjärna fungerar. Du tror något baserat på din modell av världen. Din tro leder till en kvalificerad gissning. Din gissning möter världen och det ger dig återkoppling. Därefter uppdaterar du din modell av världen.

En viktig del av bayesianism är att den är uttalat subjektiv. Du måste redovisa dina antaganden. Du tror någonting. All statistik, även frekvensstatistik, görs av människor med värderingar. Det finns ingen naiv prognosmetodik, som min gamla professor Martin Edman sa. 

Varken matematiska modeller eller mänskligt tänkande kan fungera utan antaganden. Du kan låtsas som att du är objektiv, men du har i grunden en tro.

Hur hantera man osäkerhet om pandemier med hjälp av bayesiansk analys? 


Säg att händelsen A är en pandemi med miljontals döda. Hur borde sannolikheten för A uppskattas, med tanke på de data som fanns i december 2019? Jo, under de senaste 100 åren har det varit tre pandemier: spanska sjukan 1918, Asiaten 1957 och Hongkong-influensan 1968. Tre pandemier under de senaste 100 åren ger en sannolikhet på 3 procent, P(A) = 3%. Det blir vår basprognos.

Sannolikheten att ett nytt virus dyker upp är händelse B. Då måste prognosen för A uppdateras. Risken för en nytt virus B om hypotes A är sann skrivs som P (B | A). Sannolikheten för ett nytt virus 2020 om det finns ett virus är 100%. Du kommer inte att se ett nytt virus såvida inte ett nytt virus har dykt upp. Så P (B | A) = 100%.

Vad är risken för att ett nytt virus B, om vår hypotes A är falsk? Kan ett nytt virus dyka upp om vi i början av 2020 inte ser en pandemi? Vad är den sannolikheten?
Bayes sats.

Alla nya virus blir inte pandemier, som fågel- och svininfluensa. Eftersom vi vet att det nya viruset dessutom är ett coronavirus kan vi uppdatera våra sannolikheter. De senaste tjugo åren har det varit två utbrott av coronavirus: SARS-CoV 2003-2004 och MERS-CoV 2012-2015, men de skapade ingen pandemi. Utbrott av coronavirus inträffar alltså när hypotesen A är falsk. Vi antar att sannolikheten för det är 33%, dvs P (B | ~ A) = 33%. (källa)

Vi använder nu Bayes sats för att uppdatera vår prognos för hypotes A. Det formella uttrycket för teoremet är:

Ny prognos för A = P (B | A) * P (A) / [(P (B | A) * P (A)) + (P (B | ~ A) * P (~ A))] 

Efter att ha stoppat in värdena uppdateras prognos för en global pandemi som börjar 2020 från 3% till 8,5%. När sannolikheten för basprognosen är låg ökar sannolikheten rejält med nytt data. Risken för en pandemi 2020 nästan tredubblades från vad den var i början av året.

Poängen med bayesianskt tänkesätt är att du kontinuerligt uppdaterar din tidigare tro när du får ny information. Dessa uppdateringar görs på den nya prognosen som visar P(A)=8,5%, inte den gamla på 3%. Så sannolikheter kan snabbt öka i takt med ny information. 

Det gäller också i vardagen. I början av året trodde många att Covid-19 var en sorts influensa. Ingenting att oroa sig för. Nu har de flesta uppdaterat den föreställningen. SARS-CoV-2 är något nytt och okänt.

I takt med att Cov-19 sprider sig är det viktigt att sätta siffror och sannolikheter: hur smittsam är Cov-19, hur reagerar Cov-19 på särskilda åtgärder, hur många kommer att smittas och hur många sjukhussängar behövs? Det handlar om att ligga steget före och bayesiansk analys ger prognoser i en osäker värld. Varje prognos omges med ett mått av osäkerhet med scenarier som sträcker sig från pessimistiska till optimistiska. Pandemier är komplexa och kräver fler perspektiv än ett enda expertperspektiv.

Det fanns kunskap om SARS-CoV och MERS-CoV. De som insjuknade av SARS-CoV 2003 hade tydliga symtom som feber, hosta och muskelvärk. Dödligheten var 10%. I början spreds det snabbt (R0=3), sedan sattes hårda åtgärder in och R0 sjönk till 0,7 och viruset försvann. MERS-CoV, som fortfarande finns kvar och har en dödlighet på 35%, kan ge symtom som feber och hosta, men tycks också vara asymtomatisk

Eftersom MERS-CoV utgör 50% av de farliga coronavirus de senaste 20 åren leder det till att sannolikheten för en pandemi uppdateras. Om det finns en sannolikhet att CoV-19 sprids utan symtom bör man genast dra ner på antal möten mellan människor.

Min åsikt är att man snabbt sätter in åtgärder när man står inför något okänt. Man tar det säkra före det osäkra. Det är en försiktighetsprincip. Jag tror de flesta tillämpar den principen i vardagen. Om något nytt och skrämmande närmar sig dörren stänger man den, sedan öppnar man försiktigt. Inte tvärtom. Det är viktigt med transparens. Hemliga beslut skapar misstro. Vilka antaganden görs? Bayes gör dem tydliga.


Ett räkneexempel:

Jag har skrivit utförligt om bayesiansk analys i ett tidigare inlägg, men exemplet nedan visar att man inte alltid kan lita på sunt förnuft.

När man gjorde HIV-test fick man dessa siffror i USA:
sannolikheten att ett test visar att en person med HIV är infekterad: p(Hiv+|Hiv)= 0,977
sannolikheten att ett test visar att en frisk person inte är infekterad: p(Hiv-|ej Hiv) = 0,926
sannolikheten för att en person i USA har HIV: p(Hiv) = 0,0026

Vad är sannolikheten att en person är sjuk när ett test visar att personen är infekterad med HIV?

Bayes sats = (0,997x0,926)/(0,997x0,926) + (1-0.926)x(1-0,0026) = 0,033.
Sannolikheten att man har HIV om testet visar det är alltså drygt 3 procent.

tisdag 17 oktober 2017

Bayesiansk beslutsteori hjälper dig att tänka

Hur säkert vet du det du tror att du vet? Det första steget mot kunskap är att inse att dina kunskaper är ofullständiga. Det är också vad Sokrates menade kännetecknade en vis människa som han själv – en som vet att han inte vet. Men även om du inte vet, så vet du också att vissa gissningar är bättre än andra. Det är det andra steget till kunskap. Dessa två steg är också grunden till den engelske matematikern Thomas Bayes sats.
Bayes sats: Den vänstra sidan P(A|B). Det är sannolikheten (P) för händelse A givet att händelse B inträffat. Det är det du är intresserad av. Det kallas posterior. P(A) är sannolikheten för händelse A. Det är din tro (prior). P(B|A) är sannolikheten för B givet att A inträffat. P(B) är sannolikheten för B.

Det har gått 250 år sedan Thomas Bayes formulerade den sannolikhetsteori som senare kom att kallas Bayes sats. Bayes tankar ansågs länge farligt subjektiva och strida mot vetenskapens objektivitet. Statistik ska inte ta hänsyn till tro. Statistikerna lutade sig istället mot standardavvikelser och signifikans. Men de senaste åren har vinden vänt. Bayes går att använda. Bayes ger värde.

Läkare, advokater, ingenjörer och finansmän använder bayesianska nätverk som stöd i beslutsfattande. Psykologer och hjärnforskare utforskar hjärnans bayesianska funktionssätt. Statistiker använder i allt högre grad på bayesiansk logik. Ditt spamfilter arbetar enligt bayesianska principer.



Thomas Bayes (1702-1761)

Så vad är skillnaden mellan traditionell statistik och bayesianism? Säg att du förlagt mobilen någonstans i hemmet. Du ringer upp den med en annan mobil och hör signalen, men kan inte lokalisera varifrån signalen kommer. Problem: var ska du söka?

Om du är en traditionell statistiker skulle du använda dig av en mental modell för att identifiera det rum som ljudet kommer från. När du hör signalen, söker du genom huset.

Om du är bayesian använder du samma mentala modell, men också din tro baserad på de platser där du brukar glömma mobilen. Du kombinerar dina slutsatser från signalen med information om dessa platser, vilket minskar området du behöver leta på.

Eller säg att du har en hund. Du har vägt den vid 3 tillfällen och fått resultatet 13,9, 17,5 och 14,1 kg. I medelvärde väger den 15,2 kg. Det ger en standardavvikelse på 2 och ett standardfel på 1,16. Resultatet av detta kan visas på en normalfördelningskurva med ett medelvärde på 15,2 (figur 1). Men det finns en stor spridning. Det ger dig inte så mycket hjälp när du ska gissa vikten.

Figur 1.
Du testar Bayes sats istället. Bayes tar hänsyn till det du tror. Om du inte tar hänsyn till det du tror (P(A)), kommer du att få exakt samma svar som vid traditionell statistik, men om du först gör en kvalificerad gissning kommer Bayes ge dig ett annat svar. Säg att du tror att hunden väger 14,2 kg, vilket den gjorde senast du vägde den. Hunden ser inte ut att ha gått upp i vikt sedan dess. Du antar därför en spridning på ett kilo. Dessa data är dina priors. Din tro (figur 2).


Figur 2.
Du utgår alltså från en normalkurva som är samlad kring 14,2 och har en spridning på 1. Om du multiplicerar samman sannolikheterna för alla värden ger det en annan kurva jämfört med tidigare. Värdet på extrema värden som 17,5 får nästan ingen sannolikhet alls. Normalkurvan samlas kring 14,1 med en spridning mindre än ett kg. Det ger dig ett bättre svar än om du bara beräknat medelvärdet av dina tidigare mätningar (figur 3).

Figur 3.
Den grundläggande tanken bakom Bayes sats är enkel: Ju mer data du samlar in, desto säkrare blir dina slutsatser. Säg att du tror att du har 50% chans att få en löneförhöjning. Om du får positiv feedback från din chef justerar du denna uppskattning uppåt. Din tro på en löneökning ökar. Det är vardaglig bayesianism.

Bayesiansk poker

När du exempelvis spelar poker uppdaterar du kontinuerligt dina priors. Du vet inte vad motståndarna har för hand. Men du har vissa förkunskaper, som att sannolikheten för par är högre än sannolikheten för triss. Det är dina priors. Sannolikheterna förändras i takt med att motståndarna drar och slänger kort. Om motspelaren byter två kort, sjunker sannolikheten att hen har ett par. Byter hen tre kort, ökar sannolikheten att hen har ett par. Den nya informationen gör att du uppdaterar dina föreställningar om situationen du befinner dig i. Ju mer du spelar, desto bättre antaganden bygger du upp och därmed gissar du sannolikheterna bättre.

I exemplet med poker vet du att det finns en rad satser med olika sannolikheter, i andra fall kan det handla om vetenskapliga hypoteser eller olika påståenden. Du tilldelar dem alltid en subjektiv sannolikhet. I boken The Big Picture använder sig Sean Carrol av sandkorn och skålar för att åskådliggöra det bayesianska tänkesättet. Tänk dig att varje sats är som en skål med sand och att mängden sandkorn är proportionell mot satsens sannolikhet. Din tilltro till satsen x motsvarar då mängden sandkorn i skål x delat med mängden sandkorn i alla skålar.

Bayesiansk dating

Säg att du fattat tycke för en person och överväger om du ska fråga hen om en date. Du bedömer att chansen för ett ja är 60 procent och ett nej 40 procent. Du går hem och fyller ja-skålen med 60 sandkorn och nej-skålen med 40 sandkorn (antalet sandkorn är inte viktigt utan proportionerna). Eftersom du ogillar att bli nobbad vill du ha mer visshet innan du frågar hen om en date. Nästa dag ser du hen komma gående mot dig. Hen säger troligen hej om hen kan tänka sig att gå på en date. Du gör en noggrannare gissning utifrån det antagandet:

Ja-alternativet: En person som skulle tacka ja till en date hejar i 75 procent av fallen och går förbi utan att heja i 25 procent av fallen.

Nej-alternativet. En person som skulle tacka nej hejar i 30 procent av fallen och går förbi i 70 procent av fallen.

Det är din tro. Nu kommer hen och det dags att uppdatera din tro. Hen hejar på dig! Du rusar hem och häller ut 25 procent av sanden från ja-skålen och 70 procent från nej-skålen. Det vill säga de utfall för respektive alternativ som inte stämde med observationen.

Kvar finns då 60 x 0,75= 45 sandkorn i ja-skålen och 40 x 0,3 = 12 sandkorn i nej-skålen. Din tilltro till ett ja uppdateras från 60/(60+40) = 60 procent till 45/(45 + 12) = 79 procent. Eftersom chansen plötsligt blev väldigt mycket större, tar du chansen och frågar om en date.

Bayes sats visar hur du uppdaterar din tro när du får ny information. Först kanske alla skålar väger lika mycket, men ju mer information du får desto tyngre väger vissa skålar i förhållande till andra. Du tar lite sand från de satser som verkar sanna och mycket från de skålar som verkar falska med tanke på informationen.



Det enkla bättre än det svåra

En konsekvens av Bayes sats är att en enkel teori är bättre än en komplicerad teori, vilket William Ockham hävdade några hundra år tidigare än Bayes och vetenskapsfilosofen Karl Popper fastslog några hundra år senare. Det är enklare att visa att en enkel teori är fel och att därefter uppdatera dina priors. Du lär genom att samla data. I till exempel valet mellan en evolutionär teori och en skapelseberättelse, så är den evolutionära enklare och mer stringent, medan det finns en rad olika skapelseberättelser som sinsemellan inte stämmer. Det finns lika många priors som antalet religioner. Om skapelseberättelserna som diverse skapare berättade för olika profeter liknade varandra mer skulle de vara något mer sannolika. Den mest komplicerade teorin är en som blandar från vetenskap och skapelseberättelse, eftersom den typen av vetenskap kan förklara allt. Popper kallar det för metafysik.

Bayes sats lär oss att alla bär på subjektiva antaganden och du kan aldrig vara helt säker på deras sanningshalt. Du måste alltid vara redo att uppdatera dina antaganden i ljuset av nya fakta. Din tro på antagande A ökar när du lär dig om B. På så sätt får du tillgång till mer kunskap och kommer närmare sanningen. Du måste vara ödmjuk. Du måste lyssna på andra.



Replikationskrisen

De senaste åren har vetenskapen drabbats av en replikationskris. Flera allmänt accepterade studier inom ämnen som nationalekonomi och psykologi har inte gått att bekräfta av andra som upprepat de ursprungliga experimenten. Det gäller exempelvis Amy Cuddys påstående (ett av tidernas mest populära Ted talks) att din hållning påverkar dina chanser i livet och Roy Baumeisters påstående att viljestyrka är en begränsad resurs som blir utarmad genom användning. Andra forskare har inte kunnat replikera dessa fynd. Det var inte sant, det var signifikant. Cuddy med flera letade i data och sållade fram signifikanta resultat.

Det gäller kanske i ännu högre grad inom hälsovetenskap. Det finns en tendens att publicera små, positiva studier och forskare anpassar mätmetoderna för att hitta rätt data. Dessa studier ger en slags vetenskaplig legitimitet åt produkter och metoder som marknadsförs långt innan alla frågor är ställda och besvarade. Vetenskap enligt Bayes handlar om att ställa frågor för att uppdatera antaganden, inte om att ge tvärsäkra svar. Exemplen på tvärsäkra svar är många. Kompressionskläder, ”cupping”, kryoterapi, ”floating”, kostillskott, vätskerekommendationer och sportdrycker. Det är mer marknadsföring än vetenskap, men det säljs som vetenskap. Kanske ett mer bayesiansk tänkesätt kan råda bot på detta.