torsdag 16 april 2020

En bayesiansk analys av pandemin

På senare tid har intresset för bayesiansk analys ökat starkt. Läkare, ingenjörer och finansmän använder bayesianska metoder som stöd i beslutsfattande. Psykologer och hjärnforskare utforskar hjärnans bayesianska funktionssätt. Det används inom maskininlärning och AI. Ditt spamfilter arbetar enligt bayesianska principer. Statistiker använder i allt högre grad bayesiansk analys.

Du startar med en hypotes och en viss grad av tro på den hypotesen. Denna tro är baserad på dina förkunskaper. Därefter samlar du in data och uppdaterar din ursprungliga tro. Om data stöder hypotesen ökar sannolikheten, om de inte stöder hypotesen, minskar sannolikheten.

Det finns ingen naiv prognosmetodik

Det är ungefär så din hjärna fungerar. Du tror något baserat på din modell av världen. Din tro leder till en kvalificerad gissning. Din gissning möter världen och det ger dig återkoppling. Därefter uppdaterar du din modell av världen.

En viktig del av bayesianism är att den är uttalat subjektiv. Du måste redovisa dina antaganden. Du tror någonting. All statistik, även frekvensstatistik, görs av människor med värderingar. Det finns ingen naiv prognosmetodik, som min gamla professor Martin Edman sa. 

Varken matematiska modeller eller mänskligt tänkande kan fungera utan antaganden. Du kan låtsas som att du är objektiv, men du har i grunden en tro.

Hur hantera man osäkerhet om pandemier med hjälp av bayesiansk analys? 


Säg att händelsen A är en pandemi med miljontals döda. Hur borde sannolikheten för A uppskattas, med tanke på de data som fanns i december 2019? Jo, under de senaste 100 åren har det varit tre pandemier: spanska sjukan 1918, Asiaten 1957 och Hongkong-influensan 1968. Tre pandemier under de senaste 100 åren ger en sannolikhet på 3 procent, P(A) = 3%. Det blir vår basprognos.

Sannolikheten att ett nytt virus dyker upp är händelse B. Då måste prognosen för A uppdateras. Risken för en nytt virus B om hypotes A är sann skrivs som P (B | A). Sannolikheten för ett nytt virus 2020 om det finns ett virus är 100%. Du kommer inte att se ett nytt virus såvida inte ett nytt virus har dykt upp. Så P (B | A) = 100%.

Vad är risken för att ett nytt virus B, om vår hypotes A är falsk? Kan ett nytt virus dyka upp om vi i början av 2020 inte ser en pandemi? Vad är den sannolikheten?
Bayes sats.

Alla nya virus blir inte pandemier, som fågel- och svininfluensa. Eftersom vi vet att det nya viruset dessutom är ett coronavirus kan vi uppdatera våra sannolikheter. De senaste tjugo åren har det varit två utbrott av coronavirus: SARS-CoV 2003-2004 och MERS-CoV 2012-2015, men de skapade ingen pandemi. Utbrott av coronavirus inträffar alltså när hypotesen A är falsk. Vi antar att sannolikheten för det är 33%, dvs P (B | ~ A) = 33%. (källa)

Vi använder nu Bayes sats för att uppdatera vår prognos för hypotes A. Det formella uttrycket för teoremet är:

Ny prognos för A = P (B | A) * P (A) / [(P (B | A) * P (A)) + (P (B | ~ A) * P (~ A))] 

Efter att ha stoppat in värdena uppdateras prognos för en global pandemi som börjar 2020 från 3% till 8,5%. När sannolikheten för basprognosen är låg ökar sannolikheten rejält med nytt data. Risken för en pandemi 2020 nästan tredubblades från vad den var i början av året.

Poängen med bayesianskt tänkesätt är att du kontinuerligt uppdaterar din tidigare tro när du får ny information. Dessa uppdateringar görs på den nya prognosen som visar P(A)=8,5%, inte den gamla på 3%. Så sannolikheter kan snabbt öka i takt med ny information. 

Det gäller också i vardagen. I början av året trodde många att Covid-19 var en sorts influensa. Ingenting att oroa sig för. Nu har de flesta uppdaterat den föreställningen. SARS-CoV-2 är något nytt och okänt.

I takt med att Cov-19 sprider sig är det viktigt att sätta siffror och sannolikheter: hur smittsam är Cov-19, hur reagerar Cov-19 på särskilda åtgärder, hur många kommer att smittas och hur många sjukhussängar behövs? Det handlar om att ligga steget före och bayesiansk analys ger prognoser i en osäker värld. Varje prognos omges med ett mått av osäkerhet med scenarier som sträcker sig från pessimistiska till optimistiska. Pandemier är komplexa och kräver fler perspektiv än ett enda expertperspektiv.

Det fanns kunskap om SARS-CoV och MERS-CoV. De som insjuknade av SARS-CoV 2003 hade tydliga symtom som feber, hosta och muskelvärk. Dödligheten var 10%. I början spreds det snabbt (R0=3), sedan sattes hårda åtgärder in och R0 sjönk till 0,7 och viruset försvann. MERS-CoV, som fortfarande finns kvar och har en dödlighet på 35%, kan ge symtom som feber och hosta, men tycks också vara asymtomatisk

Eftersom MERS-CoV utgör 50% av de farliga coronavirus de senaste 20 åren leder det till att sannolikheten för en pandemi uppdateras. Om det finns en sannolikhet att CoV-19 sprids utan symtom bör man genast dra ner på antal möten mellan människor.

Min åsikt är att man snabbt sätter in åtgärder när man står inför något okänt. Man tar det säkra före det osäkra. Det är en försiktighetsprincip. Jag tror de flesta tillämpar den principen i vardagen. Om något nytt och skrämmande närmar sig dörren stänger man den, sedan öppnar man försiktigt. Inte tvärtom. Det är viktigt med transparens. Hemliga beslut skapar misstro. Vilka antaganden görs? Bayes gör dem tydliga.


Ett räkneexempel:

Jag har skrivit utförligt om bayesiansk analys i ett tidigare inlägg, men exemplet nedan visar att man inte alltid kan lita på sunt förnuft.

När man gjorde HIV-test fick man dessa siffror i USA:
sannolikheten att ett test visar att en person med HIV är infekterad: p(Hiv+|Hiv)= 0,977
sannolikheten att ett test visar att en frisk person inte är infekterad: p(Hiv-|ej Hiv) = 0,926
sannolikheten för att en person i USA har HIV: p(Hiv) = 0,0026

Vad är sannolikheten att en person är sjuk när ett test visar att personen är infekterad med HIV?

Bayes sats = (0,997x0,926)/(0,997x0,926) + (1-0.926)x(1-0,0026) = 0,033.
Sannolikheten att man har HIV om testet visar det är alltså drygt 3 procent.

Inga kommentarer:

Skicka en kommentar