tisdag 17 oktober 2017

Bayesiansk beslutsteori hjälper dig att tänka

Hur säkert vet du det du tror att du vet? Det första steget mot kunskap är att inse att dina kunskaper är ofullständiga. Det är också vad Sokrates menade kännetecknade en vis människa som han själv – en som vet att han inte vet. Men även om du inte vet, så vet du också att vissa gissningar är bättre än andra. Det är det andra steget till kunskap. Dessa två steg är också grunden till den engelske matematikern Thomas Bayes sats.
Bayes sats: Den vänstra sidan P(A|B). Det är sannolikheten (P) för händelse A givet att händelse B inträffat. Det är det du är intresserad av. Det kallas posterior. P(A) är sannolikheten för händelse A. Det är din tro (prior). P(B|A) är sannolikheten för B givet att A inträffat. P(B) är sannolikheten för B.

Det har gått 250 år sedan Thomas Bayes formulerade den sannolikhetsteori som senare kom att kallas Bayes sats. Bayes tankar ansågs länge farligt subjektiva och strida mot vetenskapens objektivitet. Statistik ska inte ta hänsyn till tro. Statistikerna lutade sig istället mot standardavvikelser och signifikans. Men de senaste åren har vinden vänt. Bayes går att använda. Bayes ger värde.

Läkare, advokater, ingenjörer och finansmän använder bayesianska nätverk som stöd i beslutsfattande. Psykologer och hjärnforskare utforskar hjärnans bayesianska funktionssätt. Statistiker använder i allt högre grad på bayesiansk logik. Ditt spamfilter arbetar enligt bayesianska principer.



Thomas Bayes (1702-1761)

Så vad är skillnaden mellan traditionell statistik och bayesianism? Säg att du förlagt mobilen någonstans i hemmet. Du ringer upp den med en annan mobil och hör signalen, men kan inte lokalisera varifrån signalen kommer. Problem: var ska du söka?

Om du är en traditionell statistiker skulle du använda dig av en mental modell för att identifiera det rum som ljudet kommer från. När du hör signalen, söker du genom huset.

Om du är bayesian använder du samma mentala modell, men också din tro baserad på de platser där du brukar glömma mobilen. Du kombinerar dina slutsatser från signalen med information om dessa platser, vilket minskar området du behöver leta på.

Eller säg att du har en hund. Du har vägt den vid 3 tillfällen och fått resultatet 13,9, 17,5 och 14,1 kg. I medelvärde väger den 15,2 kg. Det ger en standardavvikelse på 2 och ett standardfel på 1,16. Resultatet av detta kan visas på en normalfördelningskurva med ett medelvärde på 15,2 (figur 1). Men det finns en stor spridning. Det ger dig inte så mycket hjälp när du ska gissa vikten.

Figur 1.
Du testar Bayes sats istället. Bayes tar hänsyn till det du tror. Om du inte tar hänsyn till det du tror (P(A)), kommer du att få exakt samma svar som vid traditionell statistik, men om du först gör en kvalificerad gissning kommer Bayes ge dig ett annat svar. Säg att du tror att hunden väger 14,2 kg, vilket den gjorde senast du vägde den. Hunden ser inte ut att ha gått upp i vikt sedan dess. Du antar därför en spridning på ett kilo. Dessa data är dina priors. Din tro (figur 2).


Figur 2.
Du utgår alltså från en normalkurva som är samlad kring 14,2 och har en spridning på 1. Om du multiplicerar samman sannolikheterna för alla värden ger det en annan kurva jämfört med tidigare. Värdet på extrema värden som 17,5 får nästan ingen sannolikhet alls. Normalkurvan samlas kring 14,1 med en spridning mindre än ett kg. Det ger dig ett bättre svar än om du bara beräknat medelvärdet av dina tidigare mätningar (figur 3).

Figur 3.
Den grundläggande tanken bakom Bayes sats är enkel: Ju mer data du samlar in, desto säkrare blir dina slutsatser. Säg att du tror att du har 50% chans att få en löneförhöjning. Om du får positiv feedback från din chef justerar du denna uppskattning uppåt. Din tro på en löneökning ökar. Det är vardaglig bayesianism.

Bayesiansk poker

När du exempelvis spelar poker uppdaterar du kontinuerligt dina priors. Du vet inte vad motståndarna har för hand. Men du har vissa förkunskaper, som att sannolikheten för par är högre än sannolikheten för triss. Det är dina priors. Sannolikheterna förändras i takt med att motståndarna drar och slänger kort. Om motspelaren byter två kort, sjunker sannolikheten att hen har ett par. Byter hen tre kort, ökar sannolikheten att hen har ett par. Den nya informationen gör att du uppdaterar dina föreställningar om situationen du befinner dig i. Ju mer du spelar, desto bättre antaganden bygger du upp och därmed gissar du sannolikheterna bättre.

I exemplet med poker vet du att det finns en rad satser med olika sannolikheter, i andra fall kan det handla om vetenskapliga hypoteser eller olika påståenden. Du tilldelar dem alltid en subjektiv sannolikhet. I boken The Big Picture använder sig Sean Carrol av sandkorn och skålar för att åskådliggöra det bayesianska tänkesättet. Tänk dig att varje sats är som en skål med sand och att mängden sandkorn är proportionell mot satsens sannolikhet. Din tilltro till satsen x motsvarar då mängden sandkorn i skål x delat med mängden sandkorn i alla skålar.

Bayesiansk dating

Säg att du fattat tycke för en person och överväger om du ska fråga hen om en date. Du bedömer att chansen för ett ja är 60 procent och ett nej 40 procent. Du går hem och fyller ja-skålen med 60 sandkorn och nej-skålen med 40 sandkorn (antalet sandkorn är inte viktigt utan proportionerna). Eftersom du ogillar att bli nobbad vill du ha mer visshet innan du frågar hen om en date. Nästa dag ser du hen komma gående mot dig. Hen säger troligen hej om hen kan tänka sig att gå på en date. Du gör en noggrannare gissning utifrån det antagandet:

Ja-alternativet: En person som skulle tacka ja till en date hejar i 75 procent av fallen och går förbi utan att heja i 25 procent av fallen.

Nej-alternativet. En person som skulle tacka nej hejar i 30 procent av fallen och går förbi i 70 procent av fallen.

Det är din tro. Nu kommer hen och det dags att uppdatera din tro. Hen hejar på dig! Du rusar hem och häller ut 25 procent av sanden från ja-skålen och 70 procent från nej-skålen. Det vill säga de utfall för respektive alternativ som inte stämde med observationen.

Kvar finns då 60 x 0,75= 45 sandkorn i ja-skålen och 40 x 0,3 = 12 sandkorn i nej-skålen. Din tilltro till ett ja uppdateras från 60/(60+40) = 60 procent till 45/(45 + 12) = 79 procent. Eftersom chansen plötsligt blev väldigt mycket större, tar du chansen och frågar om en date.

Bayes sats visar hur du uppdaterar din tro när du får ny information. Först kanske alla skålar väger lika mycket, men ju mer information du får desto tyngre väger vissa skålar i förhållande till andra. Du tar lite sand från de satser som verkar sanna och mycket från de skålar som verkar falska med tanke på informationen.



Det enkla bättre än det svåra

En konsekvens av Bayes sats är att en enkel teori är bättre än en komplicerad teori, vilket William Ockham hävdade några hundra år tidigare än Bayes och vetenskapsfilosofen Karl Popper fastslog några hundra år senare. Det är enklare att visa att en enkel teori är fel och att därefter uppdatera dina priors. Du lär genom att samla data. I till exempel valet mellan en evolutionär teori och en skapelseberättelse, så är den evolutionära enklare och mer stringent, medan det finns en rad olika skapelseberättelser som sinsemellan inte stämmer. Det finns lika många priors som antalet religioner. Om skapelseberättelserna som diverse skapare berättade för olika profeter liknade varandra mer skulle de vara något mer sannolika. Den mest komplicerade teorin är en som blandar från vetenskap och skapelseberättelse, eftersom den typen av vetenskap kan förklara allt. Popper kallar det för metafysik.

Bayes sats lär oss att alla bär på subjektiva antaganden och du kan aldrig vara helt säker på deras sanningshalt. Du måste alltid vara redo att uppdatera dina antaganden i ljuset av nya fakta. Din tro på antagande A ökar när du lär dig om B. På så sätt får du tillgång till mer kunskap och kommer närmare sanningen. Du måste vara ödmjuk. Du måste lyssna på andra.



Replikationskrisen

De senaste åren har vetenskapen drabbats av en replikationskris. Flera allmänt accepterade studier inom ämnen som nationalekonomi och psykologi har inte gått att bekräfta av andra som upprepat de ursprungliga experimenten. Det gäller exempelvis Amy Cuddys påstående (ett av tidernas mest populära Ted talks) att din hållning påverkar dina chanser i livet och Roy Baumeisters påstående att viljestyrka är en begränsad resurs som blir utarmad genom användning. Andra forskare har inte kunnat replikera dessa fynd. Det var inte sant, det var signifikant. Cuddy med flera letade i data och sållade fram signifikanta resultat.

Det gäller kanske i ännu högre grad inom hälsovetenskap. Det finns en tendens att publicera små, positiva studier och forskare anpassar mätmetoderna för att hitta rätt data. Dessa studier ger en slags vetenskaplig legitimitet åt produkter och metoder som marknadsförs långt innan alla frågor är ställda och besvarade. Vetenskap enligt Bayes handlar om att ställa frågor för att uppdatera antaganden, inte om att ge tvärsäkra svar. Exemplen på tvärsäkra svar är många. Kompressionskläder, ”cupping”, kryoterapi, ”floating”, kostillskott, vätskerekommendationer och sportdrycker. Det är mer marknadsföring än vetenskap, men det säljs som vetenskap. Kanske ett mer bayesiansk tänkesätt kan råda bot på detta.


3 kommentarer:

  1. Hej, bra artikel och blogg! Men det som lockar mig att kommentera är givetvis lite kritik: I ditt exempel tar alltså 100 personer testet, 6 personer får besked att de har cancer, men bara en har verkligen cancer? Då skulle jag också uppskatta mina chanser som goda, men exemplet är inte så realistiskt, eller? Jag menar att under sådana förhållanden skulle gemene man vara skeptisk mot cancertest även utan Bayes teorem? Men givetvis har man indirekt tillämpat teoremet genom att låta kunskap om tidigare utfall påverka bedömningen av testets tillförlitlighet som uppenbarligen är bristfällig. Förmodar att exemplet inte är hämtat från verkligheten, eller?

    SvaraRadera
    Svar
    1. Hej, ja det är bara ett exempel. Det står inte 100 personer utan "av 100", dvs procent. Tänk procent istället för personer så blir det mer rimligt.

      Radera
  2. har uppdaterat och förenklat artikeln hoppas jag...

    SvaraRadera