Svarta svanar och Big Data

Det har rapporterats om kontroversiella och fantastiska resultat med Big Data-analyser. Som att kvinnor som byter från parfymerad till oparfymerad hudkräm några månader senare får blöjreklam. Praktiskt eller kränkande – som sagt, välj själv. De etiska ställningstagandena till hur mycket information vi egentligen vill lämna ifrån om oss är en diskussion för sig men Big Data lider även av andra problem.

Big Data är stora kvantiteter information som sparas och processas maskinellt.  Facebook, Twitter, Google, Apple och många andra av de företag som exploderat i storlek på bara några år arbetar just med Big Data och konsumenter. De exploaterar maskinellt upptäckta samband och tjänar ofattbara summor pengar på att rikta reklam och erbjudanden anpassade till just dig.

Man kan förstå det med exempelvis Ica-kortet:
All information om vad du handlar och frivilligt väljer att registrera genom att dra Ica-kortet sparas. Inte bara artiklarna, utan även datum och klockslag, hur länge du var inne i butiken, vädret utanför, när du är född och tusentals andra variabler. Använder du dessutom en scanner inne i butiken kommer den även att registrera i vilken ordning du köper varorna, hur länge du pausar vid en hylla (som för att välja mellan olika varor), om du ångrar dig och avscannar någonting.
Mängden data som samlas in om dig är alldeles för stor för att en människa skulle klara att processa information. Förmodligen skulle en hel vetenskap kunna byggas upp kring bara en enda persons köpbeteende. I stället får automatiserade algoritmer leta mönster. Datorn behöver inte förstå mönstren, den skall bara hitta dem. Allt förstås för att jag som konsument skall ”få en bättre köpupplevelse”, det vill säga handla mer och ”hitta till varor som intresserar mig”, det vill säga handla mer.

Utöver etiken – vad är då problemet? Ta självkörande bilar som exempel. Google-bilen, Volvos och Teslas självkörande bilar – samtliga bygger de enkelt uttryckt på principen att de får köra väldigt många mil och samla in väldigt stora datamängder. Tanken är att algoritmerna varit med om varje möjlig situation och lärt sig hur de skall hanteras.
Men det är ju inte sant. Bilarna kommer att utsättas för svarta svanar, det vill säga situationer som inte kunnat förutsägas. Som att ett flygplan störtar på vägen. Eller att en igelkott och en katt springer ut samtidigt på vägbanan. Eller något av tiotusentals miljoners miljarder andra möjligheter som kanske bara inträffar en endaste gång i världshistorien.
En människa är fenomenal på att improvisera, att hitta en lösning på ett problem som hen inte varit med om tidigare, medan datorer är usla på det.
Nu är jag den förste som är anhängare av självkörande bilar: Datorer är långt bättre bilförare än människor. Däremot måste vi förstå begränsningarna. Datorer är (nästan) ofelbara om vi ger dem rätt instruktioner, men det kommer vi inte att göra, så därför kommer det att ske olyckor även med självkörande bilar. De kommer att bli färre, men vi skall vara medvetna om att de kommer att ske.

Ett annat exempel är när du söker på Google eller en annan sökmotor. De flesta söksträngar genererar alltför många träffar för sökaren skall titta igenom alla. I de flesta fall stannar hen på den första sidan av sökresultat (åtminstone gör undertecknad det). Sökmotorn arbetar med statistik och mest sannolikt letar du ju efter det som de flesta andra som sökt med liknande sökfras letat efter.
Men därmed blir sökmotorn en förstärkare av redan starka varumärken – desto fler någon söker på ”gympaskor”, får upp Nike och klickar på Nike, desto mer övertygade blir algoritmerna om att det är just Nike du vill ha om du söker på den frasen.

Big Data förmår inte heller att hantera svarta svanar. Det är bra att lära sig av sina misstag och att använda historisk statistik för att förutsäga extremt väder, jordbävning, för att köra bilar, larma om personer som är på väg in i spelmissbruk och med lite större tvekan att upptäcka och kartlägga köpbeteenden hos konsumenter eller avgöra försäkringspremier och återbetalningsförmåga av banklån.

Däremot är det ett misstag att tro att Big Data kommer att klara allt. Algoritmerna kommer inte att kunna förutsäga allt som kan hända under en bilfärd – människor kommer att dö för att den sjävkörande bilar kommer att hamna i situationer som inte gick att förutsäga. Likadant kommer Big Data-baserade beslut att dra felaktiga slutsater om vem som kan att betala av ett lån, vem som hamnar i spelmissbruk, vem som är intresserad av blöjreklam eller vem som är intresserad att läsa den här notisen..

/David Armini

Svarta svanar, i fågelskådning och filosofi

…rara avis in terris nigroque simillima cygno

Poeten Juvenals dikt är det tidigast kända onämnadet av svarta svanar som fritt översatt blir ”…en svart svan en sällsynt fågel i världen”. Juvenal levde i Rom omkring 100 år efter Kristi födelse och frasen syftade på hur känsligt ett system av slutsatser kan vara. Vid tidpunkten kände man inte till att svarta svanar existerade – slutsatsen var att alla svanar är vita, men att observation av en enda svart svan skulle falsifiera det.

Under 1500-talet i London skall uttrycket ha varit vanligt för att uttrycka att något är omöjligt – alla noteringar i den då kända världen var ju av vita svanar. Om inte en svart svan var omöjlig, så existerade åtminstone inga sådana. Men 1697 blev holländska upptäcksresande i västra Australien de första européer som såg svarta svanar. Uttrycket ”svarta svanar” kom att i stället för att beteckna något otänkbart, att symbolisera att något som uppfattas som omöjligt, senare kan visa sig vara möjligt.

File:Black Swan at Martin Mere.JPG

Foto: © Francis C. Franklin

Libanesisk-amerikanska debattören, statistikern, tradern och riskanalytikern Nassim Nicholas Taleb utkom 2007 med boken The Black Swan: The impact of the Highly Improbable. Enkelt uttryckt menar Taleb att vi inte kan förutsäga allt, men att vi tror oss kunna göra det. Exempel är kärnkraftskatastrofen i Fukushima eller orkanen Katrina. Och enligt Taleb själv uppkomsten av PCn, första världskriget, 11 september-attacken, Internet och snart sagt varje större historisk händelse, konstnärlig milstolpe och vetenskaplig upptäckt. Eller varför inte elden och hjulet.

Ta Fukushima och Katrina som exempel: Ingenjörer, politiker och samhällsbyggare planerar minutiöst. Man är väl medveten om riskerna för jordbävning, orkaner och tsunamis och bygger säkerhetsåtgärder som skall göra både städer och kärnkraftverk säkra. Men så kommer en jordbävning eller orkan som är lite större än man räknade med, eller som beter sig på ett lite annat sätt och katastrofen är ett faktum. I efterhand talas det dessutom ofelbart om att katastrofen hade gått att förutsäga – det handlade bara om individuella misstag. Hade alla gjort sitt jobb korrekt så hade inte New Orleans dränkts eller Fukushima smält.

Taleb listar tre faktorer för en svart svan:

  1. Händelsen är en överraskning (för observatören – notera att slakten är en svart svan för kalkonen, men inte för slaktaren)
  2. Händelsen har en stor påverkan
  3. Efter att en viss svart svan inträffat rationaliserar samhället, vetenskapen, individen eller marknaden händelsen och menar att händelsen borde ha förutsetts

Vi vet helt enkelt inte hur stora jordbävningar, orkaner eller tsunamis som kan inträffa. Eller om utomjordingar dyker upp i ett maskhål och anfaller oss. Eller om en jättelik meteor slår ned. Eller om Jimmie Åkesson blir vår nästa stadsminister. Liksom vi inte kan veta vad nästa riktigt stora teknologiska eller filosofiska landvinning kommer att bli.
Vi kan inte veta det. Vi kommer aldrig att veta det. Ändå kommer vi i efterhand att mena att det var logiskt – vi borde ha förutsett att Portugal vann EM, att Trump skulle bli Republikanernas presidentkandidat och att sommarvädret skulle bli soligt och varmt, och kallt och regnigt.
Allra tydligast är det inom ekonomin. Gång på gång inträffar oväntade svängningar som ekonomer i efterhand berättar varför det var logiskt att det hände.

Taleb menar att målsättningen inte skall vara att förutsäga svarta svanar utan i stället bygga strukturer som är robusta mot negativa svarta svanar och som är flexibla att utnyttja positiva.
Dessutom skall vi utveckla strategier för att ”avoid being the turkey … to turn the Black Swans white” med Talebs egna ord.

/David Armini

 

Varför finns det irrationella tal?

Och varför vill åtminstone en del av oss bestämma dem så exakt som möjligt?

De irrationella talen irriterar och skaver. Det är tal som inte kan skrivas ut exakt med vårt siffersystem. Och det är inte några konstiga konstanter som används i knepiga modeller för att beskriva rumtiden eller något annat abstrakt. Lösningen till ekvationen {x}^{2}=2 kan inte beskrivas med ett rationellt tal, utan är \sqrt{2} vilket ungefär är 1,4142… och så en oändlig sekvens av nästan slumpmässiga siffror.

Likadant diagonalen i en kvadrat med sidan 1. Också här är svaret \sqrt{2} . Eller en cirkel med diametern 1 som har omkretsen pi. Detta förbannade jäkla underbara tal pi.

Talet pi består av en oändlig serie siffror i nästan slumpvis ordning. Mitt personnummer finns i pi. Ditt personnummer. Och inte bara det. De förekommer oändligt många gånger. Bland de första tvåhundra miljoner decimalerna av pi finns mitt födelsedatum 19730719 med 3 gånger. Första gången på plats 126 629 623.

Översatt till text finns varje bok som någonsin skrivits också i talet pi. Och varje bok baklänges. Och varje bok som någonsin kommer att skrivas. Dessutom finns alla dessa – just det – ett oändligt antal gånger. Det ger en liten pust av vad oändligheten är.

Och samma sak gäller för\sqrt{2}  och alla andra irrationella tal. Det kliar både obehagligt och fascinerande för en naturvetenskapligt lagd hjärna som länge trodde att allt gick att beskriva enkelt med siffror.

Jag har själv hittat på formler för att beräkna pi och jag kan inte bestämma mig för vilket som är konstigast. Om det visat sig att formeln lett till något enkelt, som att pi i själva verket är exakt 3 och några tusen år av matematisk forskning hittills haft fel. Eller som nu, där samma konstiga oändliga sekvens av siffror vecklade upp sig inför mina ögon: 3,14159265358979…

Har vi fel matematiska system? Eller inte fel förstås, men ligger det och lurar ett enklare system, ett med bara rationella tal, så att pi och \sqrt{2} kan beskrivas enkelt. Ett talsystem med basen pi?

Det finns andra matematiska system. Vi kommer att uppfinna ett annat, enklare system. Kanske imorgon. Kanske om 1000 år, om vi fortfarande finns då. Kanske kan det beskriva pi och \sqrt{2} på ett enklare sätt.

/David Armini

Rekursiv formel för beräkning av pi

Kanske får det vara mitt amatörbidrag till matematiken. Troligare finns formeln redan, eller andra, smartare och elegantare varianter. Var så god och sök på webben 🙂

Formeln bygger på iakttagelsen att en regelbunden månghörning som är inskriven i en cirkel med radien 1, har en omkrets som närmar sig pi när antalet hörn blir större.

Idén är att börja med en kvadrat inskriven i cirkeln. Den har omkretsen 2\sqrt{2} . Dubbla sedan antalet hörn till 8. Dess sida kan relativt enkelt beräknas med hjälp av kvadraten. Nästa steg är en 16-hörning, vars sida kan beräknas med åttahörningen. Etc.

Alltså:
Antag att vi har en cirkel med radie 1.
I cirkeln skriver vi in en regelbunden månghörning med 2^{n} hörn, där n>1.
Antag vidare att vi känner till hur lång sidan är på denna månghörning.
Kan vi då beräkna sidan på månghörningen med 2^{n+1} hörn?

Låt oss dela upp den första månghörningen (den med 2^{n} hörn) i likbenta trianglar med toppen i cirkelns mitt. Varje triangel ser då ut något i stil med nedanstående figur. Dela även upp den likbenta triangeln i två rätvinkliga trianglar:

tri6

Vi antar som sagt att för rektangeln med 2^{n} hörn så har vi räknat ut sidan C. Omkretsen på denna månghörning kommer då att vara {C_{n}}*2^{n} Omkretsen av cirkeln med radien 1 är enligt skolboken 2 * \pi . När antalet hörn ökar kommer alltså {C_{n}}*2^{n - 1} att bli en bättre och bättre approximation av pi.

Låt nästa steg vara en månghörning med dubbelt så många hörn, 2^{n+1}. Dela även upp denna månghörning i likbenta trianglar med topp i cirkelns mitt, och dela upp den likbenta triangeln i två rätvinkliga trianglar:

tri8

Observera nu att de blåmarkerade trianglarna är kongruenta. Med den iakttagelsen går det att hitta ett samband mellan {C_{n}} och {C_{n+1}}. Med lite räknande får man sambandet:

{C_{n+1}} = \sqrt{2 - \sqrt{4-C_{n}^2}}

Enkelt uttryckt innebär det att vi har ett samband mellan sidan på en månghörning och sidan på en månghörning med dubbet så många hörn.

Givet att en regelbunden månghörning inskriven i en cirkel med radien 1 har sidan {C_{n}}, så vet vi nu att månghörningen med dubbelt så många hörn har omkretsen:

2^{{n}+1}{C_{n+1}} =2^{{n}+1}\sqrt{2 - \sqrt{4-C_{n}^2}}

Efter lite mer räkningar kan vi nu ta fram en rekursiv formel för successiv beräkning av pi:

\pi_{{n}+1}=2^{({n}+1)/2}\sqrt{2^{n}-\sqrt{4^{n}-\pi_{n}^2}}

Startvärdet är en kvadrat inskriven i cirkeln, dvs {n}=2:

\pi_{1}=2\sqrt{2}

Utvecklingen går någorlunda snabbt. Approximation för pi blir:

4-hörning: \pi\approx 2,8
8-hörning: \pi\approx 3,06
16-hörning: \pi\approx 3,12
32-hörning: \pi\approx 3,137
64-hörning: \pi\approx 3,140
128-hörning: \pi\approx 3,1413
256-hörning: \pi\approx 3,14151
512-hörning: \pi\approx 3,14157
1024-hörning: \pi\approx 3,141588
2048-hörning: \pi\approx 3,141591
4096-hörning: \pi\approx 3,1415923
8192-hörning: \pi\approx 3,1415925

/David Armini

 

Oändligheten

The Little Bird of Svithjod
High up in the north, in the land called Svithjod, there stands a rock. It is a hundred miles high and a hundred miles wide. Once every thousand years a little bird comes to this rock to sharpen its beak.  When the rock has thus been worn away, then a single day of eternity will have gone by.
The Story of Mankind av Hendrik Willem Van Loon

Vi är många som fascineras av vad oändligheten är. Känslan för mig är hisnande. Som att stå vid havet under en storm. Nära en avgrund. Ett åskoväder. Oändligheten trotsar på något sätt vårt försök att tygla naturen med lagar och formler, liksom vi inte kan kontrollera oväder, vulkaner, jordbävningar eller tsunamis.

Oändligheten och de irrationella talen, är två saker i matematiken som skrattar oss i ansiktet åt våra lama försöka att kunna skriva ned allting. Att hitta enkla förklaringar och samband.

Det finns en del sätt att få en känsla av hur stort oändligheten är. Eller snarare få en känsla av att vi inte förstår hur stort det är, ungefär som att stå där på stranden, mitt i stormen, och bara acceptera.

Talet pi består av en oändlig serie siffror i nästan slumpvis ordning. Mitt personnummer finns i pi. Ditt personnummer. Och inte bara det. De förekommer oändligt många gånger. Bland de första tvåhundra miljoner decimalerna av pi finns mitt födelsedatum 19730719 med 3 gånger. Första gången på plats 126 629 623. Här kan du kontrollera var ditt födelsedatum finns i pi.

Översatt till siffror finns varje bok som någonsin skrivits också i talet pi. Och varje bok baklänges. Och varje bok som någonsin kommer att skrivas. Dessutom finns alla dessa – just det – ett oändligt antal gånger. Det ger en liten pust av vad oändligheten är.

Inom matematiken pratar man om olika stora oändligheter. De minsta oändligheterna är de som som går att räkna upp. Exempelvis de naturliga talen: 1, 2, 3, 4, … Vi blir aldrig klara, men de går åtminstone att ordna. Decimalerna i pi är en annan uppräkningsbar oändlighet. Nästa och större oändlighet, är exempelvis de reella talen. Det finns ”fler” reella tal mellan 0 och 1 än det finns naturliga tal. Det går inte ens att hitta det första talet att börja med. Säg att du har hittat det minsta talet som är större än noll, kalla det x. Ja men då har vi ju direkt ett som är mindre, nämligen hälften av x. Och x / 10, x / 3, x / 100, x / 100 000. Någonstans där suger det till i min mage, jag känner liksom ett vinddrag av hur jäkla stort oändligheten faktiskt är.

Ungefär som när jag tänker på den 100 miles höga och långa muren som det kommer en fågel var tusende år och skärper näbben på.
When the rock has thus been worn away, then a single day of eternity will have gone by.