Prediksjon og presisjon: Hvor godt kan vi forutsi sikkerhetspolitiske hendelser?
Ikke bare er internasjonal politikk vanskelig å forutsi, ekspertene vi normalt bruker har ikke nødvendigvis de riktige forutsetningene for å treffe best.
De siste månedene har nærmest alt som kan krype og gå av forsvars- eller sikkerhetspolitiske eksperter i Norge kommet med sine vurderinger av hvorvidt Russland vil gå til krig mot Ukraina eller ikke. Mens noen har hevdet at «alt peker mot» at Russland nå vil invadere, har andre hevdet at den russiske styrkeoppbyggingen kun er «vanlig russisk tvangsdiplomati». I en intern spørrerunde ved Forsvarets forskningsinstitutt (FFI) har jeg selv predikert at: Nei, regulære russiske styrker vil ikke gjennomføre kinetiske operasjoner på ukrainsk jord, utenfor Donbass og Krim, før påske.
Men, er det i det hele tatt mulig å forutsi svaret på spørsmål som dette? Og hvor mye kan vi egentlig stole på eksperters prediksjoner om hvorvidt det blir krig mellom Russland og Ukraina?
I denne artikkelen får du fem, til dels urovekkende, lærdommer om hvor godt vi kan forvente å treffe på sikkerhetspolitiske prediksjoner.
Vanskelig å måle treffsikkerheten
Inntil nylig har vi visst lite om hvor godt vi kan forutsi forsvars- og sikkerhetspolitiske hendelser og utviklinger. Årsaken er at måten vi vanligvis predikerer på, gjør det nærmest umulig å måle treffsikkerheten vår.
Å predikere handler om å beskrive en fremtidig utvikling eller hendelse, ofte ved hjelp av sannsynlighetsbegreper. I Etterretningstjenestens åpne trusselvurderinger uttrykkes alle sannsynlighetsvurderinger ved hjelp av språklige formuleringer, som «kan», «fare for» og «sannsynligvis». I FFIs egen fremtidsstudie bruker vi flittig ord som «forventes», «trolig» og «kanskje».
Problemet er at slike språklige sannsynlighetsbegreper tolkes svært ulikt. Studier har for eksempel vist at av de vanligste ordene, «mulig», oppfattes som «mindre enn 10 % sannsynlig» av noen og som «mer enn 50 % sannsynlig» av andre. De samme prediksjonene kan derfor tolkes som både riktig og galt samtidig. Dette gjør det lettere å lure oss selv til å tro at vi hele tiden trodde på det riktige resultatet (også kjent som etterpåklokskap).
De fleste eksperter som nå uttaler seg om en mulig krig i Ukraina foretrekker også språklige formuleringer. Flere har til og med helgardert seg: På den ene siden mener de at et russisk angrep ikke er nært forestående, mens på den annen vil de ikke utelukke at det kan skje. Denne typen refleksjoner kan synliggjøre vanskelige dilemmaer, men har likevel begrenset verdi for politiske og militære beslutningstagere, hvis informasjonen ikke kan si noe om hva som er mest sannsynlig.
Et unntak er Karsten Friis, som har hevdet at det er «mer enn 50 prosent sannsynlig at Russland angriper Ukraina». I motsetning til de andre ekspertenes vurderinger, er det vanskelig å tolke denne prediksjonen som noe annet enn at han mener det mest sannsynlige utfallet er krig.
Et kritisk kunnskapshull
Uansett hvilke eksperter som får rett i sine prediksjoner om Ukraina, har vi likevel ingen grunn til å forvente at de samme ekspertene vil treffe på nytt senere. Én enkeltprediksjon sier ingenting om hvor godt Friis, eller andre eksperter, treffer generelt. Kanskje var det bare flaks? Det finnes nemlig ingen oversikt over treffsikkerheten til ekspertene vi ofte baserer oss på.
Hvor sannsynlig hendelser er har riktig nok mindre å si i forsvarsplanlegging enn i etterretning, så lenge de er sannsynlige nok til at vi må ta høyde for dem. I FFIs scenarioporteføljen er ikke hensikten å forutsi den neste krigen, men å kartlegge spekteret av mulige trusler Forsvaret kan tenkes å stå overfor de neste 20 årene. Her vil kreativitet og kunnskap om aktuelle aktører være viktig, og eksperter trenger derfor ikke å være gode til å predikere for å være relevante i denne sammenhengen.
Samtidig vil det, selv i forsvarsplanleggingen, alltid gjøres skjønnsmessige vurderinger av hvilke scenarioer som er «mulige», og dermed skal inkluderes i porteføljen, eller ikke. Disse vurderingene må basere seg på noen antagelser om de fremtidige sikkerhetspolitiske omgivelsene, som stormaktsforhold, innenrikspolitisk utvikling i Russland og Norges allierte.
Ved FFI har vi derfor forsøkt å undersøke hvor godt de sikkerhetspolitiske rammebetingelsene som er beskrevet i tidligere langtidsplaner traff med den faktiske utviklingen. Dette viste seg imidlertid å bli en vanskelig oppgave, nettopp fordi formuleringene som ble brukt var tilnærmet helgarderende.
Til tross for at det er få områder hvor konsekvensene av feilaktige antagelser er større enn i forsvars- og sikkerhetspolitikken, har vi altså ingen systematisk kunnskap om hvor godt prediksjonene som legges til grunn i våre nasjonale trusselvurderinger og forsvarsplanlegging faktisk treffer.
FFIs prediksjonsturnering
For å kunne forske på treffsikkerhet trenger vi mange prediksjoner fra de samme personene over tid.
Fra 2017 til 2020 arrangerte FFI en prediksjonsturnering der hundrevis av forskere, offiserer og andre forsvars- og sikkerhetspolitiske interesserte fikk tilsendt 5–10 spørsmål i måneden. På hvert spørsmål ble deltagerne bedt om å oppgi hvor sannsynlig (i prosent) de trodde ulike utfall var på spørsmål som: Hvor mange ganger vil russiske fly krenke norsk luftrom de neste tre årene? Vil Russland gjennomføre flere skarpskytinger utenfor norskekysten? Vil Norge og Russland kalle hverandres ambassadør inn på teppet? Når vil EU løfte økonomiske sanksjoner mot Russland?
Dette er spørsmål som – hvis vi kunne forutsi dem måneder og år i forveien – kan peke på hvilken retning Norges forhold til Russland mest sannsynlig vil utvikle seg, utover hver enkelthendelse som alene kan ha begrenset verdi å kunne forutsi. Foruten Russland omhandlet spørsmålene derfor de viktigste temaene for norsk forsvars- og sikkerhetspolitikk, som trender innenfor militære operasjoner, Europa, USA, økonomi og teknologi.
Til sammen ble det samlet inn 465 673 sannsynlighetsestimater fra 1 375 deltagere på 240 spørsmål. Deltagerne var for det meste menn (89 %) med høyere utdanning (91 %) og en snittalder på 40 år. Omtrent halvparten arbeidet innenfor forsvarssektoren, hvorav den største gruppen var offiserer og den nest største forskere fra FFI eller Forsvarets høgskole (FHS). Mange av dem var altså personer som normalt blir bedt om å vurdere forsvars- og sikkerhetspolitiske spørsmål i reelle beslutningsprosesser.
Treffsikkerheten ble målt ut fra evnen til å oppgi høye sannsynligheter til de hendelsene som skjedde og lave til dem som ikke skjedde. Denne måten å måle treffsikkerhet på er spesielt viktig i forsvars- og sikkerhetspolitisk sammenheng, der små forskjeller kan ha stor betydning, og det er viktig for beslutningstagere å kjenne usikkerheten involvert. Det kan for eksempel være relevant å vite om Friis mener det er 51 % eller 99 % sannsynlig med krig i Ukraina. I begge tilfeller kan prediksjonene hans være «riktige» hvis det blir krig, men den siste regnes her som mer presis enn den første.
FFIs turnering utgjør et av verdens største datasett med prediksjoner om internasjonal politikk. For første gang kan vi tallfeste hvor presist vi treffer på spørsmål av betydning for norsk sikkerhet og sammenligne treffsikkerheten til ulike grupper, som eksperter og amatører. Resten av artikkelen oppsummerer fem lærdommer fra dette eksperimentet om hvor godt vi kan forvente at prediksjonene vi får faktisk treffer.
1. Det er vanskelig å treffe bedre enn tilfeldig gjetning
Det finnes ingen etablerte kriterier for hva som utgjør «god» treffsikkerhet. Det er derfor vanlig å sammenligne treffsikkerheten vår med enkle tilnærminger som vi forventer å slå, som tilfeldig gjetning. På spørsmål med to mulige utfall (som hvorvidt det blir krig i Ukraina) vil tilfeldig gjetning innebære prediksjoner på 50 % sannsynlighet for at det skjer og 50 % for at det ikke skjer. Denne typen prediksjoner treffer alltid litt, men har liten verdi fordi de ikke kan si noe om hva utfallet blir.
Det er således nedslående at deltagerne i FFIs turnering ikke treffer bedre enn tilfeldig gjetning på spørsmål av betydning for norsk forsvars- og sikkerhetspolitikk. Selv på spørsmålene med bare to mulige svar tilsvarer treffsikkerhet deres det å oppgi en 51 % sannsynlighet for riktig utfall og 49 % sannsynlighet for det gale – altså en prediksjonsevne tilnærmet lik ren gjetning.
Dette reiser et spørsmål om hvorvidt den dårlige treffsikkerheten skyldes deltagernes prediksjonsevner eller vanskelighetene med å predikere internasjonal politikk generelt.
2. Prediksjonstidspunktet har mye å si
Den relativt dårlige treffsikkerheten i FFIs turnering er i utgangspunktet overraskende, fordi deltagerne i den eneste tilsvarende turneringen som har blitt gjennomført tidligere, Good Judgment Project (GJP) som ble arrangert av amerikansk etterretning mellom 2011 og 2015, traff mye bedre. Her tilsvarte deltagernes treffsikkerhet en evne til å oppgi en 61 % sannsynlighet for hendelsene som faktisk skjedde og 39 % for de som ikke skjedde. I motsetning til FFIs deltagere hadde GJPs en systematisk evne til på forhånd å oppgi høyest sannsynlighet til riktig utfall. Dette funnet har blitt brukt som bevis for at det er mulig å forutsi internasjonale politiske hendelser.
Gapet mellom treffsikkerheten i FFIs og GJPs turneringer skyldes imidlertid forskjeller i når deltagerne kunne predikere. Mens FFIs deltagere bare kunne predikere én gang rett etter at spørsmålet ble stilt, kunne GJPs deltagere oppdatere sine prediksjoner helt frem til spørsmålet ble avgjort.
La oss si at du blir bedt om å forutsi om Russland vil invadere Ukraina før påske. I GJP kunne deltagerne registrere nye prediksjoner hver dag frem mot påske. Når treffsikkerheten på spørsmålet ble beregnet, baserte denne seg på snittet av alle prediksjonene, uavhengig av når de ble registrert. Det vil si at hvis du predikerte én gang i januar og oppdaterte denne tre ganger de tre siste dagene før påske, ble alle fire prediksjonene vektet likt. Denne måten å beregne treffsikkerheten på kan derfor gi et misvisende bilde av treffsikkerheten, fordi de aller fleste prediksjonene i GJP ble registrert rett før spørsmålene ble avgjort og utfallene var relativt åpenbare.
Når treffsikkerheten til deltagerne i GJP kun baseres på prediksjoner fra den første uken, slik som i FFIs turnering, reduseres gapet mellom de to turneringene betydelig. Dette er en underkommunisert, men viktig nyansering av de optimistiske funnene fra GJP, fordi det sier noe om hvor presist vi kan forvente at ulike måter å predikere på treffer.
Mens GJP viste at det er mulig å treffe relativt godt i forbindelse med løpende etterretningsvurderinger, viser FFIs turnering at det er vanskelig å treffe bedre enn tilfeldig gjetning når vi skal beskrive fremtidige utviklinger én gang på ett bestemt tidspunkt, slik som i årlige trusselvurderinger og i de sikkerhetspolitiske rammebetingelsene for Forsvarets langtidsplaner
3. Tidsperspektivet har derimot lite å si
Et annet overraskende funn er at det ikke i noen av turneringene er en sammenheng mellom tidsperspektivet til spørsmålene og hvor godt deltagerne traff. I motsetning til punktet over, handler ikke dette om hvordan deltagerne predikerte, men om hvor langt frem i tid de opprinnelig ble bedt om å forutsi utfallet da de fikk spørsmålene. I snitt var tidsperspektivet på spørsmålene i GJP rundt tre måneder, mens snittet til spørsmålene som foreløpig så langt er avgjort i FFIs turnering er 1,5 år.
I ingen av turneringene varierte treffsikkerheten med antallet dager deltagerne måtte predikere. Selv på spørsmål som ser under et halvt år fremover, treffer FFIs deltagere like dårlig som på spørsmål med ett års perspektiv. Det er heller ingen mønster som viser at treffsikkerheten øker eller faller jo lenger frem spørsmålene ser.
Det er med andre ord ingen grunn til å anta at vi vil treffe bedre på spørsmålet om et russisk angrep på Ukraina, om vi i dag ble bedt om å forutsi utfallet før påske eller ut året. En mulig forklaring er at det allerede er vanskelig å treffe bedre enn tilfeldig gjetning på kort sikt, at det ikke kan bli så mye vanskeligere enn dette på lang sikt.
4. Eksperter er ikke bedre enn amatører
Det mest overraskende funnet er likevel at det ikke hjelper å være ekspert. Eksperter brukes her som en samlebetegnelse på akademikere, forskere, offiserer og analytikere som arbeider med forsvars- og sikkerhetspolitiske spørsmål som en del av jobben sin. Her sammenlignes ekspertene med alle andre deltagere som aldri har jobbet profesjonelt med forsvars- og sikkerhetspolitikk, og som derfor omtales som «amatører» i denne sammenhengen.
I FFIs turnering var en tredel av deltagerne eksperter, mens to tredeler var amatører. De forsvars- og sikkerhetspolitiske ekspertene treffer riktig nok litt bedre enn amatørene, men forskjellen er svært liten. Mens ekspertenes gjennomsnittlige treffsikkerhet tilsvarte det å oppgi en 53 % sannsynlighet for det riktige av to mulige utfall, tilsvarte amatørenes treffsikkerhet en prediksjon på 50 %. Ekspertene er altså litt bedre enn snittet og amatørene litt dårligere, men forskjellen er ubetydelig i praksis.
5. Områdeeksperter er heller ikke bedre enn andre eksperter
Det kan likevel være forskjeller eksperter imellom. Av de ulike gruppene som ble sammenlignet i FFIs turnering treffer for eksempel forskerne bedre enn offiserene, men igjen skyldes ikke dette at forskerne er så mye bedre enn snittet, men at offiserene er dårligere.
Det mest overraskende funnet er likevel at det er ingen forskjell mellom ekspertenes treffsikkerhet innenfor og utenfor egne kompetanseområder. Ekspertene med kompetanse på Russland er ikke bedre enn terrorekspertene på spørsmål om Russland, eller omvendt.
Det er heller ingen sammenheng mellom treffsikkerheten og hvor mange temaer ekspertene oppgav at de hadde kompetanse innenfor, eller hvor mange av disse som spørsmålene også omhandlet.
Det er altså ikke slik at eksperter som kan mye og er gode til å forklare hva som har skjedd tidligere, nødvendigvis er like gode til å forutsi hva som vil skje fremover.
Er disse funnene overførbare til den virkelige verdenen?
Nå tenker du kanskje at disse funnene tross alt bare er basert på en turnering som ikke reflekterer hvordan prediksjon gjøres i «den virkelige verdenen». Det er imidlertid flere grunner til å anta at funnene også er overførbare til prediksjon i reelle trusselvurderinger og langtidsplaner.
For det første har andre studier av politiske eksperters prediksjonsevne funnet akkurat det samme, nemlig at eksperter sliter med å slå tilfeldig gjetning og at områdeeksperter ikke er bedre enn andre. Det som er nytt i FFIs turnering er at eksperter også har blitt sammenlignet med amatører, og vi finner ingen vesentlige forskjeller i treffsikkerheten her heller.
For det andre er funnene også i tråd med andre studier av eksperters treffsikkerhet i helt andre og virkelige situasjoner. Spørsmålet om hvorfor eksperter kan kunne så mye, men være så dårlig til å forutsi, har vært diskutert lenge innenfor psykologien. For eksempel er ikke psykologer med lengre klinisk erfaring mer treffsikre i diagnostiseringen av psykiske lidelser enn dem med kortere erfaring, og studenter kan være like gode som politifolk til å skille falske fra ekte tilståelser i avhør.
En forenklet forklaring på dette er at fagområdene som disse ekspertene predikerer innenfor, er preget av stor usikkerhet, komplekse sammenhenger og mange faktorer som spiller inn. Dette gjør det vanskelig å forutsi riktig utfall – og jo større usikkerheten blir, jo mindre har ekspertise å si for treffsikkerheten. I motsetning til sjakk, der mulighetene er avgrenset til et visst antall trekk, spillereglene tydelig definerte og en umiddelbart vet om en har gjort gode eller dårlige vurderinger, er internasjonal politikk et sosialt fenomen uten sikre teorier og med komplekse kausalsammenhenger, der det selv i ettertid kan være umulig å vite om konklusjonene en trakk var riktige eller gale. Dette gjør det også vanskelig å utvikle prediksjonsevne over tid.
Den generelle treffsikkerheten på forsvars- og sikkerhetspolitiske spørsmål handler altså ikke først og fremst om deltagerne selv, men om fenomenene de ble bedt om å predikere.
Fullt mulig å forbedre treffsikkerheten
Selv om eksperter treffer relativt dårlig, betyr ikke det at ikke finnes personer som treffer bedre.
Et av de viktigste funnene i både FFIs og GJPs turneringer er at det er systematiske forskjeller i hvor godt enkeltpersoner klarer å forutsi internasjonal politikk. Disse forskjellene henger imidlertid ikke sammen med kriteriene vi normalt bruker til å avgjøre hvem vi skal høre på – som relevant erfaring og spisskompetanse – men helt andre egenskaper, som intelligens, tallforståelse og bestemte tenkemåter. Det er altså fullt mulig for en Russland-ekspert å treffe bedre enn andre, men dette skyldes ikke dybdekunnskap om Russland, men andre egenskaper eksperten har.
Det finnes også noen personer som er mye mer treffsikre enn resten. Disse er det mulig å identifisere ved hjelp av psykologiske tester og et lite antall testspørsmål som de skal predikere. Ved å basere oss på prediksjonene til disse personene kan vi forvente å treffe langt bedre enn ekspertene vi bruker i dag. Dette viser også at ekspertenes relativt begrensede treffsikkerhet ikke kun handler om vanskeligheten med å predikere generelt, men også om at de som gruppe ikke nødvendigvis har de mest relevante egenskapene for å treffe best mulig.
Hva som kjennetegner personer som treffer bedre enn andre og hvordan vi kan forbedre treffsikkerheten i dagens trusselvurderinger og sikkerhetspolitiske analyser vil være tema for de neste to artiklene.