Experimenting with a big data infrastructure for multimodal stream processing
FFI-Rapport
2020
Om publikasjonen
Rapportnummer
20/00480
ISBN
978-82-464-3254-0
Format
PDF-dokument
Størrelse
4 MB
Språk
Engelsk
Det er en viktig del av Forsvarets virksomhet å overvåke norske landområder, luftrommet, havområder
og det digitale rom. Overvåkningen skal støtte både tradisjonelle forsvarsoppgaver slik
som suverenitets- og myndighetsutøvelse eller krise- og konflikthåndtering, såvel som sivil-militære
oppgaver slik som redningstjeneste og miljøberedskap. Responstiden til Forsvaret, samt kvaliteten
på Forsvarets operative beslutninger, avhenger av situasjonsforståelsen, det vil si av evnen til å
oppfatte, tolke og forstå en situasjon.
Nye kommunikasjonsteknologier og den stadig økende tilgangen på regnekraft gjør det mulig i dag å
utnytte data av en variasjon og et volum som kan berike situasjonsforståelse i fremtiden betydelig.
Det springende punkt er hvorvidt vi har beregningsmodeller som evner å omsette data til relevant
etterretning i sann tid, og hvorvidt vi har sammenkoblede maskinklynger som tillater at datavolumet
øker avhengig av informasjonsbehov og tilgjengelighet.
I denne rapporten studerer vi hva slags systemstøtte og algoritmikk en slik løsning krever. Selv om
det ikke er rimelig å anta at alle typer overvåkingsoppgaver og informasjonsbehov kan betjenes med
identisk systemstøtte, er arbeidshypotesen her at enkelte overordnede systemegenskaper vil være
tilstrekkelig for de fleste tilfeller. Her tenker vi på slike ting som parallelliserbarhet (overvåkingsoppgaven
må være av en slik karakter at relevante beregninger kan spres over flere maskiner som
arbeider på problemet samtidig), løs sammenkopling (maskiner og kilder må kunne tilkobles uten
rekonfigurering og nedetid), skalerbarhet (systemet må kunne vokse med prosessorkraft og minne
når det er nødvendig) og feiltoleranse (systemet må tåle at en viss prosent av maskinene feiler eller
tas ut av angripere).
Vi benytter en empirisk metode for å undersøke arbeidshypotesen, der vi tar utgangspunkt i en
samtidig strøm av AIS-meldinger fra Kystverket, som formidler meldinger fra fartøy innenfor et
dekningsområde som omfatter norsk økonomisk sone og vernesonene, og forsterker disse dataene
med informasjon fra Fiskeridirektoratets Landings- og sluttseddelregister. Hensikten er å identifisere
skip som ikke rapporterer at de fisker, selv om bevegelsesmønsteret og informasjon fra
sluttseddelregisteret indikerer det motsatte.
Deteksjon av uregulert fiske allerede er et velstudert problem i forsvarssammenheng. Det som
gjør denne rapporten annerledes er sanntidighetsfokuset. Vi ønsker at systemet skal flagge og
følge et fartøy så lenge bevegelsene til fartøyet og bakgrunnsinformasjonen om fartøyet gir grunn
til det, og ikke lenger. På den måten ønsker vi å kunne overvåke samtlige ca 3500 fartøy som i
løpet av en normal virkedag rapporterer på denne AIS-strømmen i sann tid. Teknisk innebærer dette
to ting: (1) Vi utvikler en parallelliserbar algoritme vi kaller tortuosity (kurvethet) for å analysere
bevegelsesmønsteret til et skip i sann tid, og (2) vi definerer og konfigurerer en stordatarkitektur
designet spesifikt for strømmende data med redundans, skalerbarhet og feiltoleranse bygget inn
både i dataflyt og beregninger. Disse to punktene eksemplifiserer de overordnede systemegenskaper
som ble nevnt over, og er derfor egnet til å underbygge eller utfordre arbeidshypotesen.
Eksperimentet ble designet for å se i hvilken grad standard programvare kan brukes til å bygge en
strømprosesseringsinfrastruktur som oppfyller de identifiserte kravene. Utfallet av eksperimentet var
en bekreftelse på at de valgte kjernekomponentene i det vesentlige gir en streaminginfrastruktur med
de ønskede egenskapene, hovedsakelig på grunn av egenskapene til kjernekomponenten Apache
Kafka.