Predicting scalar coupling constants via machine learning

FFI-Rapport 2021

Om publikasjonen

Rapportnummer

21/02531

ISBN

978-82-464-3382-0

Format

PDF-dokument

Størrelse

549.9 KB

Språk

Engelsk

Last ned publikasjonen
Fredrik Bakken Lars L Sandberg Dennis Christensen Thor Engøy Hallvar Gisnås Lars Aurdal
I løpet av det foregående tiåret har maskinlæringsteknikker blitt anvendt innen en rekke forskningsområder, inkludert prediksjon av kjemiske egenskaper til atomer og molekyler. Til forskjell fra konvensjonelle kvantekjemiske metoder som kan være meget beregningskrevende, gir maskinlæringsalgoritmer raske og presise prediksjoner utover det kjente datasettet, gitt at de har blitt trent med tilstrekkelig mengde data av god kvalitet. Online-plattformer, som Kaggle (kaggle.com), er vertskap for maskinlæringskonkurranser med klart definerte problembeskrivelser og en betydelig mengde tilhørende data. Disse setter rammer for fokusert forskning over kort tid med veldefinert målsetting og kort tidsfrist. I tillegg fungerer Kaggle-nettsidene som en interaktiv læringsplattform med en kontinuerlig oppdatert rangeringsliste og et åpent diskusjonsforum. Sommeren 2019 deltok et team bestående av studenter og forskere ved Forsvarets forskningsinstitutt (FFI) i Kaggle-konkurransen Predicting Molecular Properties hvor oppgaven var å predikere den skalare koplingskonstanten ved hjelp av maskinlæring. Den skalare koplingskonstanten er et uttrykk for den magnetiske vekselvirkningen mellom atomer i et molekyl og avhenger av dets atomære sammensetning og geometri. Vi undersøkte flere matematiske representasjoner av molekyldata som input til ulike veiledede læringsalgoritmer, inkludert dype nevrale nett og gradient boosting-trær. En kombinasjon av molekylenes distansematriser og angulær informasjon gav en fleksibel datarepresentasjon som muliggjorde presise prediksjoner. Vår mest vellykkede modell inneholdt et ensemble av nevrale nett og gradient boosting-trær og resulterte i en 308. plass av de 2737 deltakende teamene. En nøkkelfaktor for teamets suksess var å kombiner og utnytte relevant domenekunnskap og erfaring med maskinlæringsoppgaver fra ulike forskningsgrupper på FFI.

Nylig publisert