Content search in large text corpuses using natural language processing

FFI-Rapport 2021

Om publikasjonen

Rapportnummer

21/00022

ISBN

978-82-464-3376-9

Format

PDF-dokument

Størrelse

602.7 KB

Språk

Engelsk

Last ned publikasjonen
Bernt Ivar Utstøl Nødland Hallvar Gisnås Henrik Gråtrud Vidar Benjamin Skretting
Analytikere og forskere står overfor en stadig økende mengde informasjon. Derfor kan det å finne nye måter å identifisere informasjon om spesifikke emner og konsepter akselerere an alytikeren. Vi undersøker teknikker fra dyp læring for å søke etter spesifikt semantisk innhold i en stor tekstsamling. Vi tester flere av de nyere tekstforståelsesmodellene, som ULMFiT og transformer-baserte modeller. Dyp læring modeller bruker store offentlige tekstkorpus for å oppnå grundig forståelse av språk. Vi sammenligner dem med stikkordssøk på et testtilfelle bestående av ca. 50 000 artikler fra Jordan Times, der vi prøver å finne artikler om jihadistiske t errorplot. Vi finner at de beste modellene basert på dyp læring gjør det bedre enn stikkordssøk. Dette indikerer at disse teknikkene kan være nyttige for analytikere. Et forbehold er at disse teknikkene krever en del innsats for å sette opp og er mye mer komplekse enn stikkordssøk. Vi anbefaler å gjøre mer testing av disse metodene, både på engelsk og andre språk.

Nylig publisert