Big Data, store utfordringer

Tegning av en vitenskapsmann som svetter i møtet med altfor store data.

Stadig mer av vår hverdag registreres digitalt. Den nye datatilgangen vil endre samfunnsvitenskapen.

Tegning av en vitenskapsmann som svetter i møtet med altfor store data.
Big Data har for lengst revolusjonert næringslivet, men ennå har ikke denne ventede revolusjonen nådd samfunnsvitenskapene. (Illustrasjon: Anders Nordmo Kvammen)

 

Av Eivind Eggen

Samfunnet vi lever i er i ferd med å drukne i informasjon. I løpet av tiden det vil ta deg å lese denne artikkelen, vil det ha blitt skapt mer ny informasjon i verden enn det menneskehetens samlede kulturelle innsats frem til 2002 greide å skape. Ikke bare er vi fryktelig flinke til å skrive, dele og diskutere på nettet, men så godt som all teknologi vi omgir oss med, genererer og lagrer forskjellige former for informasjon.

[pullquote align=»left»]I motsetning til spørreundersøkelser, som alltid er preget av respondentens selvrepresentasjon, kan disse dataene gi innblikk i folks virkelige handlingsmønstre.[/pullquote]For å holde hodet over vannet i dette havet av informasjon, ser stadig flere til en ny metode for databehandling. Metoden kalles Big Data, og har allerede revolusjonert måten bedrifter forstår sine kunder. Hva må til for at samfunnsviterne skal følge etter?

 

Tingenes internett

Det finnes ingen sentral definisjon på hva som utgjør Big Data. Den klareste fellesnevneren er at man som forsker jobber med datasett som er så store at de ikke lar seg håndtere i tradisjonelle analyseverktøy. Tilfanget til slike datasett kommer blant annet fra sosiale medier, offentlige databaser, registre og kundelister.

Faktaboks: ordforklaringerMesteparten av veksten i datatilfanget kommer likevel fra det man kaller «the internet of things». Flere og flere hverdagslige gjenstander, som mobiltelefoner, biler og pulsklokker, produserer og lagrer informasjon om våre hverdagsvaner og gjør dem tilgjengelig på nettet.

Big Data baserer seg på at kraftige datamaskiner graver gjennom de enorme mengdene data for å finne korrelasjoner og mønstre. Denne metoden vokste frem da det ble klart for bedrifter som Amazon og Facebook at man kunne tjene gode penger på å analysere informasjon om når du ringer vennene dine, hvor ofte du passerer bomringen og tiden mellom hver gang du bruker kredittkortet ditt.

 

Vanskelig samtykke

Så langt har interessen for Big Data vært størst blant kommersielle aktører. Men de siste årene har samfunnsvitere begynt å følge etter. Som kilde i samfunnsforskningen, kan Big Data utgjøre noe så flott som kvantifiserte primærdata. I motsetning til spørreundersøkelser, som alltid er preget av respondentens selvrepresentasjon, kan disse datasettene gi innblikk i folks virkelige handlingsmønstre.

Tilgangen til slike data er dessverre begrenset. I tillegg krever det å arbeide med dem, programmeringsferdigheter langt utover det som undervises ved de samfunnsvitenskapelige instituttene i landet. I temaseksjonen av siste Tidsskrift for samfunnsforskning tas det opp flere aktuelle problemstillinger knyttet til Big Data. Et gjennomgående tema er de etiske betenkeligheten ved å benytte seg av offentlig tilgjengelige ytringer.

Informert samtykke, en hjørnesten i samfunnsforskningen, slutter å være et realistisk mål allerede når man går utover noen få hundre informanter. I vår digitale samtid er forskjellen på offentlig og privat stadig flyktigere. Kanskje er det derfor mer relevant å fokusere på hvor sensitive dataene er, og på hvor lett personer kan gjenkjennes.

 

En luftsensor henger i en vinduskarm over bakkeplan.
En luftsensor i Portland, Oregon måler luftpartikkelnivået, og sender kontinuerlig data til Intel Labs – et eksempel på «the Internet of Things» som beriker vår kunnskap om verden i forrykende fart. (Foto: Intel Free Press / Flickr)

Metodemangel

Et av de største problemene med å bruke Big Data til forskning, er mangelen på metodelære. Datasettene som benyttes i Big Data-analyser er i de aller fleste tilfeller skapt som et resultat av andre prosesser, som å handle på internett. I motsetning til datasett fremskaffet gjennom kvantitative og kvalitative metoder, kan de da ha store hull og mangler man ikke har tatt høyde for.

Datasettene er også preget av teknologien som skaper dem. Man må kunne algoritmene til den relevante plattformen man studerer, for å være sikker på at de funnene man gjør ikke er skapt av det teknologiske rammeverket de eksisterer innenfor.

Mangelen på en etablert metodelære, og problemer med å generalisere funn på tvers av teknologiske plattformer, gjør at Big Data så langt kun egner seg til beskrivende analyser. En av de mest siterte samfunnsvitenskapelige Big-Data studiene, var et nettverksstudie av amerikanske politiske blogger. Studien viste at blogger på hver sin side av det politiske skillet stort sett siterte hverandre. Utfra det kan man konkludere at amerikansk politikk er et ekkokammer, men man kan ikke si så mye annet av generaliserbar art.

 

Forutse eller forstå?

Det er ingen tvil om at Big Data endrer premissene for samfunnsforskningen. Derfor er det viktig at vi kommer denne utfordringen i møte. Viktige grep må tas før Big Data faktisk muliggjør metoder som kan skape god samfunnsvitenskapelig forskning.Tilgang på data må frigjøres fra de økonomiske kreftene som nå besitter dem, og etiske problemstillinger må drøftes.

Hvis Big Data skal komme oss til gode, trenger vi samfunnsvitere som kan utvikle gode metoder for innsamling og analysering av disse dataene. Hvis vi overlater dette feltet til de som kun har programmeringskunnskapen, kan vi risikere å bli satt langt tilbake i arbeidet med å skape en grundig og refleksiv samfunnsvitenskap.

 

Eivind Eggen (f. 1986) har en Mastergrad i Sosialantropologi. Han har en vedvarende interesse for hvordan vitenskap og teknologi former måten vi forstår oss selv.

Anders Nordmo Kvammen lager og leser tegneserier. Har gått på Einar Granums kunstfagskole, har en bachelor i medier og kommunikasjon og livnærer seg ved å jobbe i en IT-bedrift.