Som studerende kan du have behov for at indsamle data (det som nogle fagområder kalder empiri) til universitetsopgaver. Det kræver en god datapraksis.
God datapraksis handler om at indsamle, opbevare og håndtere de indsamlede data på en organiseret, fagligt funderet, etisk og lovlig måde.
At have en god datapraksis bidrager til gennemsigtighed og troværdighed i dit akademiske arbejde. Det gør det lettere for dig at finde dine indsamlede data, og du mindsker risikoen for tab af data, f.eks. at dine data kommer uvedkommende i hænde.
Datapraksis kaldes også for data management.
God datapraksis indebærer, at du tænker over, hvordan du vil planlægge, indsamle, organisere, dokumentere, opbevare og slette data, når du ikke længere har brug for dem. Derudover skal du også have styr på, hvilke regler og retningslinjer, der potentielt kan gøre sig gældende, når du arbejder med data.
I de følgende afsnit kan du læse mere om, hvad det indebærer, og få tips til at opbygge en god datapraksis.
I planlægningsfasen skal du overveje, hvordan du vil indsamle, strukturere, organisere, opbevare og slette data. Dette skal du gøre både for at sikre dig, at du har styr på dine data og for at beskytte data og informanter.
Du kan med fordel notere dine beslutninger i en logbog eller lignende.
Hvilken type data, du indsamler, afhænger af din fagdisciplin, det emne du undersøger, og de metoder du benytter. Fælles er dog, at data ofte katagoriseres efter følgende betegnelser:
Primære data kan defineres som data, der er indsamlet direkte fra kilden, f.eks. gennem observationer, spørgeskemaer, interviews eller eksperimenter.
Sekundære data er derimod data, der er indsamlet i en anden sammenhæng end det aktuelle studie. De er ofte allerede bearbejdet og organiseret på en meningsfuld måde. De kan være tilgængelige fra f.eks. bøger, artikler, rapporter, statistikker eller offentlige databaser.
Kvalitative data er data, der beskriver egenskaber ved en ting eller en situation. Dette kan være følelser, holdninger, meninger, oplevelser eller beskrivelser af ting. Kvalitative data er ofte ikke målbare i konkrete tal, men kan for eksempel beskrives og analyseres ved hjælp af tekst, billeder eller lyd. Når du indsamler kvalitative data, f.eks. interviews, vil du i nogle situationer have brug for at benytte en diktafon. På AU Library udlåner vi diktafoner til studerende.
Kvantitative data er derimod data, der beskriver målbare egenskaber, dvs. størrelser eller mængder. Eksempler på kvantitative data kan være antal, længde, vægt, temperatur, tid eller andre målbare størrelser.
Det er muligt at finde åbne data, som du kan bruge i din opgave. De kan f.eks. være publiceret af offentlige institutioner, organisationer eller forskere.
Du kan bl.a. finde data i forskellige repositorier:
Institutionelle repositorier indeholder data fra forskere fra det respektive universitet.
Fagspecifikke repositorier indeholder kun data inden for et eller nogle få beslægtede fag – men kan være åbne for alle.
Generelle repositorier henvender sig til alle uanset institution, fag eller datatype.
Du kan søge efter respositorier på www.re3data.org, der er en database over tilgængelige repositorier til data. Her kan du søge efter repositorier ud fra de kriterier, som er vigtige for dig i din opgave.
Når du har indsamlet data, er det vigtigt, at du forholder dig til, hvordan du vil organisere dem. Dette omfatter bl.a., hvordan du vil navngive og strukturere dine mapper. Dette gør det nemmere at finde rundt i dit datasæt.
Data gemmes i filer, og filer findes i mange forskellige formater. En god praksis er at gemme dine filer i formater, som alle kan åbne, uanset om de har adgang til bestemt software eller ej. Dette kan være til gavn for andre, du vil dele filerne med, men også for dig selv på sigt.
Eksempler på filer med fri adgang er almindelige tekstfiler (.txt), PNG-filer (.png) og CSV-filer (.csv). Det modsatte af åbne filformater er proprietære formater, herunder eksempelvis Word (.doc eller .docx) og Excel-dokumenter (.xlsx).
AU stiller Microsoft 365 til rådighed for alle studerende. Det er også muligt at benytte alternativer til kommercielle softwareløsninger.
Hold dine filer strukturerede ved at bruge meningsfulde navne, logiske mappestrukturer og tænke over filernes versionering.
Ved at være konsistent i filnavngivning, øger du chancerne for, at du kan finde den rigtige fil igen, når du eller andre har brug for den.
Computere sorterer oftest filer i Stifinder (pc) eller Finder (mac) alfabetisk eller numerisk. Derfor er det smart at anbringe de vigtigste informationer i starten af filnavnet.
Eksempler på navnekonventioner:
[initialer]_[metode]_[emne]_[YYYYMMDD]_[version].[xxx]
[projekt#]_[metode]_[version]_[YYYYMMDD].[xxx]
[filtype]_[initialer]_[dato].[xxx]
[YYYYMMDD]_[kapitelnavn]_[dokumentnavn]_[version]
At dokumentere data betyder at give dit datasæt tilstrækkelig information. På den måde sikrer du, at du eller andre er i stand til at forstå data, fortolke dem og bruge dem på et senere tidspunkt.
Afhængigt af konteksten og hvilken type undersøgelser, du laver, kan du inddrage følgende oplysninger:
Detaljer om anvendt udstyr, såsom mærke og model, indstillinger og oplysninger om, hvordan det blev kalibreret
Detaljer om anvendte metoder eller teori
Teksten til spørgeskemaer, interviewskabeloner, emnevejledninger eller diskursanalyseskema
Detaljer om, hvem der indsamlede data og hvornår
Nøgletræk ved metoden, såsom prøvetagningsteknik, om eksperimentet var blindet, og hvordan deltagere blev identificeret og prøvegrupper blev underinddelt
Juridiske og etiske aftaler vedrørende data, såsom samtykkeformularer, datalicenser, og godkendelsesdokumenter
Referencer til sekundære data, du har brugt
Detaljer om filformater
Detaljer om den software, der bruges til at generere eller behandle data, herunder versionsnummer og platform
Dokumentationen kan nedfældes flere forskellige steder:
En README-fil: en struktureret tekstfil, hvor du beskriver dit datasæt og hvordan det blev indsamlet og analyseret
Logbog: Her kan du nedfælde dine observationer, fortolkninger og empiri
Kodebog: Her beskriver du definitionen af de variabler, du bruger, deres indbyrdes strukturer, måleenheder, hvordan du noterer mangler i datasættet mv.
Ovenstående afsnit tager afsæt i afsnittet om datahåndtering, fra Københavns Universitets læringsressourcer til digital dannelse, 2023. CC-BY-NC-SA.
Når du indsamler data, skal du også beslutte, hvor du vil gemme dem. Dette kan være mange forskellige steder, såsom:
Harddiske i computere
Eksterne harddiske
USB-nøgler
Servere
Cloud-løsninger
Det er dit ansvar, at de data, du arbejder med, bliver opbevaret sikkert, så du undgår datatab eller uautoriseret adgang. Alt afhængigt af hvilke typer data, du arbejder med, og hvordan data bliver klassificeret, kræver det forskellige niveauer af sikkerhed for opbevaring.
Aarhus Universitet stiller OneDrive til rådighed, som er et sikkert sted at opbevare data. Her kan du opbevare alle typer data, så længe de er pseudonymiserede eller anonymiserede.
Læs mere om opbevaring af data på Aarhus Universitets hjemmeside om behandling af personoplysninger.
Det er også vigtigt, at du husker at tage backup af dine data eller sikrer dig, at den lagringsinfrastruktur, du benytter, gør det for dig. Gemmer du dine data på f.eks. OneDrive, bliver der løbende taget backup af filer og mapper, så de kan tilgås, selvom du skulle miste din computer. Hvis du derimod kun har data liggende på din computers harddisk, og du mister den, så er data uerstattelige.
En gylden regel inden for backup er kendt som 3-2-1-reglen. Den lyder, at man skal gemme sine data i 3 eksemplarer, på 2 forskellige medier, hvor 1 af medierne er en cloud-løsning som f.eks. OneDrive.
Som studerende er du selv dataansvarlig, og det er derfor dit ansvar at handle i overensstemmelse med lovgivningen og universitetets retningslinjer.
Alt afhængigt af hvilken type data du indsamler, kan det være nødvendigt at have kendskab til forskellige juridiske rammer.
Optræder der genkendelige nulevende personer (eller personer, som har været døde i mindre end 10 år), betyder det, at dine data indeholder personhenførbare oplysninger, og så skal du forholde dig til EU’s GDPR-forordning.
Du skal være opmærksom på, at flere regler kan gøre sig gældende samtidig.
Det er f.eks. muligt at have et billede, som både er under ophavsret, og som indeholder genkendelige nulevende personer (eller personer som har været døde i mindre end 10 år).
Hvis dit datasæt indeholder værker, som andre har skabt, som f.eks. avisartikler eller foto, kan disse værker være beskyttet af ophavsret.
Hvis et værk er beskyttet af ophavsret, og der ikke foreligger en aftale eller en licens, der giver dig tilladelse til at bruge værket, skal du selv indhente samtykke (tilladelse) til at bruge værket.
Som studerende må du gerne bruge data, som ikke er beskyttet af ophavsret, eller data, som er lagt ud i et åbent repositorium. Hvis en ophaver har udgivet et værk under CC-licens, så kan du bruge værket som data i overensstemmelse med CC-licensens vilkår.
Der findes mange typer data, som kan indeholde personhenførbare oplysninger, f.eks. interviews, spørgeskemaer, billeder m.v.
Personhenførbare oplysninger er oplysninger, der kan bruges til at identificere en bestemt person.
Hvis dine data indeholder personhenførbare oplysninger, der kan bruges til at identificere nulevende personer (eller personer som har været døde i mindre end 10 år), skal du forholde dig til EU’s GDPR-forordning.
Forskellige typer af persondata, kræver forskellige niveauer af sikkerhed i opbevaringen. Læs mere om Aarhus Universitets’ klassifikation af persondata.
Det er lovpligtigt og en central del af god akademisk praksis at sikre sig informeret samtykke, når du indsamler data om identificerbare personer (f.eks. interviewmateriale, billeder og observationer). Du skal kunne dokumentere samtykket på skrift. Aarhus Universitet har en skabelon til samtykkeerklæringer, som du kan bruge.
Du kan vælge at pseudonymisere eller anonymisere dine data.
Når du pseudonymiserer dine data, laver du en fortrolig fortegnelse, som tillader dig at identificere personerne igen, f.eks. ved at give hver person en talkode eller et pseudonym. Det er ikke tilstrækkeligt, at du blot giver hver person en talkode eller et pseudonym. Du skal også fjerne de kendetegn i datasættet, som gør det muligt at identificere personer uden din fortegnelse.
Når du anonymiserer data, sletter du alle oplysninger, som kan bruges til at identificere personer. Dermed laver du ikke en fortegnelse, som tillader dig at identificere personerne igen. Korrekt anonymisering er derfor uigenkaldelig.
Når du uigenkaldeligt har anonymiseret dine data, er det ikke længere persondata og er ikke underlagt persondatalovgivning.
I nogle tilfælde kan det derfor være en fordel at anonymisere data.
Aarhus Universitet har forskellige tips til, hvordan du pseudonymiserer og anonymiserer korrekt.
Har du spørgsmål, er du velkommen til at kontakte biblioteket.
Du er også altid velkommen til at henvende dig til dit lokale bibliotek i AU Library.
Aarhus Universitet: Klassifikation af data
Aarhus Universitet: Behandling af personoplysninger ifm. opgaver og speciale
Aarhus Universitet: Online kursus om databeskyttelse og GDPR
Københavns Universitet: Digital dannelse - datahåndtering
AU Library udbyder kurser og workshops i programmer og værktøjer, hvis formål er at understøtte og motivere alle studerende, forskere og undervisere på AU i arbejdet med data.
Det er blandt andet værktøjer såsom R, Python, Whisper, Transcriber, NVivo, Voyant, VOSviewer, LSEG Workspace, Orbis med flere.
Vi afholder også åbne og skræddersyede kurser i God Datapraksis, målrettet studerende, der ønsker at arbejde systematisk, bevidst og struktureret med data. Alle kurser er åbne for alle studerende, uanset fakultetstilknytning.