Skillnaden mellan data och information: från råa siffror till mening
Genom att förstå denna skillnad kan vi bli bättre på att skapa värde av vår data och fatta bättre informerade beslut.
Att förstå skillnaden mellan data och information kan vara lite av en utmaning. Än värre, om du söker upp ordet data i en etablerad ordbok, som exempelvis Cambridge Dictionary, så är det risk att du blir fortsatt förvirrad:
Det finns ingen vedertagen och universellt accepterad definition av begreppen data och information, utan olika experter kommer att ge olika svar. Skillnaden är dock viktig, bland annat för att inte bli lurad att tro att du har information när du i själva verket bara har data.
Förenklat kan skillnaden beskrivas så här:
Data är en sorts råvara som representerar information. Data kan lagras och behandlas. Exempelvis en databas kan lagra och behandla data, men data kan också lagras som en fil.
Information är själva innebörden eller betydelsen av data. Ett blodtrycksvärde på 125/75 är information, medan själva siffrorna 125 och 75 är data som inte skulle betyda något utan sammanhang. Information i sig kan inte lagras, men data som representerar informationen går att lagra.
En faktauppgift som att “rösträttsåldern i Sverige är 18 år” är information. Om du skulle skriva faktauppgiften i ett dokument och spara som en fil så har du omvandlat informationen till data.
Om du inte skiljer mellan data och information så kan du göra misstaget att tro att du har information när du egentligen bara har data.
Ett exempel på skillnaden
Låt oss kika på ett exempel. Kan du se skillnad på dessa bilder?
Hur du än jämför så kommer du inte kunna se någon skillnad. Bilderna visar exakt samma sak. De har exakt samma utseende och därmed samma information.
Om du däremot skulle jämföra bildfilerna, scientist.tif och scientist.png, så är de olika både till innehåll och storlek. Skillnaden beror på att bilden är sparad i två olika filformat. Ett filformat är ett slags regelverk för hur information (exempelvis en bild) representeras som data. Nedan kan du se exempel på innehållet i filerna:
För en bild så är själva utseendet information medan bildfilen som representerar den är data.
Sammanfattningsvis så är det alltså så här i detta exempel:
Informationen i bilderna (utseendet) är exakt samma.
Data (den digitala representationen) är olika för bilderna eftersom de har olika filformat.
Detta samband mellan information och data gäller inte bara bilder, utan det är på precis samma sätt vad det än gäller för information såsom dokument, video, blodtrycksvärden, osv. Även de kan representeras i olika format.
Ett sifferexempel
Om vi vänder på det då, skulle samma data kunna utgöra olika information?
Gör tankeexperimentet att du har en serie siffror (vår data):
31, 29, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31
Har du någon aning om vad dessa siffror kan betyda?
Åldrar på personer
Elevers poängresultat på ett prov
Temperaturmätningar
Etc
Utifrån enbart siffror (vår data) så går det inte att veta helt säkert vad de beskriver (informationen). Utan sammanhang är data inte tolkningsbart.
Just i det här fallet finns faktiskt ändå en kvalificerad gissning. Du kanske redan har kommit på det, men om du tänker månader och dagar under ett skottår så kommer du landa i precis denna sifferserie. Det är dessutom en högst kvalificerad gissning eftersom det vore ett riktigt sammanträffande att lyckas få denna sifferserie på annat sätt än genom att räkna antalet dagar per månad.
Det är ändå en tolkningsfråga vad siffrorna betyder. Utan sammanhang går det inte att veta helt säkert vilken tolkning som är rätt. Data i sig har alltså ingen betydelse, utan det är först när den sätts i ett sammanhang som den kan omvandlas till information.
Interoperabilitet och standarder
Att samma information finns i olika system innebär inte nödvändigtvis att de kan dela informationen mellan varandra. Eftersom data kan tolkas på så många olika sätt så behövs standardiserade regelverk och tolkningar för att uppnå interoperabilitet.
Det finns mängder av sådana här standarder. Ett exempel är de bildfilformat som finns. De beskriver helt enkelt hur en bild på ett standardiserat sätt omvandlas till data. Tack vare dessa standardiserade bildfilformat, och standarden HTML, får vi interoperabilitet mellan olika webbläsare så att det ser likadant ut oavsett vilken webbläsare du väljer.
Det finns också standarder av andra slag som beskriver hur information representeras som data. FHIR och openEHR är internationella och öppna standarder för datautbyte inom hälso- och sjukvård som specificerar just hur hälsoinformation skall beskrivas som data. Detta är återigen ett exempel på interoperabilitet, att möjliggöra för olika journalsystem, laboratorieutrustning och andra applikationer att dela information med varandra.
Det finns fler faktorer för att uppnå interoperabilitet, men ett grundläggande krav är att informationen representeras som data på ett standardiserat sätt.
Varför är skillnaden viktig?
Tänk dig att du skulle komma åt en databas. Det du kommer hitta i databasen är data men det kommer att vara mycket svårt att förstå betydelsen av den om du inte har någon beskrivning av sammanhanget och hur databasen är strukturerad. Du har alltså data men inte information.
Detsamma gäller API:er. Om du inte har någon beskrivning eller sammanhanget framgår så kommer data från API:erna lätt att misstolkas.
Se alltså till att du vet hur du skall tolka din data så att den blir information. Om du inte skiljer mellan data och information så kan du göra misstaget att tro att du har information när du egentligen bara har data.
Slutsats
Sammanfattningsvis så är förståelse för skillnaden mellan data och information grundläggande för att kunna få fram bra beslutsunderlag. Data är det råmaterial vi samlar in, medan information är den tolkade och bearbetade versionen som ger oss insikter och sammanhang. Genom att förstå denna skillnad kan vi bli bättre på att skapa värde av vår data och fatta bättre informerade beslut.
Obs! Innehållet på denna blogg är mina personliga åsikter och representerar inte min arbetsgivare. Jag som utgivare ansvarar inte för kommentarsfältet. Den som kommenterar ansvarar själv för det som skrivs.
Bra distinktion! Gillar särskilt tif/png-exemplet!
Lasse Hermansson