Datagraving og fremtidens journalistikk


Da WikiLeaks publiserte en enorm mengde med dokumenter fra Irak-krigen sto journalistene overfor det samme problemet som alle andre internett-brukere: hvordan kunne de fortest mulig lete gjennom mye informasjon og finne det vesentlige. De kunne ikke lese hvert enkelt dokument. Det ville ta for lang tid.

Journalistene tok derfor i bruk erfaringene fra søkemotorene. De reduserte hvert dokument til tekst og skannet etter forhold mellom begreper, steder og tidspunkter. De plottet så denne informasjonen grafisk. Det er den samme teknikken som lå bak selskapet Digital Reasoning sitt verktøy Syntheses som jeg har skrevet om tidligere.

Journalistene bygde sine egne verktøy, men nå har det kommet enda et slikt redskap på markedet: BlogSum heter det og er utviklet ved Concordia universitetet i Montreal i Canada. BlogSum bruker såkalt «discourse relations» til å sammenfatte data og til å presentere sammendrag av hva som blir sagt i blogsfæren. Ifølge utviklerne skal man være i stand til å stille et hvilket som helst spørsmål og få svar på hva bloggene sier om dette. BlogSum-systemet skal ha en unik forståelse av menneskelig språk.

Journalister, historikere, politikere, politimenn og mange flere vil i fremtiden bli i stand til å bruke datagraving («data mining») til å hente målrettet informasjon fra nettet, enten fra arkiver med dokumenter slik som WikiLeaks eller fra blogg-sfæren.

Når nasjonalbiblioteket snart legger ut alle bøkene fra perioden før 2001, vil disse bli et yndet objekt for datagraving. Vi ser allerede begynnelsen på dette i Google Books sin N-Gram funksjon som lar deg lete gjennom Google Books sin enorme database med bøker for å finne hvor ofte et begrep er nevnt. Ser vi på Googles N-gram for ordet «Norway»,  ser vi at Norge er mest omtalt under andre verdenskrig. Ellers har omtalen av Norge på engelsk ligget stabilt på et noe lavere nivå. .

I dag støtter ikke NBs nettsider datagravings-funksjoner, men i fremtiden kan vi se for oss at biblioteket innfører et lignende system som Booklamp.org. Booklamp.org, et prosjekt ved universitet i Idaho, skanner bøker og sammenligner fortellinger i noe de kaller «story DNA», tusenvis av ulike parametre. Tanken er å finne bøker som ligner på hverandre. Dette er både et verktøy for publikum til å finne akkurat den boken de vil ha og en gavepakke til den akademiske grenen kjent som «komparativ litteratur».

I fremtiden kan vi se for oss at litteraturforskere bruker datagraving flittig i sin forskning, f. eks ved finne likhetstrekk mellom et større antall fortellinger. Dette vil føre til utvikling av en bredere og mer empirisk fundert sjangerteori. Til og med forfattere kan snart ta i bruk datagraving til å konstruere fortellinger eller til å bryte ut fra etablerte mønstre. En gang i fremtiden vil dataprogrammer selv være i stand til å konstruere fortellinger basert på disse mønstrene.

Internett er en kontinuerlig strøm av informasjon og utviklingen av stadig smartere måter å tolke og sortere den informasjonen er et skritt på veien mot det ideelle internettet. Noen kaller det bombastisk et «bevisst internett», andre kaller «det semantiske weben». Samme kan det være. Poenget er at det vil bli lettere å få svar på spørsmål ved hjelp av PC’en.

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter picture

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+ photo

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s