Bruker søkemotor for å rangere Victorianske forfattere

ArsTechnica formidlet nylig en interessant historie om en litteraturforsker som brukte PageRank, googles søkealgoritme,  til å finne ut hvilke Victorianske forfattere som har hatt størst innflytelse. Det interessante er kanskje ikke at han identifiserte Walter Scott og Jane Austen som de med mest innflytelse på 1800-tallet, men måten han oppnådde sitt resultat.

Matthew Jockers fra University of Nebraska analyserte 3,592 digitaliserte romaner utgitt i  Storbritannia, Irland og USA mellom 1780 og 1900 ved hjelp av Google sin algoritme for å rangere nettsider, maskinlæring og andre teknikker. Analysen frembragte noen overraskelser, som f.eks at Onkel Toms hytte (1852), skrevet av en kvinne, hadde mer til felles med mannlige romaner enn kvinnelige. 

Matthew Jockers forelesning kan sees her

Jockers mener man ved hjelp av teknologi kan bygge en mer empirisk litteraturhistorie som viser den faktiske innflytelsen som ulike forfattere har hatt. Han viser blant annet til Ian Watts teori om at romanen utviklet seg fra en aristokratisk til en populær sjanger på 19 hundretallet. Ian Watt regnes som en av de viktigste engelskspråklige litteraturhistorikerne i verden. Hvordan kan vi bevise at dette var det som faktisk hendte? spør Jockers. Watt henviser kun til en håndfull forfattere, og til nå har man tatt hans ord for god fisk.  Nå kan vi undersøke dette skikkelig, mener Jockers.

Reklamer

Datagraving og fremtidens journalistikk

Da WikiLeaks publiserte en enorm mengde med dokumenter fra Irak-krigen sto journalistene overfor det samme problemet som alle andre internett-brukere: hvordan kunne de fortest mulig lete gjennom mye informasjon og finne det vesentlige. De kunne ikke lese hvert enkelt dokument. Det ville ta for lang tid.

Journalistene tok derfor i bruk erfaringene fra søkemotorene. De reduserte hvert dokument til tekst og skannet etter forhold mellom begreper, steder og tidspunkter. De plottet så denne informasjonen grafisk. Det er den samme teknikken som lå bak selskapet Digital Reasoning sitt verktøy Syntheses som jeg har skrevet om tidligere.

Journalistene bygde sine egne verktøy, men nå har det kommet enda et slikt redskap på markedet: BlogSum heter det og er utviklet ved Concordia universitetet i Montreal i Canada. BlogSum bruker såkalt «discourse relations» til å sammenfatte data og til å presentere sammendrag av hva som blir sagt i blogsfæren. Ifølge utviklerne skal man være i stand til å stille et hvilket som helst spørsmål og få svar på hva bloggene sier om dette. BlogSum-systemet skal ha en unik forståelse av menneskelig språk.

Journalister, historikere, politikere, politimenn og mange flere vil i fremtiden bli i stand til å bruke datagraving («data mining») til å hente målrettet informasjon fra nettet, enten fra arkiver med dokumenter slik som WikiLeaks eller fra blogg-sfæren.

Når nasjonalbiblioteket snart legger ut alle bøkene fra perioden før 2001, vil disse bli et yndet objekt for datagraving. Vi ser allerede begynnelsen på dette i Google Books sin N-Gram funksjon som lar deg lete gjennom Google Books sin enorme database med bøker for å finne hvor ofte et begrep er nevnt. Ser vi på Googles N-gram for ordet «Norway»,  ser vi at Norge er mest omtalt under andre verdenskrig. Ellers har omtalen av Norge på engelsk ligget stabilt på et noe lavere nivå. .

I dag støtter ikke NBs nettsider datagravings-funksjoner, men i fremtiden kan vi se for oss at biblioteket innfører et lignende system som Booklamp.org. Booklamp.org, et prosjekt ved universitet i Idaho, skanner bøker og sammenligner fortellinger i noe de kaller «story DNA», tusenvis av ulike parametre. Tanken er å finne bøker som ligner på hverandre. Dette er både et verktøy for publikum til å finne akkurat den boken de vil ha og en gavepakke til den akademiske grenen kjent som «komparativ litteratur».

I fremtiden kan vi se for oss at litteraturforskere bruker datagraving flittig i sin forskning, f. eks ved finne likhetstrekk mellom et større antall fortellinger. Dette vil føre til utvikling av en bredere og mer empirisk fundert sjangerteori. Til og med forfattere kan snart ta i bruk datagraving til å konstruere fortellinger eller til å bryte ut fra etablerte mønstre. En gang i fremtiden vil dataprogrammer selv være i stand til å konstruere fortellinger basert på disse mønstrene.

Internett er en kontinuerlig strøm av informasjon og utviklingen av stadig smartere måter å tolke og sortere den informasjonen er et skritt på veien mot det ideelle internettet. Noen kaller det bombastisk et «bevisst internett», andre kaller «det semantiske weben». Samme kan det være. Poenget er at det vil bli lettere å få svar på spørsmål ved hjelp av PC’en.