Bruker søkemotor for å rangere Victorianske forfattere

ArsTechnica formidlet nylig en interessant historie om en litteraturforsker som brukte PageRank, googles søkealgoritme,  til å finne ut hvilke Victorianske forfattere som har hatt størst innflytelse. Det interessante er kanskje ikke at han identifiserte Walter Scott og Jane Austen som de med mest innflytelse på 1800-tallet, men måten han oppnådde sitt resultat.

Matthew Jockers fra University of Nebraska analyserte 3,592 digitaliserte romaner utgitt i  Storbritannia, Irland og USA mellom 1780 og 1900 ved hjelp av Google sin algoritme for å rangere nettsider, maskinlæring og andre teknikker. Analysen frembragte noen overraskelser, som f.eks at Onkel Toms hytte (1852), skrevet av en kvinne, hadde mer til felles med mannlige romaner enn kvinnelige. 

Matthew Jockers forelesning kan sees her

Jockers mener man ved hjelp av teknologi kan bygge en mer empirisk litteraturhistorie som viser den faktiske innflytelsen som ulike forfattere har hatt. Han viser blant annet til Ian Watts teori om at romanen utviklet seg fra en aristokratisk til en populær sjanger på 19 hundretallet. Ian Watt regnes som en av de viktigste engelskspråklige litteraturhistorikerne i verden. Hvordan kan vi bevise at dette var det som faktisk hendte? spør Jockers. Watt henviser kun til en håndfull forfattere, og til nå har man tatt hans ord for god fisk.  Nå kan vi undersøke dette skikkelig, mener Jockers.

Advertisements

Datamaskiner gjenkjenner tegninger

Forskere presenterte et interessant eksperiment ved Siggraph arrangementet i 2012. De  samlet inn 20 000 skisser av ulike objekter, og fant ut at mennesker var i stand til å gjenkjenne det som var avbildet i 73% av tilfellene. De greide imidlertid å programmere en datamaskin til å gjenkjenne objektene i tegningene i 56% av tilfellene, noe som viser at avstanden mellom menneske og maskin minsker. Videoen nedenfor viser hvor effektivt systemet er.

Datagraving og fremtidens journalistikk

Da WikiLeaks publiserte en enorm mengde med dokumenter fra Irak-krigen sto journalistene overfor det samme problemet som alle andre internett-brukere: hvordan kunne de fortest mulig lete gjennom mye informasjon og finne det vesentlige. De kunne ikke lese hvert enkelt dokument. Det ville ta for lang tid.

Journalistene tok derfor i bruk erfaringene fra søkemotorene. De reduserte hvert dokument til tekst og skannet etter forhold mellom begreper, steder og tidspunkter. De plottet så denne informasjonen grafisk. Det er den samme teknikken som lå bak selskapet Digital Reasoning sitt verktøy Syntheses som jeg har skrevet om tidligere.

Journalistene bygde sine egne verktøy, men nå har det kommet enda et slikt redskap på markedet: BlogSum heter det og er utviklet ved Concordia universitetet i Montreal i Canada. BlogSum bruker såkalt «discourse relations» til å sammenfatte data og til å presentere sammendrag av hva som blir sagt i blogsfæren. Ifølge utviklerne skal man være i stand til å stille et hvilket som helst spørsmål og få svar på hva bloggene sier om dette. BlogSum-systemet skal ha en unik forståelse av menneskelig språk.

Journalister, historikere, politikere, politimenn og mange flere vil i fremtiden bli i stand til å bruke datagraving («data mining») til å hente målrettet informasjon fra nettet, enten fra arkiver med dokumenter slik som WikiLeaks eller fra blogg-sfæren.

Når nasjonalbiblioteket snart legger ut alle bøkene fra perioden før 2001, vil disse bli et yndet objekt for datagraving. Vi ser allerede begynnelsen på dette i Google Books sin N-Gram funksjon som lar deg lete gjennom Google Books sin enorme database med bøker for å finne hvor ofte et begrep er nevnt. Ser vi på Googles N-gram for ordet «Norway»,  ser vi at Norge er mest omtalt under andre verdenskrig. Ellers har omtalen av Norge på engelsk ligget stabilt på et noe lavere nivå. .

I dag støtter ikke NBs nettsider datagravings-funksjoner, men i fremtiden kan vi se for oss at biblioteket innfører et lignende system som Booklamp.org. Booklamp.org, et prosjekt ved universitet i Idaho, skanner bøker og sammenligner fortellinger i noe de kaller «story DNA», tusenvis av ulike parametre. Tanken er å finne bøker som ligner på hverandre. Dette er både et verktøy for publikum til å finne akkurat den boken de vil ha og en gavepakke til den akademiske grenen kjent som «komparativ litteratur».

I fremtiden kan vi se for oss at litteraturforskere bruker datagraving flittig i sin forskning, f. eks ved finne likhetstrekk mellom et større antall fortellinger. Dette vil føre til utvikling av en bredere og mer empirisk fundert sjangerteori. Til og med forfattere kan snart ta i bruk datagraving til å konstruere fortellinger eller til å bryte ut fra etablerte mønstre. En gang i fremtiden vil dataprogrammer selv være i stand til å konstruere fortellinger basert på disse mønstrene.

Internett er en kontinuerlig strøm av informasjon og utviklingen av stadig smartere måter å tolke og sortere den informasjonen er et skritt på veien mot det ideelle internettet. Noen kaller det bombastisk et «bevisst internett», andre kaller «det semantiske weben». Samme kan det være. Poenget er at det vil bli lettere å få svar på spørsmål ved hjelp av PC’en.

Sult hjelper ikke på livslengde

Triste nyheter for de av oss som trodde vitenskapen kunne forlenge livet. Da jeg skrev om debatten som fant sted ved universitetet i Oxford i år, trodde de fleste at kaloribegrensning var en sikker måte å forlenge livslengden. Studier av ormer og mus viste at organismer som inntok færre kalorier levde lengre. Så sikre var man i sine antagelser om dette at grupper med entusiaster verden over endret kostholdet for å leve på et minimum, en tilnærmet sulte-diett. Farmasigiganter brukte også millioner på å utvikle stoffer som simulerte kaloribegrensning. Selv hengte jeg meg på bølgen å begynte å spise resveratrol.

I  august publiserte amerikanske forskere resultatene av en studie av apekatter som har blitt holdt på en mager diett siden 1980-tallet i tidsskriftet Nature. Resultatene viser at kaloribegrensning ikke har noen effekt overhodet på livslengde hos apekatter (og dermed også mennesker). Stoffer som resveratrol kan imidlertid redusere overvekt og sjansen for diabetes og hjerteinfarkt, og dermed indirekte ha en effekt på livslengde.

Det finnes imidlertid håp for de som håper på lengre liv. Flere  så  kanskje på Schrödingers katt i august, om den australske professoren Elizabeth Blackburn som vant   Nobelprisen i  2009 for oppdagelsen av et enzym som kan helbrede aldring. I nrk-programmet (ikke tilgjengelig på nrk.no lengre) ble det nevnt flere kinesiske urter som kan virke inn på enzymet telemorase. Problemet er imidlertid at man ikke vet om bruk av disse kan øke kreftfaren.

Lesebrett og nettbrett smelter snart sammen: Kindle Paperwhite

Amazon har nettopp sluppet sine nye produkter: oppdaterte Kindle Fire og Kindle Paperwhite. Kindle Fire er et nettbrett på linje med Apples Ipad, mens Kindle Paperwhite er ett lesebrett for ebøker. Fire og Paperwhite representerer kanskje siste skrittet før de to dingsene smelter sammen til ett produkt. Nettbrett og lesebrett er jo skremmende like. Den eneste forskjellen er at skjermen på et lesebrett er spesielt tilpasset lesing. Problemet er dermed å bygge en skjerm som man både kan surfe på og lese.

Skjermen på Paperwhite har bedre oppløsing enn sine forgjengere Kindle Touch og Kindle DX og har sidebelysning slik at hvitfargene kommer bedre frem. Amazon hevder dette er en revolusjonerende teknologi, men teknologien er allerede brukt i lesebrettene Kobo Glo og Nook simple touch . Så dette er ikke den revolusjonen Amazon vil ha det til.

Paperwhite har heller ikke farger. Selskapet som utvikler teknologien til Kindle skjermene, e-ink, har imidlertid allerede lansert sitt nye Triton konsept, leservennlige skjermer med farger. De nye farge-skjermene er installert på Ectacos Jetbook Color og Mirasols Hanvon C18, så det er bare et spørsmål om tid før de ender opp på Kindle.

Når dette skjer vil Kindle kunne utvikles til et nettbrett som man både kan surfe på nettet med og lese bøker på. Da vil det ikke være nødvendig å kjøpe både et lesebrett og et nettbrett. Det er imidlertid mulig Amazon ønsker å beholde lesebrettet som et billigere alternativ til nettbrettet. Men da trenger man ikke legge på det fordyrende ekstra-funksjoner slik som selskapet gjør nå.

Politiets mystiske IKT-systemer

Politiets dårlige IKT-systemer har preget mediene den siste måneden. Hva slags systemer det er snakk om vet jeg ikke. Men debatten om IKT-systemene til amerikansk politi foregår åpent i mediene. Gjennom denne kan vi kanskje få et pekepinn på hvor lang lovens arm egentlig er.

I 2005 var det stor debatt om politiets brudd på personvernet i USA. Et system for å overvåke eposter kalt Carnivore var det kontroversielle den gangen. Siden ble det erstattet av NarusInsight. Ved hjelp av disse verktøyene kunne politiet (og kan fortsatt) overvåke epost-trafikk, ja til og med søke etter ulike nøkkelbegreper i en kontinuerlig strøm av e-poster.

Et annet amerikansk system som har vært i mediene er IBMs Blue C.R.U.S.H, først brukt av politiet i Memphis. Dette er et system som plotter statistikk på et kart over bydeler og nabolag slik at ressurser kan sendes dit de trengs. Systemet skal angivelig ha ført til 20 % mindre kriminalitet.

Politiet i USA har imidlertid ikke bare evnen til å overvåke eposter og til å plotte statistikk på kart, de har også muligheten til å samle store mengder med  dokumenter og tekst og analysere denne informasjonen ved hjelp av en datamaskin. In-Q-Tel, CIAs hovedleverandør, har støttet utviklingen av selskapet Digitial Reasoning sitt vektøy: Synthesys.  Videoen nedenfor forklarer hvordan verktøyet virker:

I tillegg har politiet sitt egen Twitter og varsel tjeneste som de kaller Nixle.com, skjønt jeg  ikke skjønner hvorfor de ikke kan bruke vanlig twitter. Det har også vært snakk om ulike former for automatisk ansikts-gjenkjenning, gjerne knyttet til kamera festet på politibilen eller på politibetjentene, eller knyttet til overvåkingskamera utendørs.