Datamaskiner erstatter journalister i USA

narrative scienceDet er allerede to år siden New York Times fortalte om selskapet Narrative Science. Selskapet har utviklet datamaskiner som kan skrive artikler på bakgrunn av tall, slik som sportsresultater eller sammendrag av økonomiske kvartalsrapporter.

Artiklene, som allerede er å finne på enkelte fagnettsteder i USA, er umulig å skille fra artikler forfattet av mennesker. Så langt har språkteknologien og kunstig intelligens kommet. Dette er kanskje ingen overraskelse siden mange husker IBMs datamaskin Watson, som kunne svare på spørsmål like godt som et menneske.

De data-genererte artiklene blir et positivt bidrag til pressen- i begynnelsen. New York Times skriver om en bredere dekning av lokal sport og av økonomiske realiteter som man vanligvis ikke ville ha tid til å dekke. Men hvor langt kan dette gå?

Nylig viste NRK en dokumentar i serien Verdas språk, hvor amerikanske forskere fortalte om sitt arbeid med automatisk analyse av fortellinger. Allerede finnes søkemotoren booklamp.org (som jeg har skrevet om mange ganger) som skanner skjønnlitteratur og sammenligner fortellingene. Om man knytter sammen trådene i denne utviklingen ser man at den data-genererte skjønnlitteraturen ikke er langt unna.

Datamaskiner har allerede rukket å sette sitt preg på den vestlige verdens største historiefortellere: Hollywood. Statistikeren Nick Meaney leder selskapet Epagogix  som prøver å kvantifisere hva som kjennertegner et vellykket manuskript. Han analyserer filmmanuskripter og prøver å forutse hvilken suksess de vil få. Om en datamaskin kan produsere en feilfri tekst, om den kan analysere en fortelling og om den, som Meaney, kjenner publikums smak, kan den ikke da også konstruere en helt ny roman eller film?

Folk som Meaney har allerede møtt kritikk fordi han strømlinjeformer fortellinger. Hvordan skal man få nye fortellinger om alt skal kalkuleres fra det gamle? Evnen til å bryte de gamle mønstrene på en måte som er meningsfull for mennesker er foreløpig ikke innenfor datamaskinenes kapasitet. Artiklene som Narrative Science selger er også begrenset i den forstand at de er basert på rapporter og tall-materiale. Datamaskinene har ikke evnen til å vurdere hvilke saker som er viktig i verden eller avgjøre hvilken vinkling som er passende.

Siri- funksjon på din stasjonære PC

ai I filmer som Star Trek eller 2001: en rom-odysse samhandler hovedpersonene muntlig med sine datamaskiner. Man stiller spørsmål til PC’en og så skal maskinen kunne svare. For eksempel skulle man kunne gå rundt i stua og si «Datamaskin, hvem var Charles Dickens?» og PC’en skulle kunne svare riktig og meningsfullt. I dag er dette faktisk mulig, selv uten superdatamaskiner som IBMs Watson.

Zabaware Ultra Hal

Ultra Hal er en nedlastbar «chatbot» med ekstra-funksjoner som i tillegg lar deg søke etter ting på nettet og åpne programmer. En chatbot er et program som det skal være mulig å småprate med, som prøver å simulere naturlige samtaler. Ultra Hal koster noen og tredve dollar, men det er mulig å lære seg å tilpasse dette programmet etter de behovene man har. Chatbotten snakker selvsagt ganske kryptisk, men utvidelser gjør det mulig å gi den ekstra kunnskap og funksjoner. Ulta Hal er et litt eldre program, og det har ikke blitt oppdatert på mange år.

Syn Virtual Assistant

Syn Virtual Assistant er gratis. Problemet er at det bare virker på engelske versjoner av windows 7 og 8. I august 2013 kommer imidlertid versjon 7 av programmet og da skal problemet med fremmede språk være løst. Syn Virtual Assistant har både en chatbot funksjon slik som Ultra Hal og det er i stand til å åpne programmer, men det er også integrert med gmail og facebook. Integrasjon med WolphramAlpha.com gjør dessuten at du kan spørre programmet om hvem Dickens var og få et skikkelig grundig svar lest opp. Du kan spørre programmet muntlig «Hva skjer i dag» og så kan programmet lese overskriftene fra dagens nyheter. Du kan også be programmet regne ut ulike regnestykker. Siden programmet er integrert med facebook får du beskjed når noe nytt dukker opp på facebook eller gmail.

Dragon NaturallySpeaking.

Dette er et program som spesialiserer seg på å ta diktater. I USA blir det blant annet mye brukt av legesekretærer. Det er ikke billig. Det koster 99 dollar til hjemme bruk. Programmet er større enn både Ultra Hal (som var rundt 20 mb) og Syn Virtual Assistant (som var på 160 mb). Dragon er totalt på nesten 2 gb. Det er altså snakk om et omfattende program som kan åpne de fleste programmer og funksjoner på din PC eller laptop ved hjelp av tale. Dette er programmet for sekretærene som vil jobbe hurtig eller for de funksjonshemmede som ikke kan bruke tastaturet på datamaskinen.

Studere litteratur med en datamaskin?

De fleste av oss tror at data er noe som tilhører naturfagene og samfunnsfagene, mens litteraturstudiet, forståelsen av fortellingene, ikke kan utføres ved hjelp av informasjonsteknologi.

De fleste blir overasket når de hører at man ihvertfall siden 1990-tallet har brukt dataprogrammer til å analysere ordbruken og stilen i en fortelling. I enkelte debatter, som i opphavsdebatten om Shakespeare sine skuespill, har datamaskiner vært viktige. Hvilke ord forfatteren bruker og hvor ofte kan lett klarlegges av et dataprogram, og dermed kan man danne seg hypoteser om hvem som har skrevet hva. Dataprogrammer har også blitt  brukt til å analysere stilen til Agatha Christie i et forsøk på å forstå hvordan hun kunne bli planetens mest-selgende forfatter. Tilnærmingen jeg har skissert ovenfor er såkalt kvantitativ tilnærming til litteratur. Den er allerede tilgjengelig for alle med et tasttrykk på siden Autocrit.com

Det finnes imidlertid en annen tilnærming som også egner seg for datamaskiner, og det er den såkalte strukturalismen. Strukturalismen leter etter strukturer i fortellinger, modeller som kan forklare fortellingens oppbygning.  Her snakker man ikke bare om synsvinkel, men om akter, om «story beats», sekvenser osv. Denne typen tilnærming har blitt en del av dataprogrammer som Dramatica Pro og Power Structure.Bakdelen er imidlertid at brukeren selv må gjenkjenne de ulike elementene i en fortelling og plotte dem i dataprogrammene.

Den såkalte «missing link» som lar oss kombinere strukturalisme og kvantitativ analyse i en  dataanalyse av en fortelling er tilsynelatende kunstig intelligens og språkforståelse. Men nå har det seg slik at dette problemet er løst, og jeg har skrevet om en maskin som kan møte et slikt problem tidligere på bloggen: IBMs Watson. IBMs Watson maskin kan forstå menneskelig språk og svare på spørsmål bedre enn et menneske.

La oss så se for oss at vi kjøper IBMs Watson og programmerer den til å analysere litteratur. Da vil vi kanskje bli i stand til å analysere stilen og strukturen i en fortelling, sammenligne den med en database av andre stiler og fortellinger. Vi vil også kunne sammenligne fortellingen med sjanger teori. Så i teorien kan datamaskiner snart erobre studiet av litteratur, den menneskelige fortellingen. Dette er faktisk allerede i ferd med å skje gjennom book genome prosjektet ved University of Idaho.  (se også booklamp.org). Book genome-prosjektet skanner bøker og sammenligner resultatene.

Kunstig intelligens og musikk

Vi innbiller oss ofte at datamaskiner er et redskap, mens kunstnerisk virksomhet er forbeholdt menneskene. Nylig oppdaget jeg imidlertid at dette kan være i ferd med å endre seg. Jeg lastet ned programvaren Magix Music Maker. Selv er jeg veldig ikke musikalsk, og jeg kan ikke en eneste note. Magix Music Maker lar deg imidlertid lage musikk ved å klippe og lime fra en enorm database med forhåndsinnspilte lyder og instrumenter. Programmet er tilpasset erfaringene fra DJ’er, hiphop artister og house produsenter, og det er bare et av flere slike redskaper.

Jeg brukte noen timer på programmet, og vips hadde jeg laget min egen låt, fullstendig uten å kunne en note. Men bruken av datamaskiner har gått enda lengre. Nylig meldte BBC at Britiske professorer jobbet for å erstatte musikk-dommere med datamaskiner. Deres dataprogram hørte igjennom en database av ulike musikk sjangre, og så skulle det komme med objektive vurderinger av hva som ville slå an hos folket.

Så ikke bare var produksjonsleddet forenklet slik at amatører som meg kunne snekre låter å noen minutter, vurderingen av resultatet kunne også automatiseres. Så kan man da spørre: hvor er menneskene i alt dette? Om musikk produksjon kan automatiseres, kan det samme skje, f. eks med litteraturen. Vi vi i fremtiden bli passivisert som rene konsumenter av maskinproduserte uttrykk, kunstige stimuli? Skulle ikke kunstnerisk virksomhet representere det typisk menneskelige, den delen av oss som ikke kan erstattes.

Nå viser det seg altså at vi kan simulere flere og flere menneskelige trekk ved hjelp av kunstig intelligens, og i årene som kommer vil vi merke dette.
Nedenfor kan du høre låten jeg laget ved hjelp av dataprogrammer:

http://www.youtube.com/watch?v=v4Uy3rVsrt0