Text mining och topic modeling – något för historiker?

Häromdagen deltog jag i ett seminarium vid Göteborgs universitet om de möjligheter som nya digitala material och metoder kan öppna för humanistisk forskning. Framför allt handlade det om digitaliserade korpusar (textsamlingar), särskilt sådana med skönlitteratur, och de olika analyser man kan göra av sådana i form av ”text mining”, kulturomik och ”topic modeling”. Det är inte helt enkelt att förklara dessa begrepp, särskilt som jag själv inte är insatt i de tekniska detaljerna, men i grund och botten rör det sig om olika sätt att söka efter mönster, relationer och samband i stora mängder text. En (på vissa sätt!) relativt enkel variant är Google NGrams, där man kan studera hur förekomsten av ord och uttryck förändrats över tid (en slags frekvensmätning); en annan är att analysera personrelationer eller sociala nätverk i romaner; och en tredje är topic models, där man med hjälp av algoritmer försöker identifiera ”topics”, ämnen eller teman, i texter och hur olika ord knyts till dem.

Jag är lite bekant med dessa metoder sedan tidigare, bland annat genom arbetet med ”Historia i en digital värld”, men här diskuterades och demonstrerades de mer handfast utifrån en rad projekt och resurser hemmahörande vid GU: Språkbanken, Svensk Nationell Datatjänst, Litteraturbanken, Svensk prosafiktion 1800–1900, kulturomikprojektet med flera. Som redan namnen antyder är flertalet av dessa satsningar förankrade i litteraturvetenskapliga eller språkvetenskapliga ansatser, och det finns i varierande grad kopplingar till den starka traditionen av datalingvistik vid GU. Vid seminariet deltog också forskare från bland annat historia, ekonomisk historia, vetenskapsteori och idéhistoria, och den mångfalden av perspektiv bidrog till att det blev en lärorik dag med intressanta diskussioner. Det gav upphov till många funderingar om hur vi kan gå vidare med denna typ av arbetssätt, och det följande är ett försök att summera de tankarna utifrån en historikers perspektiv.

För det första är det uppenbart att tekniken på detta område liksom andra öppnar nya, stora möjligheter men att vi fortfarande är rätt osäkra på vilka dessa möjligheter är eller hur vi kommer att utnyttja dem framöver. Mycket av det som demonstrerades vid seminariet var intressant, men ur min synvinkel kanske främst som redskap för att få uppslag, orientera sig i material och hitta fruktbara ingångar snarare än som egentliga metoder för att empiriskt besvara forskningsfrågor i sig. Jag tror att man här också, trots den upplösning av disciplingränser som nu pågår, bör påpeka den skillnad i fokus som ofta finns mellan historiskt inriktade forskare å ena sidan och litteratur- respektive språkvetare å den andra. I någon mening (och givetvis förenklat) är texter mer av objekt i sig för de senares intresse, medan de förra i högre grad använder dem som spår, avspeglingar eller belägg för de processer eller företeelser de egentligen är ute efter att förstå.

Det gör att tekniska möjligheter som för språk- och litteraturvetare ses som direkt kopplade till deras centrala frågeställningar (topics, relationer mellan romanfigurer, narrativa strukturer eller vad det nu kan vara) visserligen kan vara av intresse för historiker men i de flesta fall bara är ett första steg. Och hur viktigt det steget är i relation till forskningsprocessen som helhet beror i mycket hög grad på hur representativt materialet är för samhället i stort, eller den del(mängd) av samhället undersökningen gäller, eftersom det är det som för historiker avgör forskningens vidare relevans. Denna skillnad mellan disciplinerna tror jag är en viktig anledning till många av de synpunkter som kom från de mer historiskt inriktade forskarna vid seminariet, och som kanske kunde uppfattas som kritiska till digitala metoder mer generellt (vilket jag inte tror att de var).

För det andra, och delvis som en direkt följd av det nyss sagda, tror jag att det vi som historiker främst behöver för att dessa metoder ska bli mer allmänt användbara är mer digitalt material. Åtminstone på svensk botten är det som digitaliserats hittills ganska begränsat och därtill med rätt fläckvis spridning, en följd av att mer eller mindre lokala initiativ och diverse slumpmässiga faktorer varit styrande. Just eftersom det för historiker är så viktigt att alltid kunna visa vad det vi påstår är representativt för eller inte, är denna ojämna täckning ett svårt hinder för att använda digitala textkorpusar som huvudsakligt källmaterial med de metoder som diskuterades vid seminariet. Vissa mycket specifika frågor kan givetvis undersökas, till exempel de som nämndes om hur borgerlig livsstil och konsumtion ”skapades” av borgerliga hem i 1800- och 1900-talens litteratur, men för att få mer allmän bäring för historisk forskning behövs helt enkelt mer material. Ju mer desto bättre, och hellre mindre utsnitt med bättre/tydligare täckning än stora svep med några få nedslag.

Ur det perspektivet är de väl avvägda och regelbundna nedslag som t.ex. Svensk prosafiktion 1800–1900 bygger på en bra kompromiss, och ett första steg skulle kunna vara att den databasen förtätas genom att fler utsnitt läggs till. En möjlighet vore att lägga till ett eller två år före/efter de nuvarande nedslagen (1800, 1820, 1840, 1860, 1880, 1900), en annan att minska intervallet mellan dem från tjugo till tio år. Personligen skulle jag gärna se att man dessutom lade till fler källkategorier, i första hand reseskildringar, biografier och memoarer. Just de materialtyperna skulle förmodligen vara av intresse för historiker mer generellt, samtidigt som de ju har stor relevans även för litteratur- och språkvetare. För samtliga källtyper vore det också värdefullt om de kunde kompletteras bakåt i tiden, till åtminstone 1750 eller 1700, men det är kanske ett mer långsiktigt mål.

För det tredje bygger mycket av dessa tankar på den rätt ytliga förståelse jag fortfarande har av dessa metoders tillämpning. Det känns fortfarande som att jag, trots stort intresse för frågorna under flera år, egentligen aldrig sett konkreta exempel på omfattande användning av denna typ av tekniker i reguljärt, vardagligt vetenskapligt arbete. För min del skulle det därför, på en mer handfast och kortsiktig nivå, vara mycket intressant om vi framöver kunde ordna seminarier där humanistiska forskare – med historisk, litteratur- eller språkvetenskaplig inriktning – berättar om hur de använt dessa metoder i sin forskning och vilka för- och nackdelar de ser med dem.

Å andra sidan skulle jag gärna delta i workshops med mer utpräglat teknisk inriktning där vi gick igenom hur topic models och liknande konstrueras, alltså vilka val som måste göras och hur de påverkar utfallet när man ”trycker på knappen”. Som påpekades vid seminariet finns det många underliggande sådana parametrar vilkas effekt på resultatet vi som forskare inte riktigt förstår, och det tror jag vi behöver göra om vi ska kunna använda denna typ av metoder på ett effektivt sätt.

Sammanfattningsvis tror jag alltså att vi måste förstå de digitala metodernas användning i forskning både från forsknings- och teknikhållet för att kunna utnyttja dem fullt ut. Men framför allt behöver vi mycket mer material, och därför måste vi också diskutera vad vi kan göra för att få till stånd en snabbare takt i digitaliseringen av svenskt källmaterial av alla typer.

Jo Guldi om digital historia

För en dryg vecka sedan, den 4 december, gästades Humanistiska fakulteten av Jo Guldi från Brown University och Harvard Society of Fellows. Guldi är ett välkänt namn i de amerikanska diskussionerna om digital historia och det var därför mycket roligt att hon ville besöka oss på väg till konferensen Media Places 2012 vid HumLab i Umeå. Mats Fridlund från Institutionen för filosofi, lingvistik och vetenskapsteori hade tagit initiativet till denna halvdag, med Mats Malm från Institutionen för litteratur, idéhistoria och religion och jag själv från Institutionen för historiska studier som medarrangörer.

Dels höll Guldi en öppen föreläsning, samordnad med en doktorandkurs vid FLOV, om ”Digital Methods and the Long Land War”, och efter en kort paus ett forskarseminarium med rubriken ”Mapping Time, Mapping Space”. Sammantaget utgjorde det en slags introduktion till, argumentation för och översikt över några olika metoder och verktyg inom digital historia. Ett av dessa verktyg var Paper Machines – en mjukvara för att identifiera mönster och relationer i stora mängder textbaserade data – som Guldi själv varit med och utvecklat.

Jo Guldi i Göteborg

Jo Guldi i Göteborg den 4 december. Hennes bok Roads to Power publicerades 2011.

Mitt och andras twitterflöde från evenemanget har jag samlat ihop på Storify, vilket ger en idé om vad som sades. En poäng Guldi återkom till flera gånger var å ena sidan det stora potentiella värdet av digitala metoder och å andra sidan vikten av att inte glömma de historiska frågorna. Tillfrågad om de digitala verktygen kan leda till helt ny typ av kunskap var hon ganska försiktig och betonade att exempelvis Google Ngrams, om inte annat, kan användas för att generera frågor inom forskning och provocera till diskussion i undervisningssammanhang. I rätt händer och utnyttjad på rätt sätt kan den typen av metoder också leda fram till ny kunskap som vi inte hade kunnat få på andra sätt, särskilt när vi kopplar ihop den digitala vågen med den rumsliga vändning (the spatial turn) som vi också sett inom forskningen på senare år.

Det jag tog med mig från denna eftermiddag med Guldi och som jag tyckte var så intressant, var just den nyanserade optimism hon förespråkade och som jag redan antytt ovan. Hon anser helt uppenbart att vi som historiker måste utnyttja de många nya möjligheter som digitala metoder ger oss, men är också noggrann med att betona att vi är historiker och inte dataspecialister – och det ska vi inte heller bli. Istället bör vi mycket mer än idag utveckla samarbeten med de som kan teknik, media och design; de har enligt Guldi verktygen men är ofta svältfödda på data, medan vi har mängder av data men saknar verktygen för att bearbeta dem.