Text mining och topic modeling – något för historiker?

Häromdagen deltog jag i ett seminarium vid Göteborgs universitet om de möjligheter som nya digitala material och metoder kan öppna för humanistisk forskning. Framför allt handlade det om digitaliserade korpusar (textsamlingar), särskilt sådana med skönlitteratur, och de olika analyser man kan göra av sådana i form av ”text mining”, kulturomik och ”topic modeling”. Det är inte helt enkelt att förklara dessa begrepp, särskilt som jag själv inte är insatt i de tekniska detaljerna, men i grund och botten rör det sig om olika sätt att söka efter mönster, relationer och samband i stora mängder text. En (på vissa sätt!) relativt enkel variant är Google NGrams, där man kan studera hur förekomsten av ord och uttryck förändrats över tid (en slags frekvensmätning); en annan är att analysera personrelationer eller sociala nätverk i romaner; och en tredje är topic models, där man med hjälp av algoritmer försöker identifiera ”topics”, ämnen eller teman, i texter och hur olika ord knyts till dem.

Jag är lite bekant med dessa metoder sedan tidigare, bland annat genom arbetet med ”Historia i en digital värld”, men här diskuterades och demonstrerades de mer handfast utifrån en rad projekt och resurser hemmahörande vid GU: Språkbanken, Svensk Nationell Datatjänst, Litteraturbanken, Svensk prosafiktion 1800–1900, kulturomikprojektet med flera. Som redan namnen antyder är flertalet av dessa satsningar förankrade i litteraturvetenskapliga eller språkvetenskapliga ansatser, och det finns i varierande grad kopplingar till den starka traditionen av datalingvistik vid GU. Vid seminariet deltog också forskare från bland annat historia, ekonomisk historia, vetenskapsteori och idéhistoria, och den mångfalden av perspektiv bidrog till att det blev en lärorik dag med intressanta diskussioner. Det gav upphov till många funderingar om hur vi kan gå vidare med denna typ av arbetssätt, och det följande är ett försök att summera de tankarna utifrån en historikers perspektiv.

För det första är det uppenbart att tekniken på detta område liksom andra öppnar nya, stora möjligheter men att vi fortfarande är rätt osäkra på vilka dessa möjligheter är eller hur vi kommer att utnyttja dem framöver. Mycket av det som demonstrerades vid seminariet var intressant, men ur min synvinkel kanske främst som redskap för att få uppslag, orientera sig i material och hitta fruktbara ingångar snarare än som egentliga metoder för att empiriskt besvara forskningsfrågor i sig. Jag tror att man här också, trots den upplösning av disciplingränser som nu pågår, bör påpeka den skillnad i fokus som ofta finns mellan historiskt inriktade forskare å ena sidan och litteratur- respektive språkvetare å den andra. I någon mening (och givetvis förenklat) är texter mer av objekt i sig för de senares intresse, medan de förra i högre grad använder dem som spår, avspeglingar eller belägg för de processer eller företeelser de egentligen är ute efter att förstå.

Det gör att tekniska möjligheter som för språk- och litteraturvetare ses som direkt kopplade till deras centrala frågeställningar (topics, relationer mellan romanfigurer, narrativa strukturer eller vad det nu kan vara) visserligen kan vara av intresse för historiker men i de flesta fall bara är ett första steg. Och hur viktigt det steget är i relation till forskningsprocessen som helhet beror i mycket hög grad på hur representativt materialet är för samhället i stort, eller den del(mängd) av samhället undersökningen gäller, eftersom det är det som för historiker avgör forskningens vidare relevans. Denna skillnad mellan disciplinerna tror jag är en viktig anledning till många av de synpunkter som kom från de mer historiskt inriktade forskarna vid seminariet, och som kanske kunde uppfattas som kritiska till digitala metoder mer generellt (vilket jag inte tror att de var).

För det andra, och delvis som en direkt följd av det nyss sagda, tror jag att det vi som historiker främst behöver för att dessa metoder ska bli mer allmänt användbara är mer digitalt material. Åtminstone på svensk botten är det som digitaliserats hittills ganska begränsat och därtill med rätt fläckvis spridning, en följd av att mer eller mindre lokala initiativ och diverse slumpmässiga faktorer varit styrande. Just eftersom det för historiker är så viktigt att alltid kunna visa vad det vi påstår är representativt för eller inte, är denna ojämna täckning ett svårt hinder för att använda digitala textkorpusar som huvudsakligt källmaterial med de metoder som diskuterades vid seminariet. Vissa mycket specifika frågor kan givetvis undersökas, till exempel de som nämndes om hur borgerlig livsstil och konsumtion ”skapades” av borgerliga hem i 1800- och 1900-talens litteratur, men för att få mer allmän bäring för historisk forskning behövs helt enkelt mer material. Ju mer desto bättre, och hellre mindre utsnitt med bättre/tydligare täckning än stora svep med några få nedslag.

Ur det perspektivet är de väl avvägda och regelbundna nedslag som t.ex. Svensk prosafiktion 1800–1900 bygger på en bra kompromiss, och ett första steg skulle kunna vara att den databasen förtätas genom att fler utsnitt läggs till. En möjlighet vore att lägga till ett eller två år före/efter de nuvarande nedslagen (1800, 1820, 1840, 1860, 1880, 1900), en annan att minska intervallet mellan dem från tjugo till tio år. Personligen skulle jag gärna se att man dessutom lade till fler källkategorier, i första hand reseskildringar, biografier och memoarer. Just de materialtyperna skulle förmodligen vara av intresse för historiker mer generellt, samtidigt som de ju har stor relevans även för litteratur- och språkvetare. För samtliga källtyper vore det också värdefullt om de kunde kompletteras bakåt i tiden, till åtminstone 1750 eller 1700, men det är kanske ett mer långsiktigt mål.

För det tredje bygger mycket av dessa tankar på den rätt ytliga förståelse jag fortfarande har av dessa metoders tillämpning. Det känns fortfarande som att jag, trots stort intresse för frågorna under flera år, egentligen aldrig sett konkreta exempel på omfattande användning av denna typ av tekniker i reguljärt, vardagligt vetenskapligt arbete. För min del skulle det därför, på en mer handfast och kortsiktig nivå, vara mycket intressant om vi framöver kunde ordna seminarier där humanistiska forskare – med historisk, litteratur- eller språkvetenskaplig inriktning – berättar om hur de använt dessa metoder i sin forskning och vilka för- och nackdelar de ser med dem.

Å andra sidan skulle jag gärna delta i workshops med mer utpräglat teknisk inriktning där vi gick igenom hur topic models och liknande konstrueras, alltså vilka val som måste göras och hur de påverkar utfallet när man ”trycker på knappen”. Som påpekades vid seminariet finns det många underliggande sådana parametrar vilkas effekt på resultatet vi som forskare inte riktigt förstår, och det tror jag vi behöver göra om vi ska kunna använda denna typ av metoder på ett effektivt sätt.

Sammanfattningsvis tror jag alltså att vi måste förstå de digitala metodernas användning i forskning både från forsknings- och teknikhållet för att kunna utnyttja dem fullt ut. Men framför allt behöver vi mycket mer material, och därför måste vi också diskutera vad vi kan göra för att få till stånd en snabbare takt i digitaliseringen av svenskt källmaterial av alla typer.