Text mining och topic modeling – något för historiker?

Häromdagen deltog jag i ett seminarium vid Göteborgs universitet om de möjligheter som nya digitala material och metoder kan öppna för humanistisk forskning. Framför allt handlade det om digitaliserade korpusar (textsamlingar), särskilt sådana med skönlitteratur, och de olika analyser man kan göra av sådana i form av ”text mining”, kulturomik och ”topic modeling”. Det är inte helt enkelt att förklara dessa begrepp, särskilt som jag själv inte är insatt i de tekniska detaljerna, men i grund och botten rör det sig om olika sätt att söka efter mönster, relationer och samband i stora mängder text. En (på vissa sätt!) relativt enkel variant är Google NGrams, där man kan studera hur förekomsten av ord och uttryck förändrats över tid (en slags frekvensmätning); en annan är att analysera personrelationer eller sociala nätverk i romaner; och en tredje är topic models, där man med hjälp av algoritmer försöker identifiera ”topics”, ämnen eller teman, i texter och hur olika ord knyts till dem.

Jag är lite bekant med dessa metoder sedan tidigare, bland annat genom arbetet med ”Historia i en digital värld”, men här diskuterades och demonstrerades de mer handfast utifrån en rad projekt och resurser hemmahörande vid GU: Språkbanken, Svensk Nationell Datatjänst, Litteraturbanken, Svensk prosafiktion 1800–1900, kulturomikprojektet med flera. Som redan namnen antyder är flertalet av dessa satsningar förankrade i litteraturvetenskapliga eller språkvetenskapliga ansatser, och det finns i varierande grad kopplingar till den starka traditionen av datalingvistik vid GU. Vid seminariet deltog också forskare från bland annat historia, ekonomisk historia, vetenskapsteori och idéhistoria, och den mångfalden av perspektiv bidrog till att det blev en lärorik dag med intressanta diskussioner. Det gav upphov till många funderingar om hur vi kan gå vidare med denna typ av arbetssätt, och det följande är ett försök att summera de tankarna utifrån en historikers perspektiv.

För det första är det uppenbart att tekniken på detta område liksom andra öppnar nya, stora möjligheter men att vi fortfarande är rätt osäkra på vilka dessa möjligheter är eller hur vi kommer att utnyttja dem framöver. Mycket av det som demonstrerades vid seminariet var intressant, men ur min synvinkel kanske främst som redskap för att få uppslag, orientera sig i material och hitta fruktbara ingångar snarare än som egentliga metoder för att empiriskt besvara forskningsfrågor i sig. Jag tror att man här också, trots den upplösning av disciplingränser som nu pågår, bör påpeka den skillnad i fokus som ofta finns mellan historiskt inriktade forskare å ena sidan och litteratur- respektive språkvetare å den andra. I någon mening (och givetvis förenklat) är texter mer av objekt i sig för de senares intresse, medan de förra i högre grad använder dem som spår, avspeglingar eller belägg för de processer eller företeelser de egentligen är ute efter att förstå.

Det gör att tekniska möjligheter som för språk- och litteraturvetare ses som direkt kopplade till deras centrala frågeställningar (topics, relationer mellan romanfigurer, narrativa strukturer eller vad det nu kan vara) visserligen kan vara av intresse för historiker men i de flesta fall bara är ett första steg. Och hur viktigt det steget är i relation till forskningsprocessen som helhet beror i mycket hög grad på hur representativt materialet är för samhället i stort, eller den del(mängd) av samhället undersökningen gäller, eftersom det är det som för historiker avgör forskningens vidare relevans. Denna skillnad mellan disciplinerna tror jag är en viktig anledning till många av de synpunkter som kom från de mer historiskt inriktade forskarna vid seminariet, och som kanske kunde uppfattas som kritiska till digitala metoder mer generellt (vilket jag inte tror att de var).

För det andra, och delvis som en direkt följd av det nyss sagda, tror jag att det vi som historiker främst behöver för att dessa metoder ska bli mer allmänt användbara är mer digitalt material. Åtminstone på svensk botten är det som digitaliserats hittills ganska begränsat och därtill med rätt fläckvis spridning, en följd av att mer eller mindre lokala initiativ och diverse slumpmässiga faktorer varit styrande. Just eftersom det för historiker är så viktigt att alltid kunna visa vad det vi påstår är representativt för eller inte, är denna ojämna täckning ett svårt hinder för att använda digitala textkorpusar som huvudsakligt källmaterial med de metoder som diskuterades vid seminariet. Vissa mycket specifika frågor kan givetvis undersökas, till exempel de som nämndes om hur borgerlig livsstil och konsumtion “skapades” av borgerliga hem i 1800- och 1900-talens litteratur, men för att få mer allmän bäring för historisk forskning behövs helt enkelt mer material. Ju mer desto bättre, och hellre mindre utsnitt med bättre/tydligare täckning än stora svep med några få nedslag.

Ur det perspektivet är de väl avvägda och regelbundna nedslag som t.ex. Svensk prosafiktion 1800–1900 bygger på en bra kompromiss, och ett första steg skulle kunna vara att den databasen förtätas genom att fler utsnitt läggs till. En möjlighet vore att lägga till ett eller två år före/efter de nuvarande nedslagen (1800, 1820, 1840, 1860, 1880, 1900), en annan att minska intervallet mellan dem från tjugo till tio år. Personligen skulle jag gärna se att man dessutom lade till fler källkategorier, i första hand reseskildringar, biografier och memoarer. Just de materialtyperna skulle förmodligen vara av intresse för historiker mer generellt, samtidigt som de ju har stor relevans även för litteratur- och språkvetare. För samtliga källtyper vore det också värdefullt om de kunde kompletteras bakåt i tiden, till åtminstone 1750 eller 1700, men det är kanske ett mer långsiktigt mål.

För det tredje bygger mycket av dessa tankar på den rätt ytliga förståelse jag fortfarande har av dessa metoders tillämpning. Det känns fortfarande som att jag, trots stort intresse för frågorna under flera år, egentligen aldrig sett konkreta exempel på omfattande användning av denna typ av tekniker i reguljärt, vardagligt vetenskapligt arbete. För min del skulle det därför, på en mer handfast och kortsiktig nivå, vara mycket intressant om vi framöver kunde ordna seminarier där humanistiska forskare – med historisk, litteratur- eller språkvetenskaplig inriktning – berättar om hur de använt dessa metoder i sin forskning och vilka för- och nackdelar de ser med dem.

Å andra sidan skulle jag gärna delta i workshops med mer utpräglat teknisk inriktning där vi gick igenom hur topic models och liknande konstrueras, alltså vilka val som måste göras och hur de påverkar utfallet när man “trycker på knappen”. Som påpekades vid seminariet finns det många underliggande sådana parametrar vilkas effekt på resultatet vi som forskare inte riktigt förstår, och det tror jag vi behöver göra om vi ska kunna använda denna typ av metoder på ett effektivt sätt.

Sammanfattningsvis tror jag alltså att vi måste förstå de digitala metodernas användning i forskning både från forsknings- och teknikhållet för att kunna utnyttja dem fullt ut. Men framför allt behöver vi mycket mer material, och därför måste vi också diskutera vad vi kan göra för att få till stånd en snabbare takt i digitaliseringen av svenskt källmaterial av alla typer.

Guldmuseet i Bogota

Museo del Oro, Guldmuseet, i Bogota är ett av Latinamerikas främsta museer för fornamerikansk (förkolumbisk) kultur. Där bevaras och visas tusentals guldföremål, och några få av annat material, skapade av de många folk som levde i dagens Colombia och omnejd före den europeiska erövringen. Man kan fundera över om “gjort av guld” är en meningsfull urvalsprincip att bygga ett museum på, men det är onekligen ett bra sätt att locka nyfikna besökare. Om jag förstått det rätt utgörs dessutom mycket av samlingarna av en viss typ av artefakter, nämligen saker som människor burit vid olika ceremonier eller offrat i så kallade offerbrunnar, och då var det ofta  guld och ädelstenar som användes. Den typen av material har också i högre grad överlevt genom århundradena än andra, mer förgängliga som trä och textilier.

Hur som helst är Museo del Oro en stilla lördagsmorgon, innan de stora skarorna besökare ännu anlänt, en smått hisnande upplevelse. Under mitt besök i Bogota nyligen fick jag möjlighet att tillbringa några timmar i museet och här är några av de bilder jag tog. Tyvärr fanns det ofta inte någon närmare beskrivning av föremålen och deras historia så det blir ganska lösryckt ur sitt sammanhang, men de är ändå i högsta grad sevärda. I mitt tidigare inlägg om resan till Bogota finns också ett par bilder från Guldmuseet, och det har en mycket aktiv Flickr-sida med många, många fler.

Text: You and I, we and they

Over the weekend I attended a conference in Lund called “Encountering the ‘Other’ – Understanding Oneself: Colonialism, Ethnic Diversity and Everyday Life in Early Modern Sweden and New Sweden”. It opened in the afternoon of 8 November, when an accompanying exhibition was also inaugurated at the Lund University Library, and continued for the next two days.

The conference and exhibition were organized on the occasion of the 375th anniversary of the shortlived Swedish colony of New Sweden in present-day New Jersey, Delaware and Pennsylvania, with the aim to situate this enterprise in a global context of cultural encounters, colonialism and everyday material practices. The two days of individual sessions, some of them co-organized with a parallel conference at the University of Delaware, covered a very broad and diverse range of aspects related to these general themes. It was an intense schedule, full of interesting presentations and discussions, and when we finally reached the end of the event (and of the weekend) I think many were in the state one should be in after a good conference: exhausted but reinvigorated with new ideas and questions.

I had the privilege of delivering the opening address for the conference and exhibition. What follows after the link below is the full text of the keynote, which is also available here as a PDF (11 pp./96 Kb).

Fortsätt läsa →

Att se människan, då och nu

I Lund pågår just nu konferensen “Encountering the ‘Other’ – Understanding Oneself: Colonialism, Ethnic Diversity and Everyday Life in Early Modern Sweden and New Sweden”. Den inleddes i fredags, då en utställning på samma tema också öppnade på Lunds universitetsbibliotek, och jag hade förmånen att få inleda evenemanget med ett anförande som går att läsa här (PDF, 11 s./96 Kb)

Encountering the "Other" – Understanding OneselfKonferensen och utställningen hålls med anledning av 375-årsjubileet av grundandet av Nya Sverige, den kortlivade svenska kolonin i ett område som idag ligger i de amerikanska delstaterna New Jersey, Delaware och Pennsylvania. Syftet är att ventilera ny forskning som sätter in kolonin i ett mer globalt och kritiskt sammanhang än vad de flesta svenskar kanske är vana vid. Med det som utgångspunkt diskuteras också mer allmänna frågor om kulturmöten och identitet i både “gamla” och “nya” Sverige under tidigmodern tid. Det är många och vitt skilda aspekter av dessa teman som behandlas, men just därför har det hittills varit mycket intressanta presentationer och diskussioner.

Utan tvivel kommer det att fortsätta så idag, då konferensen avslutas, även om mina egna tankar tyvärr också befinner sig på helt annat håll på grund av den förödande naturkatastrof som inträffat i centrala Filippinerna. Det är ett land som ligger mig varmt om hjärtat, bland annat för att jag har många släktingar och vänner där, och det var hårt prövat av bland annat jordbävningar redan innan orkanen Haiyan (på Filippinerna kallad Yolanda) – kanske den starkaste som någonsin uppmätts över land – slog till häromdagen.

Allt tyder på att många tusen människor har omkommit och att miljoner har drabbats på annat sätt, och hjälpbehoven är följaktligen enorma. Men för den som vill går det, i dagens sammankopplade värld, faktiskt att bidra på ett sätt som gör skillnad. En möjlighet – det finns många andra – är att skänka en slant till Röda Korsets insamling för Filippinerna. Gör gärna det.

Orkanen Haiyan (Yolanda) över Filippinerna

Orkanen Haiyan (Yolanda) över centrala Filippinerna den 8 november kl. 05.10 UTC. (Bildkälla: NASA Goddard MODIS Rapid Response Team)

Andinsk arkivjakt

De senaste två veckorna har jag varit i Bogota, Colombia, för att träffa nya och gamla forskarkolleger och göra arkivbesök för mitt projekt om Linnélärjungen Pehr Löfling. Det är min första resa till Sydamerika och en av punkterna på programmet var att (också för första gången) hålla en föreläsning på spanska för historiestudenter vid Pontificia Universidad Javeriana. Ett par dagar senare var jag inbjuden att prata på engelska om liknande frågor för en liten grupp forskare och doktorander vid Universidad de los Andes, där det bedrivs högt kvalificerad vetenskapshistorisk forskning.

Arkivarbetet har gått ungefär som jag förväntat mig, vilket både är bra och dåligt. Å ena sidan var byråkratin för att få forskartillstånd inte alls så besvärlig som jag hade befarat, och jag har genomgående fått ett både vänligt och professionellt bemötande trots min riktigt usla spanska (egentligen närmast ett slags pidgin med inkastade ord på engelska). Jag har också hittat ett antal intressanta dokument av den typ jag förväntat mig och kunnat göra kopior av dem jag inte hann läsa på plats. Å andra sidan hade jag förmodligen, någonstans, hoppats på att det skulle dyka upp oväntade och ännu mer värdefulla handlingar om jag bara sökte tillräckligt grundligt – men så blev det inte.

Från vänster till höger (klicka på bilderna för större versioner): 1. Colombias nationalbibliotek. 2. Ett exemplar av Pehr Löflings postumt utgivna bok Iter Hispanicum som tillhört den spansk-colombianske naturforskaren José Celestinos Mutis (1732–1808). Källa: Biblioteca Nacional de Colombia (Bogota), Fondos especiales, Fondo Mutis 2996. 3. Colombias riksarkiv, Archivo General de la Nación. 4. Ett dokument ur AGN:s samlingar, en skrivelse från regeringen i Madrid den 23 juli 1755 till vicekungen i Nya Granada. Källa: Archivo General de la Nación (Bogota), Sección Colonia, Fondo Virreyes, Correspondencia: Comunicaciones 1753–1757, 3,1.

Skälet till det är egentligen enkelt: i Bogota finns en del av de koloniala arkiv som är av intresse för mig men de allra viktigaste finns i Caracas, Venezuela, och dit är det just nu för farligt att åka. Även Bogota är inte helt okomplicerat att ta sig runt i på ett säkert sätt, särskilt för en europeisk besökare, men om man bara tänker sig för och planerar sina förflyttningar ordentligt så är riskerna inte mycket större där (här) än i många andra storstäder. Det tar mycket energi att ständigt behöva tänka sig för på det sättet, men om man som jag bara är på besök ett par veckor är det hanterbart.

Även om föreläsningarna kan man väl säga att utfallet blev ”blandat”. Trots veckor av förberedelser inför det spanska föredraget gick det ungefär så stolpigt och stelt som man kan förvänta sig när man inte kan språket tillräckligt bra för att tala mer fritt (jag hade förberett ett manus som jag läste upp, annars hade det aldrig gått). Studenterna tyckte nog det var en ganska underlig föreställning, men de återhämtade sig snabbt och senare blev det en bra diskussion på blandad spanska och engelska. När vi väl tvingades runda av var stämningen riktigt hög i klassrummet, men faktum kvarstår att detta inte var en av mina mer lysande pedagogiska insatser. Fast lärorikt var det!

Föreläsningen för den mer krävande publiken på Universidad de los Andes hann jag inte förbereda alls lika noggrant, och jag arbetade med den till nästan bokstavligen sista minuten. Om det funnits någon rättvisa i världen borde den ha havererat fullständigt, men istället utvecklades den till en av de bästa diskussioner jag haft om min forskning, och de stora frågor den knyter an till, på flera år. Det fanns ett antal personer i salen som arbetat eller arbetar med liknande frågor och vi hade mycket att tala om; förhoppningsvis kan jag återkomma här så småningom med en redovisning på engelska av några av de punkter vi tog upp. Det var oerhört skönt att få avsluta arbetet i Bogota på detta vis, eftersom det varit väldigt långa och bitvis ganska tunga dagar här, både på grund av all logistik kring arkivbesöken och förberedelser kopplade till föreläsningar och andra aktiviteter.

Sammantaget har det varit ett par omtumlande veckor med många intryck att smälta, och det finns mycket mer jag skulle vilja skriva om erfarenheterna av staden Bogota som sådan. Den liknar inte riktigt någon annan plats jag besökt tidigare, och det är påfallande när man rör sig även i dess centrala delar att antalet utländska turister är mycket, mycket litet. Det är för övrigt något som bidrar till att jag under hela min tid här känt mig som något av en vandrande sevärdhet varthän jag rört mig, ständigt observerad och påpassad på ett sätt som inte alltid är helt behagligt. Men sådana mer personliga upplevelser får vänta till en annan gång, eftersom det snart är dags för hemfärd och det givetvis finns nya utmaningar runt hörnet som kräver förberedelser…

Några bilder har jag dock hunnit ta i centrala Bogota mellan varven och ett litet urval återfinns i detta inlägg. Tyvärr är det inte särskilt originella motiv utan mest rena turistbilder, för i de kvarter där man kanske skulle fått de mest intressanta (och kanske mer representativa) bilderna måste man också vara som försiktigast med att vifta med dyra kameror, telefoner eller andra värdeföremål. Inte desto mindre kanske det kan ha sitt intresse att se några glimtar från en stad som få besöker trots att den sannerligen inte saknar sevärdheter. Till de mest spektakulära sådana hör det storslagna Museo del Oro, som jag kommer publicera lite fler bilder från i ett separat inlägg så snart jag hinner.