Arkiven, kulturarvet och digitaliseringen

Det var ett tag sedan jag skrev om digital humaniora här, men det beror inte på att det inte finns saker att tala om. Särskilt roligt är det att se att det börjar röra på sig vid Humanistiska fakulteten i Göteborg, som den 25 september beslöt inrätta ett Centrum för digital humaniora med start den 1 januari 2015. Tidigare i år blev jag ledamot av fakultetsstyrelsen för läsåret 2014/15 genom ett fyllnadsval, och av en ren tillfällighet fick jag därför vara med om att fatta detta beslut vid mitt första ordinarie styrelsemöte – det kändes bra!

En drivande kraft i processen att bygga upp ett DH-centrum är Mats Malm, som också kommer att bli dess första föreståndare. Han har de senaste åren, tillsammans med Jenny Bergenmar och andra, hållit i ett antal fakultetsevenemang på DH-tema (två av dem har jag skrivit om här och här). Det senaste gick av stapeln den 11 november och var ett halvdagsseminarium med rubriken ”Arkiven i det digitala – det digitala i arkiven”, vilket formellt arrangerades av GU:s så kallade styrkeområde Critical Heritage Studies. Programmet täckte ett ganska brett spektrum av frågor om bevarande och tillgängliggörande av arkivmaterial vid olika kulturarvsinstitutioner i en tid av digitalisering.

Mats Malm inledde med att presentera Critical Heritage Studies och seminarieserien evenemanget ingick i. Han lyfte därefter fram de nya möjligheter och perspektiv digitaliseringen för med sig, exempelvis genom förskjutningen från närläsning till det Franco Moretti kallat ”fjärrläsning”, men påpekade också att det är förenat med vissa risker som inte ska underskattas. Malm knöt avslutningsvis an till ett tema som återkom flera gånger under dagen, nämligen att tillvaratagandet av de digitala möjligheterna inte främst är en teknisk utmaning utan social och etisk.

Johanna Berg från Riksarkivets samordningssekretariat Digisam var först ut av de inbjudna talarna. Hon började med att betona att de frågor svenska arkiv ställs inför i samband med digitaliseringen är i princip desamma runtom i världen, även om förutsättningar och omständigheter kan variera mellan olika länder. I grunden handlar det om ett antal spänningar eller målkonflikter mellan att skydda/bevara material och att exponera/använda det; mellan kulturskapare och användare (upphovsrättsfrågor); mellan centrum och periferi; och mellan olika nivåer inom arkiv, bibliotek och museer. Berg beskrev också Digisams uppdrag att dra ihop och samordna ett antal olika aktörer på området och de olika utmaningar det medför: ekonomiska, juridiska, tekniska, språkliga (olika begreppsapparater) och kompetensmässiga. Även hon menade att tekniken ofta inte är det svåraste, och hon avslutade med att uttrycka tillförsikt inför framtida möjligheter – ”det blir bra när vi kommer dit”!

Pelle Snickars från HUMlab vid Umeå universitet tog avstamp i en diskussion om likheter och skillnader mellan traditionella och digitala arkivmaterial och vilka konsekvenser dessa får. En av hans huvudpoänger var att kulturarvsinstitutionerna behöver fundera mer på hur man kan använda deras material, alltså hur det kan bearbetas av användarna, och inte bara ge tillgång till det. Han menade att vi går ”från kulturarvsdokument […] till flöden av data”, till filer som bär på ”inherent information” som kan utnyttjas på olika sätt. En intressant del av Snickars presentation var att han gav en definition av digital humaniora som ”att använda och bejaka digital teknologi”, inte att utgå från någon viss teori. Han betonade också vikten av att med bevarat kritiskt perspektiv kombinera kvalitativa och kvantitativa undersökningar. (DH är med andra ord inte bara en fråga om ”big data”, som man ibland kanske kan tro.)

Arkiven i det digitala, 11 november 2014

Hans Jørgen Marker, Kristoffer Arvidsson, Jonathan Westin, Pelle Snickars, Johanna Berg, Maria Ljungkvist och Mats Malm.

Nästa talare, Maria Ljungkvist från Nationalmuseum, berättade om ”den digitala teknikens roll i utformningen av nya Nationalmuseum”. Det blev en intressant belysning av de spänningar som kan uppstå mellan olika mål och ambitioner vid traditionsrika kulturarvsinstitutioner i den digitala världen. Ljungkvist menade att det finns en tendens till konkurrens om medel mellan fysiska och digitala satsningar eftersom det ofta är utställningar av fysiska objekt som står för mycket av intäkterna. Hon pekade också på att tillgängliggörande, upphovsrättsfrågor, digitaliseringens hantverk, metadata med mera bara är några exempel på de många olika typer av kompetenser som krävs idag. Hon underströk samtidigt, återigen, att tekniken oftast inte är problemet, och även om hon ville lyfta fram värdet av den digitala dimensionen varnade hon för risken att vi glömmer bort de objekt som inte digitaliseras.

De två följande presentationerna handlade på olika sätt om hur ett enskilt konstnärskap – Ivar Arosenius – frammanas ur arkiven med hjälp av olika digitala resurser. Jonathan Westin, GU, har följt arbetet med att digitalisera material knutet till Arosenius och då konfronterats med de frågor detta aktualiserar: om den digitala kopians relation till originalet; att den bara fångar synlig information men inte ”vattenmärken, textur, lukt, djup”; att digitaliseringen inte kräver att man är på plats men gör att man kan förlora perspektiv och sammanhang – samtidigt som den faktiskt ger möjlighet att återskapa historiska rum, hur dokument har färdats genom historien och hamnat där de är idag. Kristoffer Arvidsson från Göteborgs konstmuseum berättade därefter ur sitt perspektiv om museets arbete med att föra samman material av och om Arosenius från olika håll på webben, att göra verk ur samlingarna sökbara på sin webbplats och så vidare. Det gav upphov till en utförlig diskussion med några av åhörarna om vad man vinner och förlorar på digitala kopior kontra fysiska original, där det fanns ganska skilda uppfattningar.

Den siste talaren var Hans Jørgen Marker vid Svensk Nationell Datatjänst, som redogjorde för SND:s arbete med att bevara och tillgängliggöra digitalt forskningsmaterial från humaniora, medicin och samhällsvetenskap. Hans presentation gav nyttiga inblickar i vad som krävs för långtidsbevaring av forskningsdata, något de flesta humanister (och andra forskare?) troligen inte tänker så mycket på. Marker påpekade att den stora kostnaden inte är själva bevarandet av forskningsdata i sig, utan att dokumentera den, förse den med metadata och så vidare. Även här blev det en intressant diskussion efteråt, som delvis handlade om varför humanistiska forskare bör eller ska bevara sina forskningsdata på dessa sätt, och delvis om vilken syn på vad vetenskap och forskning är som denna typ av bevarande bygger på.

Det avslutande panelsamtalet återvände till flera av de frågor som kommit upp under eftermiddagens lopp, framför allt diskussionen om likheter och skillnader mellan fysiska och digitala arkiv men också de svåra prioriteringar institutioner ställs inför med de krav som digitaliseringen medför utan att nya resurser tillförs. Som Snickars påpekade vet vi inte hur framtiden ser ut, men den lär inte bli mindre digital och därför finns ett jättelikt finansieringsbehov. En tänkvärd poäng som Westin lyfte fram är att det är viktigt att man i den digitala världen inte försöker efterlikna de fysiska arkiven för mycket, eftersom det finns vissa aspekter man aldrig kan få med. Arvidsson betonade för sin del de möjligheter den digitala tekniken ger att berätta olika, alternativa berättelser istället för bara en enda.

Sammantaget blev det en oerhört intressant och perspektivrik halvdag som gav en god bild, inbillar jag mig, av de möjligheter och utmaningar digitaliseringsprocesser vid arkiv och andra kulturarvsinstitutioner för med sig. Vad jag särskilt uppskattade var just detta att det inte bara handlade om den stora potentialen eller om de många problemen med digitaliseringen, utan att det fanns utrymme för båda dessa sidor av utvecklingen att synliggöras på ett nyanserat och balanserat sätt. För visst måste vi ta tillvara de möjligheter som den digitala tekniken erbjuder, men samtidigt ska vi inte blunda för de hinder och risker som finns på vägen mot framtidens arkiv.

Uppdatering 141219: Seminariet filmades och de inspelade presentationerna är nu tillgängliga på denna sida.

Anm: I den webbaserade boken Historia i en digital värld finns det flera avsnitt som behandlar frågor om digitalisering av arkivmaterial, tillgängliggörande och (långtids)bevarande m.m. – se särskilt kapitel 4 och kapitel 6. Boken går också att ladda ner som PDF (direktlänk, ca 5 Mb).

Text mining och topic modeling – något för historiker?

Häromdagen deltog jag i ett seminarium vid Göteborgs universitet om de möjligheter som nya digitala material och metoder kan öppna för humanistisk forskning. Framför allt handlade det om digitaliserade korpusar (textsamlingar), särskilt sådana med skönlitteratur, och de olika analyser man kan göra av sådana i form av ”text mining”, kulturomik och ”topic modeling”. Det är inte helt enkelt att förklara dessa begrepp, särskilt som jag själv inte är insatt i de tekniska detaljerna, men i grund och botten rör det sig om olika sätt att söka efter mönster, relationer och samband i stora mängder text. En (på vissa sätt!) relativt enkel variant är Google NGrams, där man kan studera hur förekomsten av ord och uttryck förändrats över tid (en slags frekvensmätning); en annan är att analysera personrelationer eller sociala nätverk i romaner; och en tredje är topic models, där man med hjälp av algoritmer försöker identifiera ”topics”, ämnen eller teman, i texter och hur olika ord knyts till dem.

Jag är lite bekant med dessa metoder sedan tidigare, bland annat genom arbetet med ”Historia i en digital värld”, men här diskuterades och demonstrerades de mer handfast utifrån en rad projekt och resurser hemmahörande vid GU: Språkbanken, Svensk Nationell Datatjänst, Litteraturbanken, Svensk prosafiktion 1800–1900, kulturomikprojektet med flera. Som redan namnen antyder är flertalet av dessa satsningar förankrade i litteraturvetenskapliga eller språkvetenskapliga ansatser, och det finns i varierande grad kopplingar till den starka traditionen av datalingvistik vid GU. Vid seminariet deltog också forskare från bland annat historia, ekonomisk historia, vetenskapsteori och idéhistoria, och den mångfalden av perspektiv bidrog till att det blev en lärorik dag med intressanta diskussioner. Det gav upphov till många funderingar om hur vi kan gå vidare med denna typ av arbetssätt, och det följande är ett försök att summera de tankarna utifrån en historikers perspektiv.

För det första är det uppenbart att tekniken på detta område liksom andra öppnar nya, stora möjligheter men att vi fortfarande är rätt osäkra på vilka dessa möjligheter är eller hur vi kommer att utnyttja dem framöver. Mycket av det som demonstrerades vid seminariet var intressant, men ur min synvinkel kanske främst som redskap för att få uppslag, orientera sig i material och hitta fruktbara ingångar snarare än som egentliga metoder för att empiriskt besvara forskningsfrågor i sig. Jag tror att man här också, trots den upplösning av disciplingränser som nu pågår, bör påpeka den skillnad i fokus som ofta finns mellan historiskt inriktade forskare å ena sidan och litteratur- respektive språkvetare å den andra. I någon mening (och givetvis förenklat) är texter mer av objekt i sig för de senares intresse, medan de förra i högre grad använder dem som spår, avspeglingar eller belägg för de processer eller företeelser de egentligen är ute efter att förstå.

Det gör att tekniska möjligheter som för språk- och litteraturvetare ses som direkt kopplade till deras centrala frågeställningar (topics, relationer mellan romanfigurer, narrativa strukturer eller vad det nu kan vara) visserligen kan vara av intresse för historiker men i de flesta fall bara är ett första steg. Och hur viktigt det steget är i relation till forskningsprocessen som helhet beror i mycket hög grad på hur representativt materialet är för samhället i stort, eller den del(mängd) av samhället undersökningen gäller, eftersom det är det som för historiker avgör forskningens vidare relevans. Denna skillnad mellan disciplinerna tror jag är en viktig anledning till många av de synpunkter som kom från de mer historiskt inriktade forskarna vid seminariet, och som kanske kunde uppfattas som kritiska till digitala metoder mer generellt (vilket jag inte tror att de var).

För det andra, och delvis som en direkt följd av det nyss sagda, tror jag att det vi som historiker främst behöver för att dessa metoder ska bli mer allmänt användbara är mer digitalt material. Åtminstone på svensk botten är det som digitaliserats hittills ganska begränsat och därtill med rätt fläckvis spridning, en följd av att mer eller mindre lokala initiativ och diverse slumpmässiga faktorer varit styrande. Just eftersom det för historiker är så viktigt att alltid kunna visa vad det vi påstår är representativt för eller inte, är denna ojämna täckning ett svårt hinder för att använda digitala textkorpusar som huvudsakligt källmaterial med de metoder som diskuterades vid seminariet. Vissa mycket specifika frågor kan givetvis undersökas, till exempel de som nämndes om hur borgerlig livsstil och konsumtion ”skapades” av borgerliga hem i 1800- och 1900-talens litteratur, men för att få mer allmän bäring för historisk forskning behövs helt enkelt mer material. Ju mer desto bättre, och hellre mindre utsnitt med bättre/tydligare täckning än stora svep med några få nedslag.

Ur det perspektivet är de väl avvägda och regelbundna nedslag som t.ex. Svensk prosafiktion 1800–1900 bygger på en bra kompromiss, och ett första steg skulle kunna vara att den databasen förtätas genom att fler utsnitt läggs till. En möjlighet vore att lägga till ett eller två år före/efter de nuvarande nedslagen (1800, 1820, 1840, 1860, 1880, 1900), en annan att minska intervallet mellan dem från tjugo till tio år. Personligen skulle jag gärna se att man dessutom lade till fler källkategorier, i första hand reseskildringar, biografier och memoarer. Just de materialtyperna skulle förmodligen vara av intresse för historiker mer generellt, samtidigt som de ju har stor relevans även för litteratur- och språkvetare. För samtliga källtyper vore det också värdefullt om de kunde kompletteras bakåt i tiden, till åtminstone 1750 eller 1700, men det är kanske ett mer långsiktigt mål.

För det tredje bygger mycket av dessa tankar på den rätt ytliga förståelse jag fortfarande har av dessa metoders tillämpning. Det känns fortfarande som att jag, trots stort intresse för frågorna under flera år, egentligen aldrig sett konkreta exempel på omfattande användning av denna typ av tekniker i reguljärt, vardagligt vetenskapligt arbete. För min del skulle det därför, på en mer handfast och kortsiktig nivå, vara mycket intressant om vi framöver kunde ordna seminarier där humanistiska forskare – med historisk, litteratur- eller språkvetenskaplig inriktning – berättar om hur de använt dessa metoder i sin forskning och vilka för- och nackdelar de ser med dem.

Å andra sidan skulle jag gärna delta i workshops med mer utpräglat teknisk inriktning där vi gick igenom hur topic models och liknande konstrueras, alltså vilka val som måste göras och hur de påverkar utfallet när man ”trycker på knappen”. Som påpekades vid seminariet finns det många underliggande sådana parametrar vilkas effekt på resultatet vi som forskare inte riktigt förstår, och det tror jag vi behöver göra om vi ska kunna använda denna typ av metoder på ett effektivt sätt.

Sammanfattningsvis tror jag alltså att vi måste förstå de digitala metodernas användning i forskning både från forsknings- och teknikhållet för att kunna utnyttja dem fullt ut. Men framför allt behöver vi mycket mer material, och därför måste vi också diskutera vad vi kan göra för att få till stånd en snabbare takt i digitaliseringen av svenskt källmaterial av alla typer.

En dag om digital humaniora

Det blev en mycket intressant temadag om digital humaniora vid Humanistiska fakulteten idag, där ett drygt 30-tal personer slöt upp för ett inledande föredrag, halvdussinet kortare presentationer och en avslutande diskussion. Jag ska här försöka summera förhandlingarna och samla ihop länkarna till de webbsidor för projekt och liknande som diskuterades under dagen. I möjligaste mån har jag utgått från min egen rapportering på Twitter, vilket gör att texten kanske inte är helt sammanhängande i alla stycken.

Sedan Mats Malm hade hälsat välkommen hölls ett inledningsanförande av John Nerbonne från European Association of Digital Humanities, vilket hade rubriken ”Digital Humanities and Text Analysis”. Nerbonne underströk bredden och variationsrikedomen i vad digital humaniora är: stilanalyser i litterära verk, Twitter i populärkulturen, parlamentsdebatter, ”culturomics” osv… Han menade att DH är ett snabbt expanderande fält som stora och välkända universitet nu satsar på. Eller som han uttryckte det på en av sina bilder: ”Prediction: DH is here to stay.” Nerbonne betonade också att med de enorma mängder data som nu blir tillgängliga för humanistisk forskning krävs det mer än någonsin humanister som kan ställa intelligenta frågor.

En punkt som Nerbonne återkom till flera gånger var att vi nu måste börja släppa idealet med den ensamme forskaren som sitter på sin kammare; framtidens forskning kräver samarbete i större grupper. Han redogjorde därefter för Morettis välkända arbete med ”distant reading”, där kvantitativa analyser genomförs på stora mängder litteratur. Ett samtida exempel på en liknande typ av studier kan ses på denna webbplats. Han tipsade också om en nederländsk sajt med visualiseringar av geografisk distribution av dialektmönster: http://www.gabmap.nl/.

John Nerbonne uttryckte stor entusiasm inför det som kallas culturomics, ett slags textanalys genomförd på miljoner böcker som Google digitaliserat för att genom frekvensmätningar säga något om kulturella förändringar. Detta har väckt stor uppmärksamhet de senaste två åren, och jag minns mycket tydligt den stora skepsis mot culturomics som fanns när några av frontfigurerna gjorde en presentation vid AHA-kongressen i januari 2012. Nerbonne nämnde också kritiken och debatten kring detta, men trodde att ”this is here to stay”; om inte annat, menade han, kan det fungera som ett bra underlag för diskussionsövningar i undervisningen.

De nästföljande två bidragen var demonstrationer av existerande databaser vid fakulteten med korpusar av text som man kan använda för olika typer av sökningar. Den första var Lars Borin från Språkbanken, som innehåller ca en miljard ord och bygger på ett material som kommer från många olika håll, bland annat ett antal svenska bloggar. Stina Otterberg och Dimitrios Kokkinakis presenterade sedan databasen ”Svensk prosafiktion 1800–1900”, som har en webbplats under utveckling på adressen http://spf1800-1900.se/. Kokkinakis underströk att utöver språkfrågor kan man använda denna typ av databaser till att kartlägga exempelvis sociala nätverk eller andra grupperingar.

Förmiddagens sista inlägg kom från Torbjörn Lager, som talade under rubriken ”Vad är webbvetenskap?” Hans svar på den frågan var att det är en tvärvetenskap med ”webben som teknologisk artefakt och socialt fenomen” som studieobjekt. Mer om webbvetenskap som disciplin går att läsa på http://webscience.org. Lager betonade starkt att webben här är just objekt för forskning, inte i första hand metod eller redskap för den (som är fallet i exempelvis e-vetenskap).

Ett inslag i föredraget som väckte viss uppmärksamhet på Twitter när jag refererade det var Lagers översiktliga historiska indelning av större kommunikationsteknologier i fyra faser: talspråk, skriftspråk, boktryckarkonst, webben. Han påpekade också att den sista av dessa, webben, fortfarande bara är ca 7000 dagar gammal. Twitterreaktionerna bestod i frågor om han glömt viktiga former som teckenspråk eller film, men jag tror att även om det var en relevant synpunkt är Lagers indelning rimlig om man tänker det sig som faser i just en informationshistoria (den är knappast unik utan varianter av den förekommer ofta i sådana här sammanhang).

Efter en välbehövlig lunchpaus inleddes andra halvan av temadagen med att Jenny Bergenmar och Leif-Jöran Olsson talade om receptionsstudier utifrån exemplet Selma Lagerlöfarkivet. En webbplats för projektet håller på att utvecklas, och arbetet är också kopplat till en större databas över kvinnliga europeiska författare, New Women Writers. Bergenmar och Olsson lyfte särskilt fram att deras arbete i hög grad byggde på principer om öppna standarder, fri programvara och ”best practices”, bland annat i syfte att så långt möjligt framtidssäkra materialet.

Mats Björkin talade därnäst under rubriken ”’Computational cultural studies’ vs digital humaniora”, där han anlade ett bredare och mer kritiskt perspektiv på hela DH-fältet och själva begreppet. Han inledde med att ställa frågan om det ens finns några analoga humanister idag, då vi ju alla använder olika former av digitala verktyg och material. I den mån andra verkade vilja lyfta fram att det händer något radikalt nytt just nu på fältet, tycktes Björkin vilja tona ner den tolkningen. Han pekade också på de problem som finns kring exempelvis hantering och lagring av data, där filformat snabbt byts ut och migrering till nya plattformar blir dyra och arbetsamma.

Över huvud taget underströk Björkin att vi behöver problematisera konsekvenserna av att använda olika plattformar, som exempelvis Nintendo Wii inom dataspel. Just dataspel eller digitala spelprodukter är för övrigt något som har skapats och använts i flera decennier, vilket ibland glöms bort i dessa sammanhang trots att de i högsta grad är av relevans för oss humanister. Liksom andra gjort under dagen betonade Björkin också vikten av att inte lämna över digital humaniora till renodlade datavetare även om deras kompetens också behövs.

Dagens sista presentation hölls av Kristian Kristiansen och handlade om ”Digital forskning” från ett i vid mening historiskt perspektiv. Han inledde med en kort historisk exposé där statens roll för arkivens tillkomst poängterades, liksom att man i exempelvis Danmark börjat lägga ut digitaliserat arkivmaterial på webben runt 1990. Sedan dess har GIS-teknik och mycket annat tillkommit inom arkeologi och andra vetenskaper (GIS handlar förenklat om att med digital teknik registrera geografisk fördelning av fynd, fyndplatser osv.). Kristiansen framhöll också att det under senare år skett en slags glidning i arkivens och museernas roll från vetenskaplig till pedagogisk, där digitalisering av dokument och föremål fått stor betydelse. Han förutspådde att detta kommer leda till (ytterligare) ett uppsving för amatörforskare, av samma typ som vi redan sett för exempelvis släktforskning.

Därefter kom Kristiansen in på infrastruktur, som de stora finansiärerna började ge pengar till runt år 2000. Infrastruktur ger helt nya möjligheter till forskning, vilket här exemplifierades med två databaser vid Institutionen för historiska studier: Agrarhistorisk databas 1570–1805 och Svenskt Hällristningsforskningsarkiv (SHFA). Vid Göteborgs universitet finns ju därtill den stora databasen Svensk nationell datatjänst (SND) för humanistisk och samhällsvetenskaplig forskning. Med hjälp av olika gränssnitt kan denna typ av resurser göras tillgängliga för både forskare och allmänheten, påpekade Kristiansen, vilket ökar öppenheten och på sikt kanske bidrar till ett uppsving i prestige för humaniora.

Den avslutande diskussionen blev lite trevande, men handlade bland annat om oklarheterna kring vad ”digital humaniora” egentligen är och hur det kan definieras. Den frågan hade dykt upp redan i samband med Mats Björkins och andras föredrag, men som Björkin påpekade är definitionerna i sig kanske inte så centrala. Åtminstone för mig tycktes det dock tydligt att här finns några olika nivåer som det ändå kan finnas en viss poäng i att tydliggöra: 1) digitalisering av befintligt ”analogt” material eller på annat sätt användning av ett digitalt material, 2) digitala bearbetnings- och presentationsmetoder inom forskning (och undervisning) och 3) det akademiska studiet, med analoga eller digitala metoder, av de sociala och kulturella frågor som är direkt förknippade med det digitala samhällets framväxt. Huvuddelen av temadagen handlade om 1) och 2), men även 3) är ett mycket spännande område – inte minst för en historiker.

En sista fråga som delvis kopplar till diskussionen om vad digital humaniora är, lyftes av bland andra Mats Fridlund och handlar om i vilken mån vi just nu befinner oss i ett avgörande skede i DH:s utveckling. Digitala metoder och material har trots allt, som flera av presentationerna visade, förekommit och använts under flera decennier. De flesta närvarande, bland annat John Nerbonne och Kristian Kristiansen, menade dock att vi nu har nått en kritisk massa där alla dessa separata digitala satsningar börjar få effekter på bred front för forskningen. Och kanske undervisningen också?