databaser – Tidens skiften

Som regelbundna läsare av bloggen vet har jag de senaste två–tre åren intresserat mig för digital historia och, i vidare mening, digital humaniora. Det har varit lärorikt och jag tror mig i dag ha ett ganska hyfsat grepp om åtminstone vissa delar av detta fält (om det nu är ett fält), särskilt då digital historia i det anglosaxiska språkområdet. Men det är ofrånkomligen en tämligen ytlig kunskap som mestadels ligger på en allmän och abstrakt nivå; några egentliga insikter om de mer påtagliga tekniska frågor och problem det i grunden ofta handlar om har jag inte. Och det börjar kännas som att det är dags att skaffa sig sådana, att närmare bekanta sig med vad det konkret innebär att som humanist arbeta med digitala metoder.

Därför blev jag mycket glad när jag av Benjamin Ekman blev inbjuden att närvara vid en workshop i Lund där ett antal projekt med sådan inriktning träffades den 13–14 juni för att dryfta frågor av gemensamt intresse. Flertalet av de representerade projekten ligger inom eller i anslutning till äldre kyrkohistoria och har sin bas i Sverige, Tyskland och England. De handlar alla, på olika sätt, om att med hjälp av databaser möjliggöra jämförelser och analyser av ett medelstort antal (några tusen eller tiotusental) äldre texter och textfragment på olika språk – till exempel grekiska, latin och arabiska – och att göra dem tillgängliga för både allmänheten och andra forskare. Gruppen bakom forskningsprogrammet Early Monasticism and Classical Paideia (MOPAI) i Lund, under ledning av Samuel Rubenson, stod som värd för workshopen.

De övriga projekt som presenterades under dagen var följande (med de rubriker som då användes och med reservation för att uppgifterna inte är helt konsekvent återgivna):

Ancient Wisdoms (SAWS, London – Anna Jordanous m.fl.)

DEBIDEM Question and Answer manuscripts (London – Ilse De Vos)

Corpus der Arabischen und Syrischen Gnomologien (CASG, Halle – Norman Wetzig m.fl.)

eTraces: Computational Aspects of Historical Text Re-use (Leipzig – Marco Büchler m.fl.)

Tidig kyrkohistoria är inte direkt mitt eget forskningsfält, men det var oerhört givande och tankeväckande att få sitta med under den första dagens överläggningar. Då presenterades respektive projekt i stora drag och vissa problem lyftes upp i en inledande diskussion som var tänkt att ligga till grund för mer specifika, tekniska samtal under den andra dagen. Kanske skulle jag stannat även för dessa, men den dag jag var med blev mer inspirerande än jag kunnat tro trots ganska höga förväntningar; den gav konkretion åt många frågor jag stött på redan tidigare, men utan att det blev så tekniskt komplicerat att jag hade problem att hänga med i vad som sades.

Efterhand som dagen fortskred blev det uppenbart att det finns vissa frågor och dilemman som tenderar återkomma i projekt av detta slag. Inget av det lär vara nytt eller okänt för den som själv arbetar med liknande forskning, men jag skulle ändå vilja lyfta fram några punkter som för en lekman tycktes väsentliga:

• Den grundläggande utmaningen består i att i en databas fånga en ibland oerhört stor komplexitet av relationer mellan olika texter och fragment, vilka tillkommit under lång tid. Hur etablerar man texternas relation till varandra, vilka sådana kopplingar är relevanta/intressanta och hur ska man klassificera och sortera olika egenskaper?

• Även i projekt som i grunden ”bara” handlar om att tillgängliggöra ett visst antal texter och metadata kring dem uppstår mängder av frågor om vilka data som är intressanta och varför. Med andra ord: att vissa aspekter eller karakteristika kan tyckas självklara att registrera medan andra inte är det, beror ju på vilken idé – uttalad eller underförstådd – man har om vad databasen och dess innehåll kommer att användas till. Vilka möjligheter och vilka begränsningar bygger man in genom sina val och antaganden om målgrupp och användningsområde?

• En viktig drivkraft bakom många projekt är de ökade möjligheter webben och digital teknik ger att just tillhandahålla material och forskningsdata i större utsträckning än tidigare. Men hur öppna ska databaserna vara? Ska vem som helst kunna gå in och ändra i innehållet (jfr Wikipedia) eller ska det finnas begränsningar och i så fall vilka? Forskare tenderar kanske att vara skeptiska mot fullständig öppenhet, men även om bara andra specialister ska ges tillgång uppstår frågor om hur man principiellt bestämmer vilka som är kvalificerade eller ej och hur man rent praktiskt löser det med åtkomsten för dessa personer.

• En annan fråga i anslutning till det, som vi känner igen från många andra sammanhang, är vilka material och metadata som det ens är tillåtet att tillgängliggöra för allmänheten med hänsyn till copyright och andra begränsningar som ligger utom forskarnas kontroll. Det var påfallande hur detta återkom gång på gång under dagen, alltså hur copyrightskyddet ofta blir ett konkret hinder för såväl samarbete forskare emellan som att tillgängliggöra resultaten av deras arbete för en bredare allmänhet.

• Slutligen fanns det också en mer teknisk problematik som dök upp flera gånger och det var den om hur resultatet av arbetet i sådana här projekt kan tas tillvara mer långsiktigt och länkas ihop. Hur goda metoder man än utvecklar i konkreta situationer är de ju inte till mycket hjälp om de är ”hemmabyggda” och inte går att förstå om fem eller tio år när någon annan vill bygga vidare på dem. Det är alltså helt avgörande att de som arbetar med liknande projekt kommunicerar med varandra, länkar ihop varandras arbete och ser till att så långt som möjligt utnyttja gemensamma standarder istället för specialbyggda lösningar. Samtidigt är detta ofta lättare sagt än gjort, eftersom varje projekt i någon mening är unikt och har sina egna utmaningar.

Det blev en mycket intressant temadag om digital humaniora vid Humanistiska fakulteten idag, där ett drygt 30-tal personer slöt upp för ett inledande föredrag, halvdussinet kortare presentationer och en avslutande diskussion. Jag ska här försöka summera förhandlingarna och samla ihop länkarna till de webbsidor för projekt och liknande som diskuterades under dagen. I möjligaste mån har jag utgått från min egen rapportering på Twitter, vilket gör att texten kanske inte är helt sammanhängande i alla stycken.

Sedan Mats Malm hade hälsat välkommen hölls ett inledningsanförande av John Nerbonne från European Association of Digital Humanities, vilket hade rubriken ”Digital Humanities and Text Analysis”. Nerbonne underströk bredden och variationsrikedomen i vad digital humaniora är: stilanalyser i litterära verk, Twitter i populärkulturen, parlamentsdebatter, ”culturomics” osv… Han menade att DH är ett snabbt expanderande fält som stora och välkända universitet nu satsar på. Eller som han uttryckte det på en av sina bilder: ”Prediction: DH is here to stay.” Nerbonne betonade också att med de enorma mängder data som nu blir tillgängliga för humanistisk forskning krävs det mer än någonsin humanister som kan ställa intelligenta frågor.

En punkt som Nerbonne återkom till flera gånger var att vi nu måste börja släppa idealet med den ensamme forskaren som sitter på sin kammare; framtidens forskning kräver samarbete i större grupper. Han redogjorde därefter för Morettis välkända arbete med ”distant reading”, där kvantitativa analyser genomförs på stora mängder litteratur. Ett samtida exempel på en liknande typ av studier kan ses på denna webbplats. Han tipsade också om en nederländsk sajt med visualiseringar av geografisk distribution av dialektmönster: http://www.gabmap.nl/.

John Nerbonne uttryckte stor entusiasm inför det som kallas culturomics, ett slags textanalys genomförd på miljoner böcker som Google digitaliserat för att genom frekvensmätningar säga något om kulturella förändringar. Detta har väckt stor uppmärksamhet de senaste två åren, och jag minns mycket tydligt den stora skepsis mot culturomics som fanns när några av frontfigurerna gjorde en presentation vid AHA-kongressen i januari 2012. Nerbonne nämnde också kritiken och debatten kring detta, men trodde att ”this is here to stay”; om inte annat, menade han, kan det fungera som ett bra underlag för diskussionsövningar i undervisningen.

De nästföljande två bidragen var demonstrationer av existerande databaser vid fakulteten med korpusar av text som man kan använda för olika typer av sökningar. Den första var Lars Borin från Språkbanken, som innehåller ca en miljard ord och bygger på ett material som kommer från många olika håll, bland annat ett antal svenska bloggar. Stina Otterberg och Dimitrios Kokkinakis presenterade sedan databasen ”Svensk prosafiktion 1800–1900”, som har en webbplats under utveckling på adressen http://spf1800-1900.se/. Kokkinakis underströk att utöver språkfrågor kan man använda denna typ av databaser till att kartlägga exempelvis sociala nätverk eller andra grupperingar.

Förmiddagens sista inlägg kom från Torbjörn Lager, som talade under rubriken ”Vad är webbvetenskap?” Hans svar på den frågan var att det är en tvärvetenskap med ”webben som teknologisk artefakt och socialt fenomen” som studieobjekt. Mer om webbvetenskap som disciplin går att läsa på http://webscience.org. Lager betonade starkt att webben här är just objekt för forskning, inte i första hand metod eller redskap för den (som är fallet i exempelvis e-vetenskap).

Ett inslag i föredraget som väckte viss uppmärksamhet på Twitter när jag refererade det var Lagers översiktliga historiska indelning av större kommunikationsteknologier i fyra faser: talspråk, skriftspråk, boktryckarkonst, webben. Han påpekade också att den sista av dessa, webben, fortfarande bara är ca 7000 dagar gammal. Twitterreaktionerna bestod i frågor om han glömt viktiga former som teckenspråk eller film, men jag tror att även om det var en relevant synpunkt är Lagers indelning rimlig om man tänker det sig som faser i just en informationshistoria (den är knappast unik utan varianter av den förekommer ofta i sådana här sammanhang).

Efter en välbehövlig lunchpaus inleddes andra halvan av temadagen med att Jenny Bergenmar och Leif-Jöran Olsson talade om receptionsstudier utifrån exemplet Selma Lagerlöfarkivet. En webbplats för projektet håller på att utvecklas, och arbetet är också kopplat till en större databas över kvinnliga europeiska författare, New Women Writers. Bergenmar och Olsson lyfte särskilt fram att deras arbete i hög grad byggde på principer om öppna standarder, fri programvara och ”best practices”, bland annat i syfte att så långt möjligt framtidssäkra materialet.

Mats Björkin talade därnäst under rubriken ”’Computational cultural studies’ vs digital humaniora”, där han anlade ett bredare och mer kritiskt perspektiv på hela DH-fältet och själva begreppet. Han inledde med att ställa frågan om det ens finns några analoga humanister idag, då vi ju alla använder olika former av digitala verktyg och material. I den mån andra verkade vilja lyfta fram att det händer något radikalt nytt just nu på fältet, tycktes Björkin vilja tona ner den tolkningen. Han pekade också på de problem som finns kring exempelvis hantering och lagring av data, där filformat snabbt byts ut och migrering till nya plattformar blir dyra och arbetsamma.

Över huvud taget underströk Björkin att vi behöver problematisera konsekvenserna av att använda olika plattformar, som exempelvis Nintendo Wii inom dataspel. Just dataspel eller digitala spelprodukter är för övrigt något som har skapats och använts i flera decennier, vilket ibland glöms bort i dessa sammanhang trots att de i högsta grad är av relevans för oss humanister. Liksom andra gjort under dagen betonade Björkin också vikten av att inte lämna över digital humaniora till renodlade datavetare även om deras kompetens också behövs.

Dagens sista presentation hölls av Kristian Kristiansen och handlade om ”Digital forskning” från ett i vid mening historiskt perspektiv. Han inledde med en kort historisk exposé där statens roll för arkivens tillkomst poängterades, liksom att man i exempelvis Danmark börjat lägga ut digitaliserat arkivmaterial på webben runt 1990. Sedan dess har GIS-teknik och mycket annat tillkommit inom arkeologi och andra vetenskaper (GIS handlar förenklat om att med digital teknik registrera geografisk fördelning av fynd, fyndplatser osv.). Kristiansen framhöll också att det under senare år skett en slags glidning i arkivens och museernas roll från vetenskaplig till pedagogisk, där digitalisering av dokument och föremål fått stor betydelse. Han förutspådde att detta kommer leda till (ytterligare) ett uppsving för amatörforskare, av samma typ som vi redan sett för exempelvis släktforskning.

Därefter kom Kristiansen in på infrastruktur, som de stora finansiärerna började ge pengar till runt år 2000. Infrastruktur ger helt nya möjligheter till forskning, vilket här exemplifierades med två databaser vid Institutionen för historiska studier: Agrarhistorisk databas 1570–1805 och Svenskt Hällristningsforskningsarkiv (SHFA). Vid Göteborgs universitet finns ju därtill den stora databasen Svensk nationell datatjänst (SND) för humanistisk och samhällsvetenskaplig forskning. Med hjälp av olika gränssnitt kan denna typ av resurser göras tillgängliga för både forskare och allmänheten, påpekade Kristiansen, vilket ökar öppenheten och på sikt kanske bidrar till ett uppsving i prestige för humaniora.

Den avslutande diskussionen blev lite trevande, men handlade bland annat om oklarheterna kring vad ”digital humaniora” egentligen är och hur det kan definieras. Den frågan hade dykt upp redan i samband med Mats Björkins och andras föredrag, men som Björkin påpekade är definitionerna i sig kanske inte så centrala. Åtminstone för mig tycktes det dock tydligt att här finns några olika nivåer som det ändå kan finnas en viss poäng i att tydliggöra: 1) digitalisering av befintligt ”analogt” material eller på annat sätt användning av ett digitalt material, 2) digitala bearbetnings- och presentationsmetoder inom forskning (och undervisning) och 3) det akademiska studiet, med analoga eller digitala metoder, av de sociala och kulturella frågor som är direkt förknippade med det digitala samhällets framväxt. Huvuddelen av temadagen handlade om 1) och 2), men även 3) är ett mycket spännande område – inte minst för en historiker.

En sista fråga som delvis kopplar till diskussionen om vad digital humaniora är, lyftes av bland andra Mats Fridlund och handlar om i vilken mån vi just nu befinner oss i ett avgörande skede i DH:s utveckling. Digitala metoder och material har trots allt, som flera av presentationerna visade, förekommit och använts under flera decennier. De flesta närvarande, bland annat John Nerbonne och Kristian Kristiansen, menade dock att vi nu har nått en kritisk massa där alla dessa separata digitala satsningar börjar få effekter på bred front för forskningen. Och kanske undervisningen också?

Tidens skiften

Etikett: databaser

Gamla texter, nya verktyg

En dag om digital humaniora