Rapportens hemsida

Ediffah -- Slutrapport och idéer för framtiden

Inledning

Informationen rör sig snabbt på nätet, får vi ofta veta. En ständig källa till besvikelse är att all information inte finns där. Vad värre är: inom viktiga områden finns det inte ens information på nätet om att det existerar information i fysisk form.

Forskare inom områden som historia, litteraturvetenskap och lärdomshistoria, men även i de övriga vetenskaperna, behöver ofta söka material i personarkiv och handskriftssamlingar. Hitintills har sådan informationssökning endast kunnat göras genom förfrågan per telefon, brev och e-post, eller besök vid respektive biblioteks handskriftsavdelning, för att söka i kortkataloger eller förteckningar på plats. I Sverige har vi haft datoriserade bibliotekskataloger i mer än ett kvartssekel, men det har inte funnits något motsvarande system för att söka en konstnärs, författares eller forskares efterlämnade brev och manuskript. För att råda bot på detta startades projektet Ediffah våren 2005 med finansiering från Bibsam.

Ediffah står för En Digital Infrastruktur För Forskningsbibliotekens Arkiv och Handskriftssamlingar. Det är ett samarbetsprojekt mellan bibliotek och arkiv, med syftet att förbättra tillgängligheten för handskrifter och personarkiv genom att skapa en gemensam tjänst för sökning och katalogisering av otryckt material.

Deltagande organisationer

Projektets resultat

Ediffah-projektet har haft ett antal delmål, som beskrivs i ansökan [appl]. Målen har uppfyllts enligt följande:

1. Arkivförteckningar i xml-format

Kärnan i tjänsten Ediffah är arkivförteckningen. När ett arkiv inkommer till en arkivinstitution ordnas det och en arkivförteckning upprättas. Arkivförteckningar kan se mycket olika ut: de kan vara summariska dokument eller mycket detaljerade rapporter. En omfattande arkivförteckning innehåller, förutom en detaljerad innehållsförteckning, även en hel del beskrivande text. Det kan röra sig om biografisk information och upplysningar om samlingens proveniens, förvärv och historia. Utifrån förteckningen skall det vara möjligt för en forskare att bedöma om arkivet innehållet material som är relevant för den egna forskningen.

Arkivförteckningen är helt enkelt ett ändamålsenligt dokument, inte en databaspost i vanlig mening, som är svårt att ersätta annat än med mycket komplexa databaser. Se Yakel (2003) för beskrivningar av hur enskilda arkiv använts och utvecklats, och om hur formaliserade förteckningar kan tänkas påverka hur man i framtiden kommer att beskriva arkiv.[yakel].

Den dominerande lösningen på problemet är att överföra den traditionella arkivförteckningen till ett modernt format, Encoded Archival Description (EAD). [ead]. Den nuvarande versionen av EAD är helt kompatibel med ISAD(G) [isad(g)]. Målet är att få fram ett rikt dokumentformat som kan ge både en sökbar databas och dessutom på sikt göra den pappersbaserade arkivförteckningen överflödig. Det vill säga att man ser arkivdatabasen som ett verktyg för både informationssökning och informationsspridning, på samma sätt som man använder bibliotekskatalogen.

Arkivförteckningarna i Ediffah är i själva verket XML-dokument. Tekniskt har detta bara fördelar, och bör inte innebära några problem för katalogisatören. Det är en ny teknologi och ytterligare ett verktyg, vanligtvis en XML-editor, som man måste lära sig, men det är knappast svårare än MARC som har använts sedan 1970-talet. [marc]. Med verktyget skall det också följa IT-support, och det krävs att respektive biblioteks IT-personal har den kunskapen.

I skrivande stund har vi lagt in arkivbeskrivningar från alla de deltagande biblioteken (GUB med de kvinnohistoriska samlingarna, UUB, LUB och KB). Totalt har vi härmed över 6000 arkiv beskrivna i basen. Information ur GUBs handskriftsdatabas har exporterats som både Encoded Archival Context [eac] till RA och Encoded Archival Description (EAD) till Ediffah.

2. Ett gränssnitt för sökning och navigering

Projektets webbplats har varit i drift sedan juni månad. Kvarvarande problem med det redaktionella gränssnittet har lösts under augusti och september 2005. Infrastrukturen består av komponenter för:

3. Tester av metoder för katalogisering/förteckning av arkiv

Arbetet i detta delprojekt var mer komplext än övriga. Vi fann att det verktyg vi hade föreslagit när vi skrev ansökan inte var så tillgängligt som vi hade trott. I stället har vi valt två andra vägar: verktygen MidosaXML [midosa] och NoteTab Pro [notetab].

Flertalet projektdeltagare har provat åtminstone något av dessa verktyg. För att det skall vara möjligt att arbeta vidare krävs etablering av katalogiseringsregler som beskriver hur svenska forskningsbibliotek skall katalogisera arkiv. Ett första utkast till katalogiseringsregler för personarkiv har utvecklats vid handskriftsenheten vid Kungliga Biblioteket.

Då vi valde att inte använda verktyget Archives Hub's formulärsbaserade system har vi i stället utvecklat ett enkelt publiceringssystem för EAD.

4. Etablering av kommunikationsvägar till NAD

När ansökan skrevs antog vi att utbytesformatet med Riksarkivet och NAD (Nationella arkivdatabasen) skulle vara EAD, vilket är det format Ediffah använder internt. Eftersom Riksarkivet istället bestämt sig för att i första hand ta emot EAC har detta inneburit vissa problem för Ediffah. Att producera EAC är inte svårt, men för att exporten skall bli meningsfull måste varje namn som används som indexeringsterm knytas till en auktoritet. Ediffah behöver en sådan registervård, men den är tidsödande och dessutom krävs ett användargränssnitt för att utföra arbetet.

Under projektets gång har GUB exporterat EAC från sitt lokala system till NAD/NAV. GUB:s databas har egenskaper som tillåter export även av EAD. Inom projektet har detta testats och bidragit till utvecklingen av administrationsmodulen till NAD/NAV.

Ur NAD:s synvinkel är det således mycket positivt att en tjänst utvecklats som ger möjlighet till sökning och presentation av arkivförteckningar i formatet EAD. Den nya versionen av NAD kommer att fokusera på att skapa ett nationellt arkivbildarregister genom insamling av lokal arkivbildarinformation [leverans]. NAD kommer inte att samla in fullständiga arkivförteckningar, utan dessa förutsätts tillhandahållas av arkivinstitutionerna själva, lokalt eller i nätverk.

NAD har därför ett intresse av att Ediffah-servern utvecklas så att den kan tillhandahållas även för andra arkiv, t.ex. folkrörelsearkiv och museiarkiv. Inom NAD-projektet kommer också metoder för samsökning i sådana tjänster att utvecklas. En stor brist med den metodik som tillämpas inom Ediffah för att skapa arkivförteckningar är att den inte rymmer möjligheten att registrera arkivbildare i enlighet med standarderna ISAAR(CPF) och EAC [eac], vilka tillämpas för utbyte med den nationella arkivdatabasen (NAD).

5. Etablering av kommunikationsvägar till Libris

Vi har beslutat att infrastrukturen för kommunikationen mellan Ediffah och Libris skall vara OAI (Open Archives Initiative), och formatet Marc21 i XML. En OAI dataprovider är implementerad. Ediffahs OAI data providor stödjer därutöver export av Dublin Core och naturligtvis EAD

6. Utredning av framtida drift

Diskussion om placering av den framtida driften pågår, men utfallet är beroende av projektets resultat. Oavsett vilket har Biblioteksdirektionen i ansökan förbundit sig att driva tjänsten vidare under ett år efter att projektet avslutats, vilket blir till den 1 december 2006.

Diskussion av projektets resultat

Genom tjänsten www.ediffah.org har vi försökt att dels förbättra tillgängligheten till arkiv och handskriftsmaterial vid svenska forskningsbibliotek, och dels utveckla en gemensam modell för katalogisering.

Projektet har utvärderat olika metoder att skapa arkivförteckningar i formatet EAD. Den lösning som har demonstrerats har stora likheter med sådana som utvecklats för olika arkivnätverk utomlands [ead]. De främsta förebilderna för Ediffah har de brittiska arkivnätverken varit, se [a2a] för en bra länklista. Liksom Ediffah bygger dessa nätverk på att arkivförteckningarna skapas lokalt i xml-editorer och att varje förteckning behandlas som ett dokument. Metodiken för detta är beskriven av Michael Fox [Fox]. Med utgångspunkt från den har mallar för texteditorn NoteTabPro och stilformulär i xsl utvecklats [form].

Det framtida Ediffah

För att Ediffah skall kunna fungera fullt ut återstår en hel del arbete och vidareutveckling. Vad som behövs är:

Ett framtida hem

Det behövs en server (en vanlig snabb PC räcker). Den bör som alla servrar stå i ett serverrum (kylning, UPS, back-up osv). Det bör finnas två tekniker som kan systemet (ej heltid men som kan ersätta varandra). Tjänsten tar ca en till två dagar i månaden att driva, normalt mindre eftersom allt i princip är automatiserat. Tjänsten kan vara på KB, RA eller BD, men även andra projektdeltagare har förmodligen sådana resurser.

Det krävs en del redaktionellt arbete för att göra tjänsten tilltalande. Sidorna i Ediffah behöver underhållas med bl.a. uppdatering av webbinformation och ändringar i webbsidan.

Utbildning i xml-editorn NoteTab Pro för personal som skall arbeta med registrering behövs. En kontaktperson som sköter problem som kan uppstå under arbetets gång behövs också.

Även andra forskningsbibliotek har uttryckt önskemål att få vara med i Ediffah och hur det skall ske behöver diskuteras.

Versionshantering och accessmetoder

Systemet tillåter inte att en förteckning är publicerad samtidigt som arbete pågår med den internt. Detta problem kan lösas med något färdigt versionshanteringssystem. Det behövs också serverplats för förvaring av förteckningar under revision. Ett önskemål är att man skall kunna öppna och spara arkivförteckningar direkt i sin XML-editor. Användning av WebDav i kombination med ett versionshanteringssystem borde kunna lösa detta.

Auktoritetskontroll

Med auktoritetskontroll avser vi kontroll av vokabulärer, och i första hand kontroll av arkivbildares namn. Detta är viktigt av två skäl, dels för förbättring av söksystemet, och dels för att data skall kunna exporteras till NAD/NAV.

För att genomföra auktoritetskontroll krävs en del databasmaskineri som inte finns i dagens Ediffah. Dessutom krävs redaktionellt arbete med att koppla unika arkivbildare till personnamn, i första hand till arkivbildarfälten, men även till personnamn i indexeringsfälten. Implementering av mekanismer för auktoritetskontroll i Ediffah är nödvändigt för det fortsatta arbetet.

En hypotetisk arkitektur för ett informationssystem för arkiv
En hypotetisk arkitektur för ett informationssystem för arkiv

Implementering av auktoritetskontroll måste samordnas så att informations- och arbetsflöden blir rätt utan att det uppstår överlappningar i nätverket. Parter i samordningen är ägare av lokala system, Ediffah, Libris och NAD/NAV.

Förbättrad säkerhet

Ett behörighetssystem vore önskvärt, så att inte alla har möjlighet att redigera allt. Det blir ännu viktigare när och om man driftsätter WebDav.

Lokala system

Fortfarande saknas lokala system som stöder hela verksamheten vid en handskriftsavdelning. Med stöd för lokala system menas stöd för funktioner som innebär "batch upload" av stora mängder data, både arkivförteckningar och auktoritetsdata. Den förstnämnda funktionen är enklast, eftersom det är en utvidgning av existerande funktioner. Den senare kräver att auktoritetshanteringen är på plats, och därutöver programvara som ersätter existerande auktoritetsinformation med ny. Det lokala systemet kan åskådliggöras enligt följande:

Stöd för import av poster från lokala system bör vara ett prioriterat område eftersom det finns projektdeltagare som har sådana (GUB). GUB:s handskriftsdatabas har alla ovan nämnda funktioner utom depåkontroll och har producerat både EAC och EAD. Riksarkivet har också utvecklat ett sådant system, ARKIS, till vilket även landsarkiven är anslutna. ARKIS är dock ingen produkt som utan vidare kan distribueras och det skulle krävas en hel del anpassningar och utvecklingsarbete för att kunna bli funktionellt för handskriftsavdelningarnas behov.

De kommersiella arkivförteckningsprogram som finns på den svenska marknaden stöder bara den förteckningsmodell som används av svenska myndigheter. De har visserligen vissa stöd för export till NAD, men inte för export i EAD- eller EAC-format och inte för katalogisering på dokumentnivå.

Ett alternativ kan vara en vidareutveckling av den applikation som tagits fram vid UUB för katalogisering av Waller-samlingens brev och manuskript (http://www.ub.uu.se/arv/waller/). Denna har stöd för katalogisering på dokumentnivå, auktoritetsregister och digitalisering. Wallerprojektets styrgrupp har ställt sig positiv till en vidareutveckling av systemet och frågan om att inleda en förstudie kring detta diskuterades av företrädare för UUB, KB och RA/NAD den 5 oktober 2005.

Sammanfattning

Ediffah-projektet har varit ett framgångsrikt samverkansprojekt mellan arkiv- och biblioteksväsendet. Ediffah är ännu inte någon färdig databas för handskrifter och personarkiv, men det är en viktig början på en sådan. Drygt 6000 arkivposter från den gamla NAD-basen har konverterats till EAD-format och lagts över i Ediffah. Det innebär att det nu är möjligt för låntagare att hitta samlad information om nästan alla arkiv på de aktuella forskningsbiblioteken via Internet. Det har också skapats gemensamma katalogiseringsregler för handskrifter och arkiv, vilka kommer att användas vid publicering av nya arkivförteckningar.

Ett stort arbete ligger framför bibliotekarier och arkivarier vid landets forskningsbibliotek, men nu finns det nödvändiga verktyget för att tillgängliggöra de unika samlingarna på ett gemensamt och ändamålsenligt sätt.

Noter

[ead] Encoded Archival Description (EAD). Nu gällande version är EAD 2002. Standardens maintenance agency finns vid Library of Congress http://www.loc.gov/ead/, som är en viktig resurs för EAD. Innehåller bland annat EADs taglib http://www.loc.gov/ead/tglib/index.html. Andra viktiga resurser för EAD är EAD help pages, EAD cookbook, EAD Tools and Resources, Research Libraries Grouphar ett antal aktiviteter inom området Encoded Archival Description

[marc] Jämförelse mellan en MARC-post och en arkivförteckning i EAD

[form] P-G OttossonEAD för NoteTabPro, Riksarkivet

[eac] Encoded Archival Context (EAC), se http://www.iath.virginia.edu/eac/för information och länkar. Angående aktiviteter vid amerikanska forskningsbibliotek relaterade till EAC se Encoded Archival Context Activities http://www.rlg.org/en/page.php?Page_ID=581.

[appl]Projektansökan: Ediffah -- digital infrastruktur för forskningsbibliotekens arkiv- och handskriftssamlingar http://www.ediffah.org/project-archive/arkiv_bibliotek/

[isad(g)] ISAD(G), Standard som beskriver semantiken bakom EAD

[yakel] Yakel, Elizabeth, 2003. Archival Representation, Archival Science, vol 3, s. 1 - 25

[midosa] MidosaXML, ett tyskt verktyg för katalogisering/förteckning av arkiv.

[notetab] NoteTab Pro, en HTML och XML editor.

[leverans] Riksarkivet, Nationell Arkivdatabas. Information för dataleverantörer till NAD

[a2p] Access to Archives

[Fox] Fox, Michael. The EAD Cook Book