Rolf Carlsson
2013-08-10, 22:28
Som nämnts i andra sammanhang har Projektgruppen tagit fram en prototyp för RGDs databas. Den huvudsakliga inriktningen med prototypen har varit att identifiera och eliminera felaktigheter i de Gedcom-filer från medlemmar, som legat till grund för bearbetningen samt att identifiera när samma individ förekommer hos flera medlemmar.
Vad gäller valideringskontrollerna har de exempelvis avsett ej önskvärd information i namnfältet, identifiering av förekommande dubbletter, identifiering av felaktigt kön, förväxling mellan för- och efternamn. Det är samma typ av kontroller, som är tänkt att ingå i en eventuellt framtida produkt: Egenkontroll av forskningsdatabasen.
Det viktigaste och mest komplicerade momentet är att identifiera om samma individ förekommer i flera medlemmars material. Kontrollerna görs här över flera generationer för att stämma av familjerelationer och även fånga upp avvikelser i uppgifter avseende enskilda personer. Genom att hela familjen i första steget granskas maskinellt upptäcks avvikelser beträffande namn, datum eller ort liksom barn som saknas i inrapporteringsfilen eller i databasen (nytillkommande individ). Avvíkelserna bearbetas därefter manuellt och individerna kan sammanföras även om exempelvis födelsedatum ej skulle stämma överens.
Kontroll av förnamn/efternamn sker mot en central namndatabas (produktionsmässig version), som också beskrivits i ett separat ämne. Kontroll av orter mot ”Sveriges församlingar genom tiderna – Skatteverket 1989”. I prototypen har ingen kontroll skett om uppgiften faller inom den tid församlingen existerat eller ej. Detta planeras i en senare version av ortsdatabasen.
Avgörande för prototypens funktionalitet är att kunna identifiera och sammanföra individerna (”matchning”). Möjligheterna att exempelvis rätta felaktigheter eller att kunna avgöra vilken medlems uppgift, som är korrekt, har haft underordnad betydelse i prototypen. Detta och även ett flertal andra funktioner kommer självfallet att byggas in i en slutlig version av databasen.
Bearbetningen i Prototypen har baserats på autentiska Gedcom-filer från ett flertal medlemmar. Filerna har ofta uppgått till 10.000-tals individer. Vidare har material valts ut så att filer med mycket stora överlappningar (flera tusen individer, som förekommer hos två eller flera medlemmar) för att få en relevant test på att funktionaliteten för identifiering av samma individ förlöper på önskvärt sätt.
Projektgruppen är av den uppfattningen att funktionaliteten i Prototypen motsvarar de krav/förväntningar som ställts upp. Samtidigt har ett flertal punkter på komplettering av funktionalitet identifierats för att ingå i en slutlig version (förutsatt att Styrelsen fattar beslut om RGDs genomförande).
Vad gäller valideringskontrollerna har de exempelvis avsett ej önskvärd information i namnfältet, identifiering av förekommande dubbletter, identifiering av felaktigt kön, förväxling mellan för- och efternamn. Det är samma typ av kontroller, som är tänkt att ingå i en eventuellt framtida produkt: Egenkontroll av forskningsdatabasen.
Det viktigaste och mest komplicerade momentet är att identifiera om samma individ förekommer i flera medlemmars material. Kontrollerna görs här över flera generationer för att stämma av familjerelationer och även fånga upp avvikelser i uppgifter avseende enskilda personer. Genom att hela familjen i första steget granskas maskinellt upptäcks avvikelser beträffande namn, datum eller ort liksom barn som saknas i inrapporteringsfilen eller i databasen (nytillkommande individ). Avvíkelserna bearbetas därefter manuellt och individerna kan sammanföras även om exempelvis födelsedatum ej skulle stämma överens.
Kontroll av förnamn/efternamn sker mot en central namndatabas (produktionsmässig version), som också beskrivits i ett separat ämne. Kontroll av orter mot ”Sveriges församlingar genom tiderna – Skatteverket 1989”. I prototypen har ingen kontroll skett om uppgiften faller inom den tid församlingen existerat eller ej. Detta planeras i en senare version av ortsdatabasen.
Avgörande för prototypens funktionalitet är att kunna identifiera och sammanföra individerna (”matchning”). Möjligheterna att exempelvis rätta felaktigheter eller att kunna avgöra vilken medlems uppgift, som är korrekt, har haft underordnad betydelse i prototypen. Detta och även ett flertal andra funktioner kommer självfallet att byggas in i en slutlig version av databasen.
Bearbetningen i Prototypen har baserats på autentiska Gedcom-filer från ett flertal medlemmar. Filerna har ofta uppgått till 10.000-tals individer. Vidare har material valts ut så att filer med mycket stora överlappningar (flera tusen individer, som förekommer hos två eller flera medlemmar) för att få en relevant test på att funktionaliteten för identifiering av samma individ förlöper på önskvärt sätt.
Projektgruppen är av den uppfattningen att funktionaliteten i Prototypen motsvarar de krav/förväntningar som ställts upp. Samtidigt har ett flertal punkter på komplettering av funktionalitet identifierats för att ingå i en slutlig version (förutsatt att Styrelsen fattar beslut om RGDs genomförande).