handdator

Visa fullständig version : RGD - NyhetsbrevRolf Carlsson
2013-01-21, 18:15
Detta ämne är tänkt som information från Projektgruppen till medlemmarna. Avsikten är att med jämna mellanrum informera om projektets utveckling.

Vi ber Dig därför respektera att inte ta upp frågor för diskussion under detta ämne.

Vi vill gärna ha en dialog med medlemmarna om RGD och ber Dig att ta upp frågor eller synpunkter om projektet genom att lägga upp ett nytt ämne eller använda ett befintligt ämne, som täcker det du vill ta upp.

Christer Gustavsson - Rolf Carlsson

Rolf Carlsson
2013-01-21, 19:02
Projektgruppen för RGD har haft ett arbetsmöte i Linköping 19/20 januari 2013.

Huvuduppgiften från Styrelsen är att ta fram en prototyp med fokusering på indatakontroller av GEDCOM-filer, dubblettsökning och uppdatering av tillkommande individer i databasen. Den mest kritiska punkten är att undvika att en och samma person förekomer mer än en gång i RGD. Efter utvärdering av utfallet av prototypen kommer Styrelsen att fatta beslut om det fortsatta arbetet med RGD.

Prototyp

Beträffande prototypen finns nu utkast på erforderliga funktioner och rutiner kring hanteringen av inkommande GEDCOM-filer. Nästa steg är att definitivt lägga fast funktioner och rutiner samt att utforma de program som erfordras för detta. Under annat ämne har vi tagit upp behovet av medlemmar, som är villiga att arbeta med behandling av GEDCOM-filer (detta kan liknas vid det arbete, som Disbyt-ombuden lägger ner vid behandling av inkommande Disbyt-utdrag). Självfallet blir det i början litet av nybyggarstämning, eftersom justeringar av program/rutiner kan bli nödvändiga. Vill du var med i detta spännande utvecklingssteg, så hör av dig till Projektgruppen: carl-johan.gustafsson@c-sam.nu .

Vidare finns tre sidoprojekt, som Projektgruppen arbetar med:

Verktyg för egenkontroll
Detta är tänkt som en separat Dis-produkt som skall göra det möjligt för medlemmarna att analysera den egna databasen för att upptäcka dubbletter, fel kön och liknande felaktigheter. Denna kontroll kan utföras helt fristående. Målsättningen är att höja kvaliteten i den egna forskningsdatabasen. Självfallet är det så att ju bättre kvalitet grundmaterialet håller desto bättre blir även kvaliteten på det som rapporteras in till Disbyt resp. RGD.

Ortsdatabas
Behov finns att införa en förbättrad ortsdatabas baserad på de historiska förändringarna av Sveriges församlingar i första hand fram till 1989 men därefter även fram till nutid. De ortsstrukturer, som finns i Disgen, Disbyt och Disbyt är inte tillräckligt detaljerade för att fylla det framtida behovet. För att uppnå en hög kvalitetsnivå i RGD är ambitionen att kunna ange ett "tidsriktigt församlingsnamn", dvs det församlingsnamn, som gällde vid tidpunkten för en viss händelse.

Databas över för- och efternamn med stavningsvarianter
Likaledes för att uppnå en hög kvalitetsnivå i RGD har ambitionen satts att ange förnamnen "bokstavstroget" enligt födelsenotisen. Genom att koppla alla förekommande stavningsvarianter till ett grundnamn blir det möjligt att söka på valfri variant och få träff med alla andra varianter. Sannolikt behöver vi hjälp av medlemmarna med att lägga upp tabellerna i databasen. Till detta återkommer vi senare.

Namn- och ortsdatabaserna avses ligga till grund för föreningens samtliga produkter - Disgen, Disbyt, Dispos, RGD liksom Verktyget för egenkontroll.

Rolf Carlsson
2013-05-25, 20:27
Utveckling av prototyp
Under våren har Projektgruppen fördjupat arbetet med att ta fram en prototyp med tonvikt på kontroll av indatafiler, identifiering av dubbletter samt att därefter sammanfläta flera forskares uppgifter till en databas med enbart unika individer.

För närvarande testas prototypens funktioner på medelstora indatafiler (5.000 – 10.000 individer). Inledningsvis har ett antal valideringstester avseende namn, kön, ålder, orter, tänkbara dubbletter m.m. utförts på indatafilerna i syfte att höja kvalitetsnivån på uppgifterna före bearbetning i själva databasen.

Namndatabas
En namndatabas – arbetsnamn ”Disnamn” har skapats och redigeringsarbete pågår för närvarande av de namn företrädesvis från Disbyt, som inkluderats i Rådatabasen. Mera information finns under tråden Namnhantering.

Ortsdatabas
Arbetet med ortsdatabasen avseende samtliga Sveriges församlingar fram till 1989 samt förändringar även därefter har under våren haft en något lägre prioritet till följd av arbetet med de två ovanstående delprojekten. Även här finns en preliminär struktur hur en datateknisk lösning skall kunna utformas.
Eftersom Prototypens funktioner för identifiering av dubbletter utnyttjar informationen i såväl Disnamn som i Ortsdatabasen, är det väsentligt att även Ortsdatabasen utvecklas och redigeras innan den slutliga utvärderingen av Prototypens funktioner kan utvärderas.

Projektet går fortlöpande framåt och Projektgruppen ser med tillförsikt på den kommande utvärderingen av Prototypens funktioner liksom samspelet med andra stödjande databaser.

Är du intresserat att medverka i någon del av detta utmanande utvecklingsprojekt, så hör gärna av dig till Projektledaren Christer Gustavsson: christer.gustavsson@dis.se.

Rolf Carlsson
2013-11-26, 15:49
Projektgruppen har lämnat redogörelse till Styrelsen avseende arbete med och utvärdering av Prototypen liksom de fyra underprojekten – Namndatabas, Ortsdatabas, Källdatabas samt Verktyg för egenkontroll.

Styrelsen har vid sitt möte i november beslutat att driva projekten vidare mot införande successivt under 2014/2015.

Tidigare under hösten presenterades projekten i samband med Dis Funktionärsmöte i Linköping liksom en demonstration av vissa funktioner i prototypen.

Utvärdering av arbetet med prototypen har beskrivits under detta ämne. Sammanfattningsvis har förutsättningarna för prototypen väl infriats. Projektgruppen är av den uppfattningen att ett införande med målsatt hög kvalitetsnivå är fullt genomförbart.

Projektgruppen kommer att lägga upp arbetsplaner för respektive projekt. Eftersom de fyra underprojekten är förutsättningar för RGDs databas kommer dessa att genomföras först.

Rolf Carlsson
2014-06-27, 18:12
Under första halvåret har arbete lagts ner på upprättande av kravspecifikationer främst för avsnitten Indatavalidering, Identifiering och Matchning av identiska individer liksom Uppdatering av huvuddatabasen med tillkommande indatafiler. Erfarenheterna från arbetet med prototypen har legat till grund för kravspecifikationerna. Även för ett antal sidorutiner har arbetet med kravspecifikationer inletts.

DIS Styrelse har vid sitt möte i maj beslutat att aktiviteterna skall övergå från arbete med prototyp och anda analyser till aktiv programmering av den slutliga produkten. Projektgruppen har möjlighet att binda upp ytterligare resurser i projektet. Någon tidpunkt för planerad idrifttagning har inte fastlagts.

I samarbete med Lunds Universitet har RGD-projektet beviljats ett finansiellt projektstöd från Interfonden; se http://www.internetfonden.se/rikstackande-genealogisk-databas/. Samarbetsprojektet avser möjligheten för medlemmar att jämföra sitt eget forskningsresultat med de uppgifter som finns i RGDs huvuddatabas avseende identiska individer.

Projektgruppen kommer efter sommarperioden att prioritera de olika avsnitten med målsättning att arbeta mot idrifttagning av RGD.

Rolf Carlsson
2014-08-09, 18:48
RGDs Informationsflöde

Skissen över RGDs Informationsflöde (se bilaga) har delats in i olika block för att åskådliggöra hur de olika funktionerna binds samman i den framtida produkten. Detta inlägg vill ge en översiktlig bild och visa de grundläggande funktionerna och deras samband. Allteftersom utvecklingen fortskrider är avsikten att mera detaljerat beskriva vissa avsnitt.

Block D omfattar överföring och hantering av indata från medlem (kan vara gemensam med Disbyt).
Tanken är att övergå från att sända information med E-post (jfr underlag för Disbyt) till nedladdning av information till en särskild area hos DIS. Det har visat sig att de filerna kan bli otympliga att hantera i E-postsystemen. Funktionen avses bli gemensam för såväl RGD som för Disbyt. Förutom vissa formella kontroller är funktionen enbart tänkt som ”postmottagning” för (automatisk) distribution till respektive produkt.

Block H representerar produktens huvudflöde från en inkommande Gedcom-fil till uppdatering av huvuddatabasen liksom möjligheterna till sökning i och utdata från databasen.
Blocket omfattar huvudfunktionerna
• Validering av medlemmens Gedcom-fil avseende formella fel samt matchning mot sidodatabaserna för Namn, Orter och Källhänvisningar. Möjlighet till återrapportering av felaktigheter eller tveksamma uppgifter.
• Matchning av Gedcom-filens familjebilder mot eventuellt motsvarande familjebilder i RGDs huvuddatabas. Markering av avvikelser beträffande relationer och sakuppgifter. I detta skede är medlemmens medverkan önskvärd liksom att återföring då kan ske beträffande avvikelser mellan indatauppgifter och motsvarande uppgifter i RGDs databas.
• Uppdatering av tillkommande uppgifterna i RGDs databas. I denna funktion ingår även slutlig kontroll och rensning av uppgifter som omfattas av sekretess (exempelvis PUL) eller av andra skäl ej skall överföras till databasen.
• Funktioner för medlem att söka i databasen liksom att överföra information från databasen.
Före uppdatering av RGDs huvuddatabas är inrapporterade uppgifter endast tillgängliga för RGD-funktionärer, som bearbetar indatafilen främst i form av avvikelselistor.

Block I beskriver en funktion för medlem att jämföra sin egen forskningsdatabas med uppgifterna i RGDs huvuddatabas via internet. (Se även samarbete med Lunds Universitet och Internetfonden).
Möjlighet för medlem att jämföra sin egen forskningsdatabas med de uppgifter som finns i RGDs databas via Internet. Förenklat uttryckt motsvarar blocket funktionerna för Indatavalidering respektive Matchning i Block H med återrapportering av avvikelser ”hjälp till självhjälp”. Det är önskvärt men inte nödvändigt att detta genomföres innan en Gedcom-fil skickas in av medlemmen.

Tanken är att medlemmen skall kunna identifiera potentiella avvikelser och i förekommande fall rätta i sin egen forskning. Är det så att felaktigheter förefaller ligga i RGDs databas är det önskvärt att medlemmen återrapporterar dessa med funktionerna i Block K (se detta block).
I de fall motsvarande individer saknas i RGDs databas kan självfallet ingen jämförelse göras. Det ligger i sakens natur att ju fler individer RGDs huvuddatabas omfattar desto fler jämförelser kan göras.

Genom funktionerna i detta block (och återrapportering med funktionerna i block K) kan tillförlitligheten av relationer och sakuppgifter i RGDs huvuddatabas kontinuerligt förbättras. Att successivt åstadkomma högsta möjliga tillförlitlighet i relationer och sakuppgifter är en högt prioriterad målsättning.
Beträffande Block I har DIS i samarbete med Lunds Universitet beviljats ett ekonomiskt projektstöd av Internetfonden.

Block V beskriver de sidodatabaser som är en förutsättning för RGD men även kan appliceras på andra DIS-produkter. Här ingår även en möjlig matchning mellan Sveriges Dödbok och RGD.

Omfattar vissa sidoordnade men fristående databaser för kontroll, normering och värdering av uppgifter.

Namndatabasen är uppdelad i för- respektive efternamn. Namnen sammanföres i Namngrupper där ett stort antal likartade/besläktade namn ingår. Avsikten är inte att normera namnen utan att finna identiska individer oberoende hur namnet stavats. Härvid har mycket breda namngrupper valts (exempelvis är Johannes, Jöns och Hans besläktade med varandra och sammanförts i samma grupp). Vidare delas dubbelnamn upp i sina grundnamn (exempelvis blir Annabritta Anna och Britta) vid kontroll mot namndatabasen. Varje enskilt för- eller efternamn är sökbart var för sig.

Namndatabasen innehåller även vissa hjälptabeller för prefix (von, de, la) och suffix (senior, den yngre) liksom vanliga ”icke-namn” (flickebarn, hustru), som stryks/undertrycks vid bearbetning.

Ortsdatabasen omfattar i sin grundversion Sveriges församling genom tiderna med de tidsintervall ett församlingsnamn existerat. Intentionen är att i RGDs utdata visa det ”tidsriktiga” församlingsnamnet, men att matchning av individer skall kunna ske även om tidigare eller senare församlingsnamn existerar i indataunderlag.

I ett senare utvecklingssteg bör Ortsdatabasen kunna utökas med ortsnamn under församlingsnivå förslagsvis från GIDx-projektet. Möjligtvis kan databasen då även innehålla även en ortshistorisk beskrivning.

Databas för källhänvisning utgör grunden för värdering av de källhänvisningar, som följer med indatafilerna. Målsättningen är att hänvisa till den mest exakt angivna originalkällan, när flera medlemmar gjort inrapporteringar avseende en och samma individ.

I grunden finns två parametrar:
• Själva källan (kyrkobok, mantalslängd, ”egen uppgift osv.). I tabeller motsvarande de i Dispos kan avgöras om det är en primär eller sekundär källa med referens till händelsens årtal och typ av kyrkobok.
• Precision var i källan uppgiften finns (sidhänvisning, GID-nummer, bildnummer). Här anses sidhänvisning i kyrkobok ha högre status än leverantörsbundna begrepp.

Block K omfattar underhåll av huvuddatabasen med inrapportering av felaktigheter och andra former av korrigeringar och kompletteringar från medlem.

Blocket omfattar funktioner för olika former av korrigeringar eller kompletteringar i RGDs huvuddatabas. Trots noggrann validering av indata kan inte undvikas att det förekommer felaktigheter avseende relationer eller sakuppgifter i huvuddatabasen. Ofta upptäcks felaktigheter när två medlemmars forskning jämförs med varandra, varvid felet kan ligga såväl i den först inrapporterade uppgiften som i en av de efterföljande. Korrigeringar skall kunna utföras på motsvarande sätt som i exempelvis Disgen:
• Felaktiga relationer – barn hos fel föräldrar, fel partner i gifte
• Dubblett i databasen (ursprungliga uppgifter kan ha varit för knapphändiga för att identifiera dubbletten)
• Felaktigheter avseende namn, ort eller datum
• Enstaka tillkommande individ med relation till en individ i RGD.

Felaktigheterna kan upptäckas i samband med matchning av en tillkommande indatafil mot databasen men även av en enskild medlem vid sökning i databasen eller genom den internetbaserade matchningsfunktionen, som beskrivs i Block I.

I vissa fall (relationsfel) kan det vara nödvändigt att först göra korrigeringar i huvuddatabasen innan den tillkommande indatafilen kan uppdateras.
Det är av stor vikt att medlemmar anmäler ifrågasatta uppgifter med syftet att korrigera uppgifterna i RGDs huvuddatabas.

Själva ändringarna i databasen prövas och verkställes av RGD-funktionär men inrapporteringsblanketter över internet kommer att utvecklas för att standardisera anmälningar från medlemmar.

Block P hanterar vissa periodiska analyser beträffande inkonsistenta uppgifter i databasen.

Block E omfattar funktioner för egenkontroll av den egna forskningen beträffande formella felaktigheter. Denna produkt har inga kopplingar till RGDs databas men är ett hjälpmedel med syftet att identifiera vissa formella felaktigheter.
De skilda blocken kommer att prioriteras med tanke på deras nödvändighet vid en första idrifttagning

Rolf Carlsson
2014-08-11, 20:49
Nedan bifogas infoflödet även som pdf-fil

Rolf Carlsson
2015-01-30, 16:45
Samspel Släkttrim/RGDs Huvuddatabas.

Under separat ämne har vi beskrivit den Web-baserade delprodukten Släkttrim. Släkttrim blir en integrerad del av RGD (men kan dessutom användas som en fristående produkt av medlem). Jag vill visa hur det är tänkt att integrera Släkttrim med kontroll mot och uppdatering av Huvuddatabasen.

Det skall påpekas att bifogade flödesbild är ett arbetsunderlag i Projektgruppen, som kan ändras i olika avseenden liksom att många detaljer återstår att bearbeta. Det är dock vår ambition att så tidigt som möjligt informera om projektets förlopp.

Grundförloppet är att Medlemmen med stöd av Funktionär jämför sitt material med RGDs databas samt analyserar de avvikelser, som indikeras. Upptäckta fel i RGDs databas korrigeras av Funktionär medan Medlemmen gör ändringar i sin egen forskningsdatabas. I likhet med processen i den nuvarande Beta-versionen kan förloppet genomföras iterativt efter relevanta korrigeringar. När Funktionär och Medlem konstaterar att nu är Indatafilen uppdaterad med korrigeringar av indikerade konflikter i relationer och sakuppgifter, sker inläsning av den senaste filen för slutlig Indatavalidering, Matchning och Uppdatering av Databasen. I grunden är de första två momenten jämförbara med de i Släkttrim.

Det som beskrivits ovan är "idealsituationen", vilket samtidigt ger maximal medlemsnytta vad avser tillförlitlighet i den egna forskningsdatabasen. Självfallet är vi medvetna att verkligheten motsvarar inte alltid idealsituationen och i dessa fall kommer det att finnas alternativa delprocesser genomförda av Funktionär.

Ledmotivet är hela tiden att uppnå maximal tillförlitlighet hos såväl Medlem som i RGDs huvuddatabas. Genom att arbeta tillsammans skall 1+1 bli avsevärt mer än 2!

Själva flödesförloppet och funktionerna har beskrivits under Släkttrim och jag upprepar det inte här.