Vad den ena har, men inte den andre. [Arkiv]

Visa fullständig version : Vad den ena har, men inte den andre.

m06015

2014-08-12, 12:27

Att hitta gemensamma personer i två databaser är nu enkelt med Dubbelgångaren. Men att hitta personer som den ena har, men inte den andre är en intrerssant uppgift för personer som forskar inom samma geografiska område. Då borde man kunna komplettera barnaskaror. Men också finna anor där den ena kommit längre tillbaka i tiden. Tacksam för idéer

BrJohan

2014-08-12, 18:18

Hej Runar!

Problemet att jämföra två Gedcomfiler för att hitta personer som finns enbart i en av dem sysselsatte mig för flera år sedan och 'min' lösning blev att skriva ett program som läser båda filerna och bygger de två associerade datastrukturerna. För varje familj från Gedcom A söks sedan bland familjer i Gedcom B efter 'samma' (man, hustru, vigselplats och vigselår) familj. Därefter jämförs barnaskaran och barn som enbart finns i en av familjerna 'märks ut'. Avslutningsvis skrivs de 'märkta' barnen från A ut, följt av de 'märkta' barnen från B.

Principen är enkel. Jag hoppas att min beskrivning - här ovan - är någorlunda tydlig.

Det svåra är att välja 'rätt' kriterier för hur en familj i A skall anses svara mot en familj i B. Utöver de från dubblettsökningar kända jämförelseproblemen tillkommer att vissa uppgifter kan saknas i en eller båda familjerna. Ex.vis, om familjen i A har ett känt vigseldatum men inte familjen i B, kan man då jämföra A's vigseldatum med tidpunkten för familjen B's första barns födelse (minus inget/ett/några få år)?

Eventuellt kommer jag att bygga ut programmet så att personer som är 'ogifta' i en Gedcomfil kanske kan sökas som 'gifta' i den andra Gedcomfilen för att i så fall ytterligare indikera vilka personer (make/maka/barn) som saknas i den ena eller andra Gedcomfilen. Matchningsproblemet blir ju i detta fall ytterligare mera komplicerat om man vill kunna lita på resultaten...

Det går naturligtvis också att - om tid tillåter och behov påfordrar - lägga till funktionalitet för att söka efter föräldrar som finns enbart i en av Gedcomfilerna ...

Oavsett om min lösning är optimal eller inte, så har jag haft nytta av mitt program.

(Jag utgår ifrån att man i RGD-projektet har avsevärt mera sofistikerade lösningar. På tal om RGD så ser jag att något slags beskrivande dokument nyligen publicerats i forumet. Lämpligt - tycker jag - vore att ett portabelt och allmänt använt format används. PDF borde vara självklart.)

BrJohan

C-J Gustafsson

2014-08-15, 15:19

Hej Bror
Du har rätt i att RGD kommer att innehålla funktioner för att matcha individer och familjer och därmed hitta skillnader mellan två uppsättningar släktdata.
Den tekniska lösningen finns, men ännu har inte "presentationen" av resultatet tagits fram.

Det märks att du haft starka funderingar kring den delen och också byggt funktion för märkning och utskrift av resultatet.

Det är intressant för arbetet med RGD piloten att inte bara hitta de tekniska lösningarna, utan även hur man på ett funktionellt sätt ska presentera resultatet.

Om ni har förslag eller synpunkter på hur ni vill få denna typ av information presenterad och dokumenterad, är de välkomna.
Antingen i Forumet eller direkt till RGD gruppen.

BrJohan

2014-08-16, 11:10

Jag såge gärna att unionen av två (eller flera) släktforskares data kunde fås ut i ett format som:
såväl låter sig presenteras och traverseras grafiskt
som är läsbar för och redigeringsbar i någon lämplig och plattformsoberoende programvaruapplikation för att därifrån kunna exporteras till GEDCOM.

De personer och relationer som inte är gemensamma i de olika släktforskarnas data bör givetvis tydligt framgå och/eller kunna sökas.

En väl genomtänkt och väl definierad SGML-applikation torde vara det bästa - som jag ser det - alternativet för det format som skulle kunna representera 'unionen' (enligt ovan).

Den HTML som Disgen producerar fungerar naturligtvis bra för att presentera och traversera släktdata, men låter sig näppeligen läsas in för att redigera sådan data.

Just my two pennies worth!

C-J Gustafsson

2014-08-18, 11:36

Hej Bror
Tack för ditt svar, fast jag hade nog hoppats på synpunkter från flera.
Det finns lite olika delar av grundfrågan, när man jämför två släktforskares GEDCOM filer.

Den första och tror jag viktigaste, "vilka familjer/släkter har vi gemensamt?".
Den är nog också svårast att presentera på ett bra sätt. Det borde vara i någon form av "Antavlor". Det kan ibland handla om större volymer.

Följdfrågan blir då "Vad har du som inte jag har?" i våra gemensamma familjer.
Bör kunna skrivas ut i listform eller som GEDCOM fil med lösa individer, som man sen skriver in eller "kopplar" in i sitt data. Oftast inga stora volymer.

Frågan om personer och relationer som inte är gemensamma känns lite för yvig. Då kan lika väl sluta att släktforska och bara ägna sig åt att kopiera fram sitt släktdata.

Så man måste nog nyansera frågan till "Vad har du för familjer, som ansluter till våra gemensamma familjer/släkter?"
Här borde väl en GEDCOM fil vara en bra lösning.

Du skriver "för att därifrån kunna exporteras till GEDCOM". Borde då inte GEDCOM formatet vara bäst redan från början?
En GEDCOM fil är ju inte direkt redigeringsvänlig, men den saken kan man hantera i sitt släktforskningsprogram.

Är man tveksam över att ta in det direkt i sitt släktforskningsprogram, kanske man kan använda sig av något presentationsprogram för GEDCOM filer.
Bör ett sånt presentationsprogram för GEDCOM filer skapas inom RGD? Eller finns tillräckligt bra och billiga program redan tillgängliga?

BrJohan

2014-08-18, 19:51

Jag behöver måhända motivera och utveckla mitt resonemang:

Första passet i en jämförelse mellan två (eller flera) GEDCOM-filer söker efter familjer och/eller personer som förekommer i båda (samtliga).

Utgående från dessa gemensamma familjer eller personer behöver man sedan söka efter familjer/personer som inte förekommer gemensamt men som har släktrelationer till de gemensamt förekommande.

Därutöver kan man förmodas kunna finna detaljuppgifter om de gemensamt förekommande familjerna/personerna som kan avvika från varandra i någon mån. (Namn kan stavas olika, en av släktforskarna har angett uppgift om begraving som den andre släktforskaren inte har, någon har enbart vigselår medan den andre har precist datum, o.s.v)

Slutresultatet av en sådan - ovan antydd - GEDCOM-filsjämförelse behöver således innehålla uppgifter om:

- Vilka familjer som saknas i någon (några) av de jämförda GEDCOM-filerna och i vilken(/vilka) GEDCOM-fil(er) de finns.

- Vilka personer som saknas i någon (några) av de jämförda GEDCOM-filerna och i vilken(/vilka) GEDCOM-fil(er) de finns.

- vilka detaljuppgiftsskillnader som finns och med hänvisning till familj/person i respektive GEDCOM-fil.

Dessa uppgifter måste sedan givetvis gås igenom 'manuellt' av de inblandade släktforskarna för att verifieras eller korrigeras innan de godtas.

Om jämförelseresultaten - enligt ovan - låter sig skrivas till en GEDCOM 5.x-fil som sedan kan läsas och 'förstås' av någon 'vanlig' släktforskarprogramvara, så tar jag mycket gärna emot info om vilka 'taggar' som bör användas och hur. Min kunskap om GEDCOM 5.x är i så fall inte tillräcklig om än inte obefintlig.

Om GEDCOM 5.x inte - vilket för mig förefaller troligt - kan användas för att innehålla jämförelseskillnadsuppgifterna, så återstår att finna eller konstruera något annat format.

Om GEDCOM 6.0 och GEDCOM X vet jag inte så värst mycket, men mig veterligen kan inte särskilt många av de vanligen använda släktforskarprogramvarorna läsa filer av dessa format.

För att spara jämförelseresultatet och för att låta någon programvara sedan läsa in resultatet för att (söka efter) och visa skillnaderna samt låta en släktforskare redigera innan en reguljär GEDCOM-fil skapas för att sedermera tas in i egen släktforskning, förefaller en ändamålsenlig DTD - tillsammans med motsvarande programvarufunktioner - vara ett enkelt alternativ.

Ovanstående resonemang utgår ifrån de behov jag - och kanske även forumämnesinledaren - har. Jag avstår gärna - och förmodligen visligen - ifrån att bli konkret relaterad med RGD-projektet.

C-J Gustafsson

2014-08-18, 20:45

Hej Bror
Det är var och en fritt att avstå från att bli relaterad med RGD.

Jag skall då också förtydliga att det heller inte finns något RGD att blir relaterad med ännu, men vi är några som hoppas att det skall bli det.
Det är förberedande undersökningar av möjliga tekniska lösningar, som lett fram till ett litet pilotprojekt.
När tekniska lösningar finns, börjar nästa steg med den praktiska hanteringen av resultatet.
Det var det som väckte mitt intresse när denna fråga kom upp här.

Forumämnesinledaren, Runar Hortlund har redan ett verktyg, Dubbelgångaren, men har kanske samma problem med hur man effektivast presenterar resultatet.

En GEDCOM fil är lämplig för att överföra nya individer och relationer till en släktforskningsdatabas. Taggarna bör i så fall bli de som finns i den jämförda GEDCOM filen.
Men inte till att visa gemensamma individer och relationer.
Inte heller att komplettera data till befintliga individer och relationer.

Att visuellt visa gemensamma data och skillnader i data finns i test form, men det borde gå att göra informationen mer praktiskt hanterbar.

m06015

2014-08-19, 17:52

Att det blir ett stort antal kandidater som saknas i den ena databasen är inget hinder. Sortering på födelseplats gör att det som är intressant lätt går att hitta. I min databas har 88% personer födelseplats och jag tror att det är ganska normalt. Förutsättningen i mitt första inlägg var ju att databasen från två personer som forskar i samma geografiska område ska jämföras. Det är heller inte någon risk för kopiering då födelsenotisen söks upp för varje person för att föräldrarna ska identifieras. Alla barn som hittas och kan få sin plats i familjen är ju en framgång.

tommypeters

2014-08-20, 17:06

Jag tycker det här är ett rätt intressant shareware-program som både letar fel i GEDCOM-filer men också presenterar GEDCOM-data: http://www.genealogicagrafica.nl/

C-J Gustafsson

2014-08-25, 17:16

Jag har tittat lite ytligt på Gedcom Service Program (GSP) och tycker det verkar komplett med mycket funktioner.
http://ofb.hesmer.name/gedserpro_d.html
Mycket komplett och kanske lite knepigare att hantera. Det är heller inget gratisprogram, men har en blygsam kostnad.

Någon som har praktisk erfarenhet av detta program eller det program Tommy angett här ovanför?

tommypeters

2014-08-25, 17:34

Jag har själv använt Genelogica Grafica, men då inte för att leta efter dubbletter utan efter felaktigheter i GEDCOM-filen samt för att få GEDCOM-filen från ett släktforskningsprogram att fungera i ett annat.

C-J Gustafsson

2014-08-25, 20:05

Hej Tommy

Nu har jag laddat hem Genelogica Grafica för att titta lite närmare på det och det verkar lättanvänt och har en ganska detaljerad svensk dokumentation.

Huvudfunktionerna i programmet är presentation av data från GEDCOM fil och felkontroller av GEDCOM fil.

Framför allt var det presentationen jag var nyfiken på, att få en överskådlig bild av vad GEDCOM filen innehåller.
Samtidigt är det tacksamt att få den kvalitetsgranskad, man vill ju inte riskera att få in felaktigt data i sin forskning.

Dessa grundfunktioner är gratis men programmet har tydligen fler funktioner, då som shareware.

För dom som använder GeneWeb kan det finnas mer funktioner att utnyttja.

Rolf Carlsson

2014-08-27, 15:56

Den ursprungliga frågan var om det finns något program på marknaden som kan jämföra två Gedcom-filer för att identifiera individer i en och samma familjebild som bara finns i en av filerna. Vissa förslag har kommit upp, som jag inte närmare kommenterar. Carl-Johan (Kalle) har indikerat att denna typ av jämförelser ingår som en funktion i RGD-projektet.

Men först: det är inte helt enkelt att identifiera individerna (exempelvis olika namnstavningar) och andra inte helt identiska uppgifter och dessutom samla familjebilder från respektive fil.

Vidare finns det ett större antal jämförelseaspekter att ta hänsyn till.

Vad beträffar RGD och den utvärdering vi gjort av prototypen (ca 50.000 individer och 10.000 "överlappningar") är att vi vid den s k Matchningen - jämförelsen på familjenivå av individerna i en indatafil med den aktuella databasen - upptäcker en rad avvikelser, som ofta faller igenom vid jämförelser enbart på individnivå.
Exempel på avvikelser:
- Relationsfel - fel partner, barn i fel familj
- "Dolda" dubbletter - en forskare har registrerat syskons föräldrar dubbelt, men uppgifterna är så rudimentära att de inte faller ut i dubblettkontroller
- Barn som finns i den ena familjebilden och inte i den andra (ursprungsfrågan)
- Namnförväxlingar - Albin/Algot, Eva/Emma
- Namnkompletteringar - exempelvis ytterligare efternamn som brukats av individen under sin levnad
- Datumavvikelser
- Ortsavvikelser

Eftersom det även ligger ett omfattande valideringsarbete innan det är möjligt göra själva Matchningsjämförelsen, måste man fråga sig, om det verkligen finns sådana genvägar, som att jämföra två Gedcom-filer med varandra.

Inom RGD-projektet anser vi att vi med utvärderingen av den s k Prototypen antingen har fått svar på de flesta frågor kring problematiken med jämförelse av två forskningar (i detta fall databasen med en tillkommande forskares indatafil) eller fått indikationer på hur frågeställningarna skall kunna lösas.

Jag vill också i detta sammanhang påpeka att RGD - Sammanslagen släktforskning - har två huvudsyften dels att skapa ett referensregister över Sveriges historiska befolkning och dels och inte minst ge föreningens medlemmar möjlighet att jämföra sin forskning ned till "minsta detalj" med de uppgifter som finns i Databasen.

m06015

2014-08-28, 10:21

Ni gör frågan mer komplicerad än den behöver vara.
Om jag får en lista på att den ena databasen saknar:
Nils Johan Aronsson född 1854-09-17 i Sikfors, Piteå landsförsamling.
Då kan jag i födelseboken se vad hans föräldrar heter och bearbeta frågan vidare.
Alla så här enkla åtgärder förbättrar bådas databaser. Är uppgifterna osäkra eller knapphändiga så hoppar man över till nästa.