handdator

Visa fullständig version : Snitt av två GedCom-filer ?



BrJohan
2013-09-01, 22:51
Känner någon forumkamrat till om det finns någon programvara (för Linux eller Windows) som kan läsa in två GedCom-filer och därefter producera en lista över de individer som tycks finnas representerade i båda dessa filer?

I så fall, vilken är denna programvara - och var kan den köpas/hämtas?

tommypeters
2013-09-02, 00:57
Den uppgiften har ju samma problem som en dubblettkontroll i en enskild fil har, hur nära ska uppgifterna för två personer överensstämma för att de ska anses vara samma person?

Det här programmet sägs göra vad du vill: http://www.brothersoft.com/gedsmart-20681.html men jag vet inte ens om nerladdningssajten är OK...

Det här är ett annat program jag inte heller prövat: http://www.mudcreeksoftware.com/genmatcher.htm

C-J Gustafsson
2013-09-02, 08:32
Bror
Programmet Dubbelgångaren är utmärkt till just detta ändamål, att hitta gemensamma individer. Funktionen är en dubblettkontroll, som Tommy nämner. Därför erhålls inte någon helt säker jämförelse, utan jämförelsen visar "kandidater" som kan vara gemensamma.
Givetvis kan programmet också användas för dubblettkontroll av den egna GEDCOM filen. Programmet har även en praktisk funktion för att hitta personer med fel kön.
Kontakta Runar Hortlund, runar.hortlund@telia.com
Programmet erhålls gratis.

dis49324
2013-09-02, 08:56
Hej,
Det är ett delproblem i RGD (se den tråden). Hur svårt det är beror på kvaliten och omfattningen hos dina GedCom-filer. Inom RGD har vi en bra kvalitetskontroll innan vi prövar att matcha individer och familjer mellan data från två ställen. Kvalitetskontrollen omfattar bl.a. sådant som normalisering av GedCom-filerna (teckensätt, namn, och platser). Själva matchningen använder flera olika likhetsmått mellan individer, inkluderande familjerelationer.

BrJohan
2013-09-02, 09:21
Hej Runar.

Jag använder och uppskattar ditt program Dubbelgångaren 2, men har inte uppfattat hur man kan använda det för att hitta de individer som tycks finnas representerade i båda av två olika GedComfiler.

Hur åstadkommer man detta?

C-J Gustafsson
2013-09-02, 09:32
Det kanske går bra att jag svarar eftersom jag kom med förslaget.
Utdrag ur instruktionerna för Dubbelgångaren:
Sökning av gemensamma personer:
Om man samarbetar med andra släktforskare, kan det vara bra att enkelt kunna hitta personer som
är gemensamma. Då utbyter man GEDCOM filer med varandra och använder Dubbelgångaren
till att analysera gemensamma personer.
Nu kan det vara lämpligt att börja från början och klicka på symbolen för New uppe till vänster.
Sen klickar man på Mapp symbolen och läser in sin egen GEDCOM fil.
Därefter klickar man igen på Mapp symbolen och väljer ut den GEDCOM fil man vill jämföra
mot.
Det är möjligt att upprepa detta med flera filer, men mest praktiskt är att jämföra dem två och två.
Klicka på Added files, så visas inlästa GEDCOM filer, som också har tilldelats ett nummer.
Gemensamma personer söker man på samma sätt, som man söker dubbletter i normala fall.
Kolumnen Source visas det nummer, som motsvarar den källa, personen hämtats från.

BrJohan
2013-09-02, 09:45
Hej Tommy.

Tack för de - i varje fall synbarligen - utmärkta tipsen. Jag har hämtat (prov-)versioner av båda programvarorna och tänker mig att sätta dem på prov inom snar framtid.

Manualen till GenMatcher informerar om att man kan konfigurera namnmatchningen till att använda Soundex - som ett av flera alternativ. Vet du - eller någon annan som läser detta - hur bra eller dåligt US-engelsk Soundex fungerar för svenska namn?

tommypeters
2013-09-02, 10:56
Jag har använt Dubbelgångaren för att hitta dubbletter i min egen GEDCOM-fil och tycker att dess styrka framförallt är att den inte ger en massa falska dubbletter som t.ex. inbyggda funktionen i Family Tree Maker gör, FTM ger en oöverskådlig mängd data och man kan lika gärna ge upp direkt. Men jag har inte sett att programmet också kan jämföra två GEDCOM-filer, men chansen är nog att det kan vara minst lika bra som de jag gav länkar till.

m06015
2013-09-03, 09:14
Det är viktigt att båda gedcomfilerna som ska jämföras först är rensade från dubbletter. Därefter läser man in båda filerna i programmet.
Kandidater visas sedan separerade med nummer 1 för personer i först inlästa fil och nummer 2 för nästa fil.
Men Dubbelgångarens styrka är att den använder algoritmen Lewenstein som i vårt fall tillåter upp till 2 bokstävers skillnad i namnen.
För att söka personer där datum saknas finns en flik couples. Där jämförs gifta par med exakt stavning. Det ger 2 förnamn och 2 efternamn som ska vara identiska för att ge kandidater.
Men Dubbelgångaren ges så mycket mer.
Sortering sker med den vänstra kolumnen. I normalfall med kolumnen Born. Om man scrollar ner till den sista raden som saknar datum och markerar den så får man längst ned radnummer. Det talar om hur många personer i Gedcomfilen som saknar tidsangivelse för födsel.
Flyttar man kolumnen för död längst till vänster ger det motsvaranse uppgift. OSV