Håller på och förbereder mitt data inför DISBYT-inskick och medan jag hittills gjort rättningarna i grunddatat i Ancestry/FTM så är det några saker som jag tycker att jag just nu kan nöja mig med att fixa till i den exporterade GEDCOM-filen, om jag kan göra det med ett script (så det är snabbt och enkelt att köra om det när man exporterar ut en ny GEDCOM).
Jag har jobbat med regular expressions, mest under Unix, för många år sedan men är rostig nu - det känner jag... Laddade ner gratisprogrammet Textcrawler för att göra ändringar i GEDCOM-filen.
Det jag vill fixa till nu är daturmintervall.
Ancestry godkänner ju mycket mer än vad som anses vara god GEDCOM-standard. Det här är exempel på hur det kan se ut på GEDCOM-rader från Ancestry:
2 DATE Bet 1979-1986
2 DATE 11 Jan 1958
2 DATE 1980
2 DATE 1980-1994
2 DATE 14 Nov 1979
2 DATE Bet 1958-1979
2 DATE 1994-
2 DATE Bet Jan 1997-Jun 2006
2 DATE Bet 1979 - 1989
2 DATE Bet 1979 - 1989
2 DATE Bet. 1979 - 1989
2 DATE Bet 26 Jun 1856-26 Jun 1876
2 DATE Bet 1795-12 Oct 1821
Jag vill ju att rader som "2 DATE 1980-1994" ska bli "2 DATE BET 1980 AND 1994",
att "2 DATE Bet. 1979 - 1989" ska bli "2 DATE BET 1979 AND 1989" osv.
Jag började leka lite med någon matchningssträng: DATE Bet[ \.][a-zA-ZåäöÅÄÖ ]*[0-9]+[ ]*(–)|(-)[ ]*
men märkte snabbt att Textcrawlers RE-hjälp och Microsofts RE-översikt är dåliga på exempel och jag har bland annat svårt att få gruppering att fungera korrekt. Jag ska ju stoppe in ett BET om det inte redan finns och byta ut "-" mot "AND" men bara om det finns någon form av datum både före och efter "-".