handdator

Visa fullständig version : DISBYT-utdragens utformning



lenelg
2016-02-07, 17:17
Med 34.1 miljoner registreringar börjar DISBYT-utdragen bli rätt omfattande. Jag fick just tillbaka en rapport på 230 sidor..

För mig är det naturliga sättet att hantera en sådan mängd att importera utdraget till ett Excel-ark, eller i mitt fall en enkel FileMaker-databas. Inte så lätt eftersom textfilen blandar DISBYT-poster med kontaktuppgifter till uppgiftslämnarna.

Uppgiften skulle bli betydligt enklare om DISBYT-utdraget innehöll alla funna poster i en lista och kontaktuppgifterna i en separat lista.

Med vänlig hälsning
Lennart Elg

Gestblom
2016-02-07, 20:08
Antar att du menar de listor man får tillbaks efter att skickat in ett bidrag till Disbyt (A, B och C).
I nästa version av Disbyt har vi för avsikt att ändra på på dessa listor, både till innehåll och presentationsformat t.ex. som en csv-fil.
Ordet Disbyt-utdrag används av Disgen för ett alternativ till Gedcom-fil.

lenelg
2016-02-07, 20:29
Låter bra, precis vad jag önskat mig ;^)

penguinfriend
2016-02-12, 19:42
När man läser svarsfilerna för DISPYT blir man rätt irriterad att man använder old-fashioned 8bits character för Svenska tecken åäö. Det vore bättre att använda UTF-8. I alla fall för de som har UTF-8 i gedcom filen. ( 0 HEAD, 1 CHAR UTF-8).

Note: Historien säger att på 80-talet fanns bara 8bits character. Det var på PC och MS dos tiden, så då var valet enkelt.

AlfChr
2016-02-13, 15:12
Bedre å bruke 8-bits tegn enn ASCII (som er kun 7-bits og nordiske tegn erstattes med '{', '|', '}', '[', '\' og '}'

Men det var kanskje nettopp 7bits du tenkte på?

UTF-8 er også 8-bits tegn, men med mulighet for å kombinere inntil 3 bytes til å representere ett tegn til programmørers store fortvilelse)

penguinfriend
2016-02-13, 16:37
Bedre å bruke 8-bits tegn enn ASCII (som er kun 7-bits og nordiske tegn erstattes med '{', '|', '}', '[', '\' og '}'

Det är just detta som jag inte vill ha. Du har då bara drygt 200 tecken till förfogande. Alla Väst-Europeska tecken finns med (inte tex ŠšČč )men inte Asiatiska
Men det finns två olika 8 bits uppsättningar. ISO/IEC 8859-15 och Windows CP 1252.


Men det var kanskje nettopp 7bits du tenkte på?

7bits ASCII är de 128 första tecknen i UTF-8 så det blir ju rätt.


UTF-8 er også 8-bits tegn, men med mulighet for å kombinere inntil 3 bytes til å representere ett tegn til programmørers store fortvilelse)

Tecken i UTF-8 varierar i längd, 1–4 byte. (Men normalt 1 eller 2 byte).


UTF-8 startade c:a 1993. och har vunnit populartet de senaste åren. Se grafen

936

Varför detta ? Dispyt skall komma ut med en ny version under 2016 har jag hört. Mitt förslag är att man använder samma kodning som man har i sin inskickade GEDCOM fil. Har man inte utf-8 i sin gedcomfil blir det inget problem.

Om inte utf-8 används så ser första raden i Axxxx.TXT filen ut som nedan för mig

Resultat av DISBYT-s<F6>kning med s<F6>kfil f<F6>r medlem 49812 utf<F6>rd 2016-01-11

Jag trodde i min enfald att åäö problematiken skulle vara historia.

AlfChr
2016-02-13, 18:39
Det vil nok fortsatt dukke opp rariteter ang. tegnsett.

Årsaken er at da folk gikk over fra Windows 3.1 tli Windows 95 så var mange maskiner satt opp med feil Codepage med resultat at ved konvertering av databaser fikk man feilaktige konverteringer mellom Codepage 865 og 850 til ANSI

ø i 865 kunne da bli tegnet ¢ og Ø bli til tegnet ¥ som et eksempel-

Også ved import av Mac-tiler som Windows har trodd er Mac-tegnsett, men i virkeligheten var konvertert av Mac ga µ i stedet for å om jeg husker korrekt.

Om man ønsker å teste for slike sære tegn kan man kjøre en Gedcom-fil i GEDtreff og se om det dukker opp en fil dbS<medlemsnr>_<xxx>yen.txt (husker ikke helt konkret navnet) men det er en test på hvilken steder i filen sære tegn finnes.

Christer
2016-02-15, 09:14
Lennart, sökning och presentation på webben planerar vi att få färdigt under 2016. Men försteget där bidraget kvalitetsgranskas och matchas mot databasen tror jag kommer att dröja lite till. Det är där vi skapar matchningsresultaten och underlaget för återrapportering till forskaren.