Resultat 1 till 8 av 8

Ämne: DISBYT-utdragens utformning

  1. #1

    Lennart Elg
    Medlemsnr
    19644
    Ort
    Åkersberga
    Inlägg
    2

    DISBYT-utdragens utformning

    Med 34.1 miljoner registreringar börjar DISBYT-utdragen bli rätt omfattande. Jag fick just tillbaka en rapport på 230 sidor..

    För mig är det naturliga sättet att hantera en sådan mängd att importera utdraget till ett Excel-ark, eller i mitt fall en enkel FileMaker-databas. Inte så lätt eftersom textfilen blandar DISBYT-poster med kontaktuppgifter till uppgiftslämnarna.

    Uppgiften skulle bli betydligt enklare om DISBYT-utdraget innehöll alla funna poster i en lista och kontaktuppgifterna i en separat lista.

    Med vänlig hälsning
    Lennart Elg

  2. #2

    Janåke Gestblom
    Medlemsnr
    36899
    Ort
    Stockholm
    Inlägg
    149
    Antar att du menar de listor man får tillbaks efter att skickat in ett bidrag till Disbyt (A, B och C).
    I nästa version av Disbyt har vi för avsikt att ändra på på dessa listor, både till innehåll och presentationsformat t.ex. som en csv-fil.
    Ordet Disbyt-utdrag används av Disgen för ett alternativ till Gedcom-fil.

  3. #3

    Lennart Elg
    Medlemsnr
    19644
    Ort
    Åkersberga
    Inlägg
    2
    Låter bra, precis vad jag önskat mig ;^)

  4. #4
    När man läser svarsfilerna för DISPYT blir man rätt irriterad att man använder old-fashioned 8bits character för Svenska tecken åäö. Det vore bättre att använda UTF-8. I alla fall för de som har UTF-8 i gedcom filen. ( 0 HEAD, 1 CHAR UTF-8).

    Note: Historien säger att på 80-talet fanns bara 8bits character. Det var på PC och MS dos tiden, så då var valet enkelt.

  5. #5
    AlfChrs avatar
    Alf Christophersen
    Medlemsnr
    919
    Ort
    Songe
    Inlägg
    479
    Bedre å bruke 8-bits tegn enn ASCII (som er kun 7-bits og nordiske tegn erstattes med '{', '|', '}', '[', '\' og '}'

    Men det var kanskje nettopp 7bits du tenkte på?

    UTF-8 er også 8-bits tegn, men med mulighet for å kombinere inntil 3 bytes til å representere ett tegn til programmørers store fortvilelse)
    Alf Christophersen Disgen fadder Norge.

  6. #6
    Citat Ursprungligen postat av AlfChr Visa inlägg
    Bedre å bruke 8-bits tegn enn ASCII (som er kun 7-bits og nordiske tegn erstattes med '{', '|', '}', '[', '\' og '}'
    Det är just detta som jag inte vill ha. Du har då bara drygt 200 tecken till förfogande. Alla Väst-Europeska tecken finns med (inte tex ŠšČč )men inte Asiatiska
    Men det finns två olika 8 bits uppsättningar. ISO/IEC 8859-15 och Windows CP 1252.

    Citat Ursprungligen postat av AlfChr
    Men det var kanskje nettopp 7bits du tenkte på?
    7bits ASCII är de 128 första tecknen i UTF-8 så det blir ju rätt.

    Citat Ursprungligen postat av AlfChr
    UTF-8 er også 8-bits tegn, men med mulighet for å kombinere inntil 3 bytes til å representere ett tegn til programmørers store fortvilelse)
    Tecken i UTF-8 varierar i längd, 1–4 byte. (Men normalt 1 eller 2 byte).


    UTF-8 startade c:a 1993. och har vunnit populartet de senaste åren. Se grafen

    UnicodeGrow2b.jpg

    Varför detta ? Dispyt skall komma ut med en ny version under 2016 har jag hört. Mitt förslag är att man använder samma kodning som man har i sin inskickade GEDCOM fil. Har man inte utf-8 i sin gedcomfil blir det inget problem.

    Om inte utf-8 används så ser första raden i Axxxx.TXT filen ut som nedan för mig

    Resultat av DISBYT-s<F6>kning med s<F6>kfil f<F6>r medlem 49812 utf<F6>rd 2016-01-11

    Jag trodde i min enfald att åäö problematiken skulle vara historia.

  7. #7
    AlfChrs avatar
    Alf Christophersen
    Medlemsnr
    919
    Ort
    Songe
    Inlägg
    479
    Det vil nok fortsatt dukke opp rariteter ang. tegnsett.

    Årsaken er at da folk gikk over fra Windows 3.1 tli Windows 95 så var mange maskiner satt opp med feil Codepage med resultat at ved konvertering av databaser fikk man feilaktige konverteringer mellom Codepage 865 og 850 til ANSI

    ø i 865 kunne da bli tegnet ¢ og Ø bli til tegnet ¥ som et eksempel-

    Også ved import av Mac-tiler som Windows har trodd er Mac-tegnsett, men i virkeligheten var konvertert av Mac ga µ i stedet for å om jeg husker korrekt.

    Om man ønsker å teste for slike sære tegn kan man kjøre en Gedcom-fil i GEDtreff og se om det dukker opp en fil dbS<medlemsnr>_<xxx>yen.txt (husker ikke helt konkret navnet) men det er en test på hvilken steder i filen sære tegn finnes.
    Alf Christophersen Disgen fadder Norge.

  8. #8
    Christers avatar
    Christer Gustavsson
    Medlemsnr
    4621
    Ort
    Linköping
    Inlägg
    1 866
    Lennart, sökning och presentation på webben planerar vi att få färdigt under 2016. Men försteget där bidraget kvalitetsgranskas och matchas mot databasen tror jag kommer att dröja lite till. Det är där vi skapar matchningsresultaten och underlaget för återrapportering till forskaren.
    Christer Gustavsson - Dis verksamhetsledare emeritus

Behörigheter för att posta

  • Du får inte posta nya ämnen
  • Du får inte posta svar
  • Du får inte posta bifogade filer
  • Du får inte redigera dina inlägg
  •