handdator

Visa fullständig version : RGD - Namnhantering



Rolf Carlsson
2013-02-17, 19:14
I anslutning till utvecklingsarbetet med "Prototypen för RGD" bedrivs ett sidoprojekt beträffande hantering av för- och efternamn. För detta ändamål kommer databaser att skapas för respektive namntyp. Projektgruppen arbetar nu med databasen för förnamn, som kommer att bestå av Grundnamn och ett antal Namn- och stavningsvarianter till detta. Grundstrukturen beräknas vara färdig inom de närmaste veckorna.

Projektgruppen har kommit fram till målsättningen att förnamnen anges med bokstavstrogen stavning enligt födelsenotis (i de fall denna existerar). Detta namn betraktas som det "korrekta" namnet. Inom släktforskning har hittills namn ofta normerats till en modern standardiserad stavning för att förenkla sökningar i den egna databasen. Nackdelen är att standardiseringen i viss mån förvanskar det korrekta namnet. Vid en databas med 15 miljoner eller fler unika individer blir det sannolikt inte något bra resultat att arbeta med normeringar. En del namn kommer att väsentligt avvika från vad de egentligen borde vara. Det är uppenbart att det inledningsvis kommer att vara en blandning av korrekta och normerade namn i databasen. Vi har för avsikt att skapa en enkel och rationell rutin för dessa korrigeringar vad gäller RGD.

Vid sökning på en individs namn i en produkt (RGD, Disbyt eller annan) appliceras sökningen automatiskt på samtliga varianter relaterade till det sökta namnet. Härigenom vill vi reducera användning av s k jokertecken.

Projektgruppen har analyserat databaser med uppbyggda namnstrukturer inklusive Disbyt. En frekvensanalys har gjorts beträffande förekomsten av olika namn i Disbyt. Där finns över 100.000 olika namn inrapporterade, men det största antalet avser lågfrekventa namnvarianter.

Efter det att databasens grundstruktur lagt fast kommer en rådatabas med namn från Disbyt och även andra källor att skapas. I nästa steg skall denna analyseras, bearbetas, korrigeras och kompletteras för att utgöra utgångsunderlag för applikationsanvändning.

Projektgruppen behöver hjälp med detta arbete. Visst vill vi komma i kontakt med medlemmar med erfarenhet av namnhantering men detta är absolut inget krav. Är du intresserad att medverka i Namnhanteringsprojektet ber vi Dig att höra av dig, exempelvis till Projektledaren christer.gustavsson@dis.se

Rolf Carlsson
2013-05-25, 21:23
I föregående inlägg redogjordes för avsikten att inrätta en central namndatabas, som skall kunna användas i föreningens olika produkter. Namndatabasen – arbetsnamn ”Disnamn” – är en förutsättning för utveckling av en prototyp för RGD-projektet. Disnamn består av en del avseende förnamn och en del avseende efternamn.

I Disnamn grupperas relaterade/besläktade namn kring ett gruppnamn, där sökning på en namnvariant ger träff på alla varianter i samma grupp. Avsikten är således inte att normera namnen utan att stödja sökning av exempelvis en individ oavsett hur för- eller efternamnet stavats.

Disnamn skall enbart innehålla egentliga egennamn, varvid andra begrepp, som ofta anges i namnfälten, inte tillåts. Prefix/suffix, som är en integrerad del av namnet exempelvis af, von med flera i adelsnamn liksom begrepp som junior, den äldre och liknande, finns upptagna i två separata tabeller i databasen för att kunna ange ett komplett namn i namnfälten i respektive applikation (exempelvis RGD).

Databasens funktioner för uppdatering och redigering har lagts fast. Vidare har en rådatabas till stor del baserad på de namn som inrapporterats till Disbyt upprättats. Redigeringsarbetet med att gruppera namnen liksom att rensa bort regelrätta felstavningar eller andra begrepp, som inte utgör egennamn, pågår.

Databasen används tills vidare enbart vid bearbetning av indatafiler till liksom vid sökning av dubbletter i den prototyp, som utvecklas för RGD. Ännu ej helt konkretiserade tankegångar finns hur du som medlem skall kunna utnyttja Disnamn. En möjlighet kan vara att upprätta en namnfil ur den egna forskningen och kontrollera denna mot Disnamn. Utöver felstavningar kan en sådan kontroll även ge indikation på eventuella könsfel.

Inledningsvis är det ett rätt omfattande arbete att gruppera och kontrollera de ingående namnen i databasen. Allteftersom databasen fyllts med förekommande namn och stavningsvarianter kommer detta arbete att plana ut.
Projektgruppen behöver ytterligare hjälp i redigeringsarbetet. Är du intresserad att medverka i Namnhanteringsprojektet ber vi Dig att höra av dig, exempelvis till Projektledaren christer.gustavsson@dis.se eller genom inlägg på denna tråd.