Antworten

Bogue lors de l'importation d'un fichier GEDCOM, des noms de famille perdus

Pour les utilisateurs du logiciel Gramps.
seandaly
seandaly
Beiträge: 21
Eingabeform: Grafisch
Navigation: Grafisch
Den Stammbaum ansehen
Il y a peut-être une bogue dans Gramps v4.2.5 lors de l'export d'un fichier GEDCOM qui malheureusement fait corrompre l'importation côté Geneanet.

Lors de l'utilisation de un ou plusieurs forward slash dans un prénom, cette ancienne version de Gramps garde le(s) forward slash dans le texte sans y toucher. Ensuite, le GED validator chez Geneanet parse les premiers deux forward slash trouvés dans le champ NAME comme étant des séparateurs ; les noms de famille sont tronqués et ces enregistrements sont corrompus, puisqu'une partie du prénom est stocké comme le nom de famille.

Pourquoi utiliser des forward slash dans une chaine de caractères pour un prénom ? J'y mets les noms familiers, très souvent présents dans les documents officiels irlandais et américains. Exemple :

NAME Johanna (Hannah/Hanorah) /DALY/
NAME Hanorah Norah/Anna/Hannah/Johanna) /SULLIVAN/

J'ai corrigé à la main ma trentaine d'enregistrements endommagés, mais pour éviter que cela se reproduise, on pourra :

1) Vérifier si le forward slash (UTF-8 0x2F) est un caractère légal dans les champs GIVN, NAME. J'ai relu les normes GEDCOM 5.5.1 et 5.5.5 et il semblerai que ce n'est pas le cas. Cependant, quand j'ai soumis mon fichier GED au validateur GED-inline de Nigel Munro Parker (un participant dans la norme 5.5.5), la présence des slash dans les champs GIVN et NAME n'ont pas été signalés comme erreurs. Je vais prendre contact avec Tamura Jones à ce sujet.

2) Se renseigner auprès de Gramps. Avant cela je vais mettre à jour mon installation vers la v5.1.3. Il semblerai que Gramps exporte en GEDCOM v5.5.1. Ça se peut que le plus simple sera de mettre un autre caractère ou chaîne dans le champ prénom sur Gramps, e.g. " or " (= " ou ") ou virgule, ou point-virgule

3) Rendre l'importation plus robuste chez Geneanet. Au niveau programmation, la solution est simple, pour le nom de famille il suffit d'extraire uniquement la chaîne délimité par les dernières deux occurrences du slash, le reste (prénom) sera considéré comme du texte brut

4) En attendant, il suffira de remplacer les slash dans les prénoms dans le fichier GED, avec sed, awk, perl, python, ou bash. Ou bien editer manuellement les champs s'il n'y a que quelques-uns.
Sean D.
--------------------------
Frequently Asked Questions: FAQ
Read the Genealogy Blog
Stay up-to-date with news about the site: newsletter
seandaly
seandaly
Beiträge: 21
Eingabeform: Grafisch
Navigation: Grafisch
Den Stammbaum ansehen
On m'a fait la remarque qu'un nom de famille dans une ligne NAME peut se trouver n'importe où dans la ligne ; par exemple, en Asie, la ligne pourra commencer par le nom de famille. Il suffit que le nom se trouve entre deux forward slashs. Du coup, il faudra soit protéger un slash texte (si cela est possible, par exemple @#/@ à essayer), soit faire remplacer les slashs par autres chose du côté de Gramps.
Sean D.
--------------------------
Frequently Asked Questions: FAQ
Read the Genealogy Blog
Stay up-to-date with news about the site: newsletter
thetienne
thetienne
Beiträge: 2010
Eingabeform: Text
Navigation: Text
Den Stammbaum ansehen
Bonjour,
seandaly hat geschrieben: 24 März 2021, 21:07 ... utiliser des forward slash dans une chaine de caractères pour un prénom ? J'y mets les noms familiers, très souvent présents dans les documents officiels irlandais et américains. Exemple :

NAME Johanna (Hannah/Hanorah) /DALY/
NAME Hanorah Norah/Anna/Hannah/Johanna) /SULLIVAN/
Bonjour,
C'est interdit par la norme gedcom
NAME_TEXT:= {Size=1:120}
<TEXT> excluding commas, numbers, special characters not considered diacritics.
Il est vrai que la norme gedcom aurait pu définir une grammaire dédiée aux champs des noms mais c'est non ambiguë dans le texte des normes 5.5.x. Le / (entre autres) est un caractère spécial exclus des noms et prénoms.

La plupart des logiciels interdisent la saisie du /. Pour faire des variantes de nom/prénoms il faut soit mettre des structures NAME multiples soit séparer les noms/prénoms par des virgules dans le gedcom. Il n'y a aucune ambiguïté sur ce point (*)

Donc votre base est à corriger et le bug est à signaler à Gramps (interdire tout caractère spécial dans les prénoms comme il le fait dans le nom en remplaçant le / par un ? dans le gedcom -- par exemple -- ). Le traitement de Gramps n'est pas cohérent entre noms et prénoms (également en version 5.x)
seandaly hat geschrieben: 24 März 2021, 21:07 3) Rendre l'importation plus robuste chez Geneanet. Au niveau programmation, la solution est simple, pour le nom de famille il suffit d'extraire uniquement la chaîne délimité par les dernières deux occurrences du slash, le reste (prénom) sera considéré comme du texte brut
Ce serait un "durcissement" de la routine de décodage geneweb à faire mais cela ne marcherait que pour le prénoms. Si un logiciel mettait un / dans les noms ça ne marcherait pas (cas des logiciels sans sous-structuration GIVN/SURN). Donc ce n'est pas viable

Thierry
@moderateurs : à déplacer dans forum gramps svp
(*) Extrait norme Gedcom
Multiple Names:
GEDCOM 5.x requires listing different names in different NAME structures, with the preferred instance first, followed by less preferred names. However, Personal Ancestral File and other products that only handle one name may use only the last instance of a name from a GEDCOM transmission. This causes the preferred name to be dropped when more than one name is present. The same thing often happens with other multiple-instance tags when only one instance was expected by the receiving system.
....
NAME {NAME}:=
A word or combination of words used to help identify an individual, title, or other item. More than one NAME line should be used for people who were known by multiple names.
et
NAME_PIECE_GIVEN:= {Size=1:120}
[ <NAME_PIECE> | <NAME_PIECE_GIVEN>, <NAME_PIECE> ]
Given name or earned name. Different given names are separated by a comma.
NAME_PIECE_SURNAME:= {Size=1:120}
[ <NAME_PIECE> | <NAME_PIECE_SURNAME>, <NAME_PIECE> ]
Surname or family name. Different surnames are separated by a comma.
A noter que vous faite référence à la
seandaly hat geschrieben: 24 März 2021, 21:07 ... la norme 5.5.5
Ce n'est pas une norme reconnue. Elle viole le copyright de la norme gedcom.
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
jlm
male
Administrateur
Beiträge: 3467
Bonjour Sean,

Il semble donc qu'il faut à priori que Gramps corrige pour interdire les "/" dans les prénoms.

Dans votre cas, le mieux est de remplacer les "/" par des ","

Bien cordialement,

Jacques
Geneanet
seandaly
seandaly
Beiträge: 21
Eingabeform: Grafisch
Navigation: Grafisch
Den Stammbaum ansehen
Merci pour vos réponses, c'est bien plus clair maintenant, je vais me renseigner côté Gramps.

Je ne suis pas d'accord avec cette position:

[le 5.5.5] n'est pas une norme reconnue. Elle viole le copyright de la norme gedcom.

C'est reconnu par MyHeritage et d'autres, vu que FamilySearch a laissé à l'abandon la norme 5.5 pendant 19 ans. Et le copyright de la 5.5.1 est clair, la copie est possible pour des buts de revue ou programmation, à condition que leur notice du copyright soit incluse, c'est le cas.

C'est tout le problème d'une norme publié par une société, mais jamais soumis à l'ISO, l'ANSI, l'AFNOR, etc. ; les problèmes doivent être résolus et non pas laissés en "draft" pendant deux décennies d'utilisation en production. Le but de la 5.5.5 est de rendre l'échange de données plus fiable. Sur le plan pratique, bien entendu les logiciels et les sites peuvent rester avec la 5.5.1. Mais rendre les échanges de données plus fiables est la bonne approche et je vois mal FamilySearch attaquer en justice un concurrent qui souhaite améliorer la fiabilité des données.

C'est dommage qu'une mise à jour à la base du XML ne soit pas une norme. J'ai vu qu'il y avait des projets sans aboutissement.
Sean D.
--------------------------
Frequently Asked Questions: FAQ
Read the Genealogy Blog
Stay up-to-date with news about the site: newsletter
forhanp
forhanp
Beiträge: 13904
Eingabeform: Text
Navigation: Text
Den Stammbaum ansehen
Bonjour,
seandaly hat geschrieben: 25 März 2021, 16:37 Je ne suis pas d'accord avec cette position:

[le 5.5.5] n'est pas une norme reconnue. Elle viole le copyright de la norme gedcom.

C'est reconnu par MyHeritage et d'autres, vu que FamilySearch a laissé à l'abandon la norme 5.5 pendant 19 ans. Et le copyright de la 5.5.1 est clair, la copie est possible pour des buts de revue ou programmation, à condition que leur notice du copyright soit incluse, c'est le cas.
C'est très discutable.
Comme indiqué dans la présentation de la norme 5.5.5, celle-ci est un fichier 5.5.1 valide.
De ce fait, si le lecteur de GEDCOM n'est pas très regardant sur le numéro de version, il peut parfaitement intégrer le fichier.

L'absence de mise à jour ne valide pas un abandon.
La version 5.5.5 n'a pas été publiée en draft pour relecture, mais directement en tant que version définitive sans visiblement avoir pris date avec les Mormons.
De ce fait, cette version est très discutable comme concept de norme et comme respect du copyright.
seandaly hat geschrieben: 25 März 2021, 16:37 C'est tout le problème d'une norme publié par une société, mais jamais soumis à l'ISO, l'ANSI, l'AFNOR, etc. ; les problèmes doivent être résolus et non pas laissés en "draft" pendant deux décennies d'utilisation en production. Le but de la 5.5.5 est de rendre l'échange de données plus fiable. Sur le plan pratique, bien entendu les logiciels et les sites peuvent rester avec la 5.5.1. Mais rendre les échanges de données plus fiables est la bonne approche et je vois mal FamilySearch attaquer en justice un concurrent qui souhaite améliorer la fiabilité des données.
Personne n'a obligé qui que ce soit à utiliser le GEDCOM comme mode de communication.
Geneweb a son format, Gramps a un format XML.
Ils n'ont pas d'obligation à utiliser le GEDCOM. S'ils l'ont fait c'est qu'ils y ont trouvé un intérêt.
Venir reprocher aux Mormons de ne pas avoir finalisé une nouvelle version ou d'avoir laissé les différents logiciels s'emparer d'une version draft est assez malvenu.
En 20 ans c'est devenu un système universel d'échange de fait, mais cela n'a pas été promu comme tel.
La norme était faite pour permettre à des logiciels de transférer des informations aux Mormons et c'est le seul propos de la norme.
Bien sur c'est enrobé par l'universalité, mais l'objectif est de communiquer avec Familysearch, pas de logiciel à logiciel.
seandaly hat geschrieben: 25 März 2021, 16:37 C'est dommage qu'une mise à jour à la base du XML ne soit pas une norme. J'ai vu qu'il y avait des projets sans aboutissement.
Le XML est considéré par tous les développeurs actuels comme dépassé.
Trop lourd, trop de syntaxe supplémentaires pour exprimer un élément simple.
Trop de choix ésotériques entre des attributs et des membres.
Si une technologie de ce style était mise en oeuvre actuellement, ce serait plutôt sur du JSON.

Cordialement,
Pascal Forhan
thetienne
thetienne
Beiträge: 2010
Eingabeform: Text
Navigation: Text
Den Stammbaum ansehen
seandaly hat geschrieben: 25 März 2021, 16:37 Je ne suis pas d'accord avec cette position:
[le 5.5.5] n'est pas une norme reconnue. Elle viole le copyright de la norme gedcom.
C'est reconnu par MyHeritage et d'autres, ...
Bonjour,
Ce n'est pas une position mais un fait
> la 5.5.5 indique en page de garde "Copyright © 2013 - 2019 Tamura Jones. All rights reserved."
> la 5.5.1 indique en page de garde "Copyright © 1987, 1989, 1992, 1993, 1995, 1999, 2019 by The Church of Jesus Christ of Latter-day Saints. This document may be copied for purposes of review or programming of genealogical software, provided this notice is included. All other rights reserved."
la 5.5.5 indique "This publication, The GEDCOM 5.5.5 Specification with Annotations, is published for the purposes of review and programming of genealogical software." mais je ne connais pas de logiciels courants (significatif) générant une entête Gedcom 5.5.5.

je ne plus que plussoyer à 100% au post de Pascal. Je ne vais donc pas le paraphraser.
- Essayez de charger un gedcom 5.5.5 avec "gedcom validator" vous verrez "GEDCOM version '5.5.5 (unofficial)' is not supported" et regarder la liste des relecteurs de la 5.5.5 (page de garde)
- Essayez de faire variez le numéro de version d'un gedcom en mettant n'importe quoi ou en omettant la version (très très souvent le logiciel réussi l'import, il y a peu le logiciel rejetant un gedcom avec une mauvaise version)
- Essayez de demander à MyHeritage (un des principaux partenaires de Familysearch depuis 2013) si ils soutiennent la 5.5.5. Je doute que la réponse soit "nous soutenons la 5.5.5"

A noter qu'il se passe également des choses coté familysearch (préparation d'une norme gedcom 7.0)
cf https://www.geneanet.org/forum/viewtopic.php?f=55945&t=712441&hilit=gedcom+7.0#p1921655
mais rien d'officiel

Cordialement
Thierry
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
seandaly
seandaly
Beiträge: 21
Eingabeform: Grafisch
Navigation: Grafisch
Den Stammbaum ansehen
Oui Pascal, on est peut-être plus proche en point de vue que vous pensez. Je n'ai aucune reproche à faire aux Mormons (je suis souvent visiteur aux FHC), simplement aux dirigeants de FamilySearch au sujet de la norme. La 5.5.5 n'est pas une évolution mais une mise à jour de maintenance, développé par un comité qui a invité la participation de FamilySearch, pour valider un état de fait - la norme "draft" 5.5.1 utilisé en production par les éditeurs de logiciels et les sites généalogiques pendant presque 20 ans. Au sujet de copyright, je ne suis pas un avocat en propriété intellectuelle donc mon point de vue n'a pas d'importance. Cependant j'ai fait des reportages sur le sujet dans le passé dans le contexte de normes (Microsoft, Novell, SCO, les logiciels libres) et j'hésiterai à qualifier d'atteinte au droit d'auteur la publication de la 5.5.5. Après tout, Tamura Jones a parlé sur le sujet avec Steve Rockwood, PDG de FamilySearch, à RootsTech London il y a deux ans ; la 5.5.1 est enfin sorti de son statut "draft" quelques mois après.

Tout à fait d'accord pour le JSON, mais ma remarque était plutôt sur le passé. Il y avait un tas d'outils pour valider et transformer des documents XML il y a 15 ans déjà. Le prix caché de la norme "draft" 5.5.1 toutes ces années est payé par des utilisateurs comme moi qui effectuent des transferts et perdent des données, je suis convaincu qu'une vraie norme ISO auraient simplifié la situation pour tout le monde.

Sean
Sean D.
--------------------------
Frequently Asked Questions: FAQ
Read the Genealogy Blog
Stay up-to-date with news about the site: newsletter
forhanp
forhanp
Beiträge: 13904
Eingabeform: Text
Navigation: Text
Den Stammbaum ansehen
Bonjour,
seandaly hat geschrieben: 25 März 2021, 20:21 Tout à fait d'accord pour le JSON, mais ma remarque était plutôt sur le passé. Il y avait un tas d'outils pour valider et transformer des documents XML il y a 15 ans déjà. Le prix caché de la norme "draft" 5.5.1 toutes ces années est payé par des utilisateurs comme moi qui effectuent des transferts et perdent des données, je suis convaincu qu'une vraie norme ISO auraient simplifié la situation pour tout le monde.
Je pense que vous idéalisez les choses.
Draft ou non (puisqu'elle n'est plus en draft depuis 2019) ne change rien puisque le texte n'a pas varié.
Le GEDCOM a été construit pour les Mormons et par les Mormons. Il manque donc des informations et des possibilités que les Mormons n'envisagent pas.
Typiquement un mariage homosexuel ne fait pas partie de leurs attentes.
La majeure partie des pertes d'un logiciel à l'autre provient du logiciel d'origine pas de la norme.
La norme permet de mettre tout ce qu'on y veut (avec la possibilité d'extension) sauf qu'aucun logiciel ne déclare la liste de ses extensions et dans une grande majorité, pour éviter de chercher si quelque chose existe, le logiciel préfère exporter un tag maison.
Ce qui provoque des pertes.

Rien n’empêchait les éditeurs de logiciels de se regrouper pour faire une norme autre que le GEDCOM.
Ils ont eu 20 ans pour le faire.
Pourquoi on en est encore à discuter du mot "draft" sur un papier ?
On sait très bien qu'un système universel d'échange sans perte serait la meilleure façon de perdre des parts de marché.
Si on peut transférer ses données d'un logiciel à l'autre, il est sur que certains vont perdre de leur superbe.

Je ne pense pas que le tampon ISO assure qu'une norme serait non ambigüe et totalement claire. Elel aurait charrié son lot d'incompréhension.
Et si elle avait dû voir le jour, elle aurait pu être créée depuis longtemps.
Aucun acteur n'en a éprouvé le besoin, je dirais même au contraire.

Cordialement,
Pascal Forhan
edhral
edhral
Beiträge: 71
Bonjour,

Je ne veux pas entrer dans le débat des versions Gedcom, mais j'ai une question en lien avec le problème initial de SeanDaly : j'utilise, moi, non pas le caractère / mais les caractères [ et ]. Usage : pour les personnes dont je ne connais pas le prénom, je mets " [Garçon non dénommé] ", " [Fille non dénommée] ", " [Enfant non dénommé] " (trois variantes pour les enfants morts-nés à qui il n'a pas été attribué de prénom), " [Prénom manquant] " (je n'ai pas encore trouvé le prénom mais ça devrait être possible), " [Prénom inconnu] " (je ne pense pas possible de trouver ce prénom mais la personne en a eu un - pour des géniteurs ayant abandonné leur enfant). Aurai-je un problème à l'export Gramps --> Gedcom (que ce soit Gedcom direct ou "GedcomForGeneanet" ;-) ) ou est-ce que les caractères [ et ] vont passer ?
Si vous me dites que ça ne passera pas, je compte changer les [ et ] en tirets/traits d'union : comme les prénoms composés sont acceptés, je suppose que " -Garçon non dénommé- " passerait. Me le confirmez-vous ?
Merci d'avance de vos conseils.
seandaly
seandaly
Beiträge: 21
Eingabeform: Grafisch
Navigation: Grafisch
Den Stammbaum ansehen
edhral hat geschrieben: 26 März 2021, 08:42 ou est-ce que les caractères [ et ] vont passer ?
Si j'ai bien compris la réponse de Thierry ci-dessus, ces caractères ne respectent pas la norme, les traits d'union non plus.

Ceci dit, lors de mon importation, j'avais plein de parenthèses () comme :

1 NAME (Jean) François Basile /SAUVEY/
...
1 NAME Ellie (Eily) /McMAHON/

les parenthèses ont été importés sans souci.

Quant à GedcomforGeneanet, visiblement son utilisation m'aurait aidé. J'avais cherché un greffon (plugin) avant de faire mon export. Effectivement Geneanet a marié des gens pas mariés. Le seul problème qui me reste est au niveau des lieux, il y a des soucis pour mes petits villages irlandais que je dois résoudre. C'est très difficile de retrouver des villages de naissance des immigrés irlandais aux Etats-Unis et il y a des gros problèmes de noms identiques, c'est donc vital qu'ils soient bien renseignés.

Sean
Sean D.
--------------------------
Frequently Asked Questions: FAQ
Read the Genealogy Blog
Stay up-to-date with news about the site: newsletter
thetienne
thetienne
Beiträge: 2010
Eingabeform: Text
Navigation: Text
Den Stammbaum ansehen
Bonjour,
Outre le respect de la norme, le comportement pour les noms est variable selon les logiciels, avec geneweb seul le / est vraiment a éviter (problème par rapport aux séparateurs noms/prenoms). Les autres caractères imprimables rentrent dans la base (au problème près de certains caractères si import en "ANSI"). Mais pour la recherche dans Geneanet les caractères () [], etc... sont filtrés.

Cordialement
Thierry
Geneweb, Heredis 2024 (Pro), Géneatique 2023 (Prestige)
Windows 10 version 21H2, Windows 11 version 23H2, Debian 10.4 _____________________________________________________________________________
Ne postez pas de messages sur un fil sans rapport direct avec le sujet discuté; Dans ce cas, créez un autre sujet de discussion.
jlm
male
Administrateur
Beiträge: 3467
Bonjour Sean,

Seules les "/" sont problématiques.

Pour ce qui concerne vos problèmes de personnes mariés pourriez-vous remettre le gedcom "brut" et donner des exemples ?

Pour les lieux non reconnus il faudrait les indiquer ici :
https://www.geneanet.org/forum/viewtopic.php?f=24&t=700866

Merci !

Jacques
Geneanet
romjerome
male
Beiträge: 1514
Eingabeform: Grafisch
Navigation: Text
Den Stammbaum ansehen
seandaly hat geschrieben: 24 März 2021, 21:07 Il y a peut-être une bogue dans Gramps v4.2.5 lors de l'export d'un fichier GEDCOM qui malheureusement fait corrompre l'importation côté Geneanet.
Il me semble que dans la branche 5.1.x de Gramps, des "séquences d'échappement" ont été uniformisées.
Je pensais qu'il s'agissait de problèmes spécifiques sous Windows, mais au final, le code est aussi plus consistant
pour nos transferts (importation/exportation). Certaines contributions depuis la version 4.2.5 étaient très "techniques" et orientées "données et systèmes". De mémoire, il y avait quelques bogues avec le "&" et quelques caractères liés aux anciens alphabets "windows". Je ne sais pas si la gestion du "/" dans les noms a été modifiée dans la branche 5.1.x.
À tester !
Antworten

Zurück zu „Gramps“