André-Jacob ROUBO - Le Forum

Le mieux qu'il est possible.

Vous n'êtes pas identifié(e).

#1 Re : Version actuelle de ROUBO.ART » Normes de reproduction des planches » 07/12/2018 20:02

Bonsoir, j'espère que vous allez bien et que votre projet avance toujours.  De mon côté, j'ai bien progressé avec le mien et j'en suis à compléter la première partie de mon ebook.  Pour cela, j'ai utilisé vos planches mais il me manquait celles 23 à 39.  Je me suis donc attelé à la tâche et cela donne ceci:

https://www.dropbox.com/sh/c7pugssayahq … POP1a?dl=0

Si cela vous intéresse et que vous les jugez dignes d'être utilisées, vous pouvez les prendre et les mettre sur Wikimedia Commons. 

En gros, mon flux de travail est le suivant:

  • Extraction du site de E|rara en format non destructif (tif)

  • Correction de la courbure de la page avec Scan Taylor

  • Centrage de la planche dans un gabarit de 2700x4000 pixels (sans redimensionnement)

  • Conversion en échelle de gris

  • Suppression des ombres de la page (tel que mentionné précédemment et décrit ici: https://moultano.wordpress.com/2013/11/ … d-physics/

  • Suppression de la texture du papier avec l'outil courbe

  • Amélioration de la netteté (léger unsharp mask)

  • Nettoyage manuel de tous les points/poussières indésirables.

  • Passage au mode couleurs indexées 8 bit et sauvegarde en format png

Les planches 34 à 39 seront disponibles sous peu.

Cordialement,

Jean-René

#2 Re : Version actuelle de ROUBO.ART » De l'utilisation du S long (ſ) » 16/09/2018 20:00

Je viens de trouver une autre exception: rouſsâtre.

Un des deux s est long, l'autre est court.

#3 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 04/05/2018 15:08

Selon ton expérience Sébastien, est-ce que c'est Gallica qui a le meilleur OCR?  J'aimerais pouvoir faire quelques statistiques et comparaisons avant de lancer mon OCR sur des milliers de pages. Je regarde le lien que tu m'as envoyé et il y a des choses que Gallica fait très bien:

  • Il y a peu de petites saletés qui sont capturées et reconnus comme des signes de ponctuations (apostrophes, guillemets, virgules).

  • Les mots coupés par des tirets en fin de ligne sont bien reconstitués en un seul pour former des lignes complètes.

  • Très bon taux de reconnaissance sur tous les mots ne contenant aucune ligature.


Les choses qu'il fait moins bien:

  • La reconnaissance des ligatures (je t'ai expliqué pourquoi)

  • Discerner le s long et le f.  Dans les peu de tests que j'ai fait, j'avais 100% de succès avec mon OCR!

  • La reconnaissance des chiffres (leur OCR n'a sans doute pas appris la vieille forme d'écriture avec des chiffres positionnés à différentes hauteurs)

  • Le positionnement de la référence à la planche par rapport au texte.

Pour ma part, je vois que je capture un peu trop de saletés (ou bien je dois trouver comment les nettoyer).  Je dois aussi appliquer plus de logique dans mon code pour mieux positionner tous les blocs de texte (incluant la référence de planche qui devrait être placée en début de paragraphe).  Et je devrais reconstituer les phrases en fusionnant le dernier mot de la ligne et le premier de la suivante. Puis le comparer au dictionnaire pour déterminer si le tiret doit rester ou pas ou si ce même tiret a été lu comme autre chose et doit être enlevé.

Comme tu vois, ce sont de beaux défis.  Je réalise maintenant que je me suis lancé dans un projet de longue haleine.

#4 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 04/05/2018 01:06

Sébastien, tu me sauves la vie ici. J'ai vraiment cherché cette police et tout ce que j'avais trouvé c'était Caslon (cet anglais qui n'a fait que s'approprier le travail de Grandjean). Dommage que Louis XV s’intéressa plus à l'entretien de ses nombreuses maîtresses qu'à celle de la défense de la colonie Nord-Américaine car peut-être qu'aujourd'hui le Romain du Roi serait plus connu...

Faire revivre cette police en version libre est un autre projet auquel je m'attaquerai peut-être un jour...

Grâce à toi, j'ai aussi pu trouver que la police italique Fournier a été crée directement à partir du Romain du Roi.  C'est celle qu'il me faut pour apprendre à Tesseract.

Car vois-tu, il y a deux façons de montrer à ce logiciel comment faire son boulot : lui faire lire des dizaines d'images de pages contenant toutes les lettres du jeu de caractères et corriger chaque caractère mal reconnu ou bien lui passer un simple texte qu'il lira à l'aide de la police à reconnaître. Comme le texte n'est pas une image, aucun caractère n'est à corriger. La deuxième méthode est évidemment beaucoup plus facile. Mais la police utilisé doit être parfaite pour obtenir un bon taux de reconnaissance par la suite.

La raison pour laquelle je me suis attardé à préserver les ligatures originales n'est pas que je voulais préserver à tout prix la forme d'écriture en usage à l'époque mais plutôt que Tesseract voit ces ligatures comme un seul caractère.  Puisque ces lettres n'existent pas dans un jeu de caractères UTF-8 (et plus précisément celui du langage utilisé), il retourne n'importe quoi. Tu as sans doute remarqué comment il était troublé par les mots « assemblage », « architecture ». Ajouter les ligatures inexistantes au jeu de caractères corrige ce problème. C'est d'ailleurs cette découverte qui est la clé de l'amélioration de l'OCR.

jTessBoxEditor_01.png

Mais comme on l'a déjà discuté, une simple recherche/remplacement peut mettre le texte à la convenance de chacun. Donc aucun problème ici.

Et je n'avais pas pensé à cela mais oui tout vieil ouvrage utilisant le Romain du Roi pourra être reconnu facilement par la suite.

Pour ce qui est de ton truc pour afficher les ligatures dans LibreOffice, je ne le connaissais pas. C'est fantastique !

#5 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 02/05/2018 14:50

Voici une mise à jour sur l'état de l'OCR.  Après avoir développé un programme en Python pour faire l'extraction des blocs de texte, je n'étais pas encore tout à fait satisfait du résultat.  J'ai donc décidé d'améliorer la reconnaissance à la source en apprenant à Tesseract le langage de Roubo et les polices de caractères utilisées dans cet ouvrage.  Il y en a de 4 types:

  1. Caslon (ou peut-être un typographe français que je ne connaît pas) régulier

  2. Caslon italique

  3. Petites capitales

  4. Petites capitales italiques


Il a aussi beaucoup plus de ligatures que dans l'écriture moderne et certaines de ces ligatures n'ont pas de caractère Unicode officiel.  Pour les afficher sur un ordinateur, il faut utiliser une police qui a ces caractères définis dans un plan complémentaire à usage privé.  Comme ces caractères ne sont pas définis par la norme, leurs numéros de codage varient énormément d'une police à l'autre.  Pour cet OCR, j'ai décidé d'utiliser ceux proposés par le MUFI (Medieval Unicode Font Initiave).

Voici la liste des caractères anciens que j'ai utilisés:

ſ     s long                U+017F
ſt    s long - t                U+FB05
    s long - i                U+EBA2
    s long - s long        U+EBA6
    s long - s long - i     U+EBA7
    c - t                    U+EEC5
ff    f - f                    U+FB00
fi    f - i                    U+FB01
ffi    f - f - i                U+FB03
ffl    f - f - l                U+FB04
œ    oe    e dans l'o        U+0153

Je n'ai pas encore fait les italiques et petites capitale mais les résultats obtenus avec la police régulière sont excellents.  Quelqu'un qui utilisera les documents texte produits devra par contre posséder cette "pierre de Rosette" pour soit convertir les ligatures en lettres séparées soit les associer aux valeurs Unicode définies dans la police utilisée.

L’initiateur de ce site devra adorer puisqu'aucun s long ou ligature ne sera perdu.

À cette étape, j'aimerais bien obtenir des commentaires pour savoir si je fais fausse route ou bien si vous connaissez des polices qui imitent parfaitement bien le texte de l'ouvrage.

Une fois que je serai satisfait de tous les outils, je séparerai les images en chapitre pour les 4 parties de l'art du Menuiser et je produirai tous les OCRs en roulant mon programme.  Ça devrait prendre plusieurs heures mais mon ordi ne devrait pas trop se plaindre!

#6 Re : Version actuelle de ROUBO.ART » Normes de reproduction des planches » 26/04/2018 17:35

Pour ce qui est du cisaillement, c'est très subtil mais si tu redresses l'image sur une ligne horizontale, tu t'aperçois que les verticales ne sont pas perpendiculaires:

Effet de perspective sur la Planche 12

#7 Re : Version actuelle de ROUBO.ART » De l'utilisation du S long (ſ) » 24/04/2018 18:13

Je viens de m'apercevoir que "sh" est une exception.  On n'écrit pas "deſhonorer" mais "deshonorer" donc je corrige mes expressions régulières ici pour garder une trace de la recette.

[== RegEx ==]
(?<=([a-rt-zA-RT-Zçàâéèêëîôûù\s]))[s](?=[a-gi-rt-zçàâéèêëîôûù])
[== RegEx ==]
s{2}

#8 Re : Version actuelle de ROUBO.ART » Normes de reproduction des planches » 17/04/2018 18:06

Merci pour cette longue explication.  Il y a tellement de choses à discuter ici, que je ne sais si je vais tout couvrir.

Je comprends maintenant pleinement votre choix.  Je vois que la résolution des planches sur E|rara est incomparable.  Je n'avais pas non plus réalisé que les images que vous donnez sur WikiMedia sont de cette résolution.  Il faut cliquer sur le bouton « More Details » !

Pour se qui est de redresser les coins, pouvez-vous décrire la méthode que vous utilisez ?  J'aimerais l'essayer moi-aussi.  Pour ma part, j'ai expérimenté avec ce greffon de Gimp : Curve Bend Between Paths.  Cela ne fonctionne pas sur des images en couleurs indexées mais il suffit de changer le mode.  Il est aussi important de bien lisser le chemin.  Mais je ne suis pas encore pleinement satisfait des résultats.

Pour ce qui est de la résolution requise pour un eBook sur un Kindle Fire, Amazon recommande une taille de 2880 × 1800 pixels pour permettre d'agrandir l'image à 150%.  La taille peut aller jusqu'à 4800 × 3000 pixels.  Il serait bien qu'un menuisier amateur qui veut essayer de fabriquer un outil ou une moulure selon les instructions de Roubo puisse regarder les images sans avoir à aller à son ordinateur.

Merci pour la discussion sur l'ouvrage de Lost Art Press. C'est très intéressant.

Cisaillement:  Tirez sur les coins opposés (inférieur-gauche et supérieur-droit par exemple) d'une image et vous produirez un cisaillement.  C'est l'effet qu'on remarque en remettant les images de erara de façon parfaitement horizontal.  Il semble que la caméra qui a fait le scan n'était pas parallèle à la surface.  Dans Gimp il y a un outil de cisaillement qui permet de déformer l'inclinaison d'un calque.  Peut-être que c'est le terme qui est utilisé dans ma version canadienne française et qu'il s'appelle différemment en France.

Pour ce qui est de la méthode que j'ai utilisé pour nettoyer les images, elle est expliquée ici en anglais: https://moultano.wordpress.com/2013/11/ … d-physics/.  Vous remarquerez que deux étapes manuelles sont quand même requises.

Voilà, j'ai peut-être oublié une question et un commentaire alors n'hésitez-pas à me la redemander.

#9 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 09/04/2018 18:26

Cher Sébastien merci pour votre support.  J'ai trouvé le problème avec la macro (j'imagine que cela dépend de la version de LibreOffice utilisé).

Dans listeFichiersOuverts, remplacer

laCollection = starDesktop.components.createEnumeration

par

laCollection = starDesktop.getComponents.createEnumeration

Je vais pouvoir analyser le résultats plus en détails et vous revenir avec mes commentaires.

Ps. Pour utiliser mon programme, vous pouvez installer Python sur Windows. C'est multi-plateformes.

#10 Version actuelle de ROUBO.ART » Normes de reproduction des planches » 09/04/2018 03:22

jrbastien
Réponses : 5

Bonjour, je m'aventure sur un terrain glissant ici qui j'espère ne mettra pas fin à notre brève collaboration.

Comme pour l'OCR, je crois être en mesure d'automatiser une grande partie de ce travail.  Mais au préalable il est important de de définir les normes techniques à respecter.  Je vois que vous êtes une personne qui ne fait aucun compromis sur le texte alors j'imagine que c'est la même chose pour la reproduction des planches.

Sur vos planches, je remarque qu'elles montre la courbure des pages lorsque mis à plat dans le scanner.  Ils n'ont probablement pas utilisé un appareil comme ceci: DIY Book Scanner..  Ce projet est intéressant, ils ont commencé en fabriquant un scanner avec des bouts de bois et de vieilles caméras numériques et en fournissant les plans à tous.  Les plans sont toujours fournis mais maintenant, on peut acheter un kit complet à bon marché.  Le site propose aussi des outils logiciels pour corriger les scans obtenus.

Mais je m'égare, je voulais vous mentionner que vos reproductions sont de toute beauté mais cette légère courbure m'agace.  Y-a-t-il une raison spécifique qui vous a décidé à utiliser les images de e|rara plutôt que celles de l'Internet Archive qui n'ont pas cette courbure?

Pour ce qui est de la spécification, le programme (ou l'humain) devrait:

  1. Reconnaître le cadre

  2. Corriger l'orientation

  3. Corriger le cisaillement

  4. Appliquer un filtre antiparasite correspondant au niveau de noir maximum de l'arrière plan.

  5. Appliquer ce filtre en mode division

  6. Mettre le cadre à dimension fixe pour que toutes les planches soit pareils au pixel près.

  7. Centrer le cadre dans le format voulu afin d'obtenir des marges constantes.

  8. La résolution devrait être idéalement de 300 dpi.


En appliquant cette technique de façon manuelle pour l'instant j'obtiens ce résultats: Planche 12 (pardonnez-moi j'utilise encore mon Dropbox)

Curieusement, en imprimant la votre et la mienne, je trouve la vôtre meilleure même à 100 dpi (la mienne étant à 300).  Par contre les différences sont assez minimes.  Cette méthode prend environ 5 minutes, je ne sais pas pour la vôtre.

Bref, j'aurai besoin de planches pour mon eBook alors je me demande si vous m'autorisiez à utiliser les vôtres ou bien peut-être m'attaquerai-je à les refaire pour supprimer cette courbure.  En espérant ne pas vous avoir froissé.  ops

#11 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 09/04/2018 02:43

Je crois comprendre le fonctionnement de cette macro.  C'est d'ailleurs la même idée que j'avais exécutée de façon manuelle dans Sigil sur les 2 premières parties de Roubo.  Et mon nouveau programme en Python fait aussi du remplacement bien que son dictionnaire ne nécessite pas autant d'entrées qu'avec le OCR de l'Internet Archive.

Malheureusement, je n'arrive pas à obtenir une action.  Je pense qu'il ne voit pas le fichier ouvert. Tout ce que j'obtiens c'est un rafraîchissement de la barre de boutons quand je clique sur "Rafraîchir la liste des fichiers texte (Writer)"  Je ne vois pas non plus le code utilisé alors je vais devoir apprendre comment fonctionne les macros sous libre-office à moins que vous m'aidiez.

Vous aurez sans doute des difficultés aussi si vous essayez mon programme.  Surtout avec la fonction cv2.findContours qui demande 2 ou bien 3 variables selon la version de Python utilisé.

Mais si vous voulez avoir un aperçu de l'OCR obtenu grâce à celui-ci.  Il est ici: https://www.dropbox.com/s/3lu39am2mx066 … x.txt?dl=0

Vous remarquerez que les points forts de mon nouvel OCR sont la reconnaissance des numéros de figures, des s longs et le texte organisé en paragraphe sans saut de ligne inutile.

J'aimerais bien pouvoir le comparer avec vos résultats. 

Il ne sera jamais possible d'obtenir une version parfaite sans relecture et corrections manuelles mais en combinant nos efforts, nous pourrons sans doute obtenir quelque chose de très potable.

#12 Re : Version actuelle de ROUBO.ART » Comment mousser la visibilité de ce site? » 08/04/2018 04:37

Voilà, il y a maintenant un petit mot pour vous sur mon blog: L’OCR du Sieur Roubo.  Et en prime, quelques outils pour réaliser un meilleur OCR de l'oeuvre de Roubo.

#13 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 08/04/2018 04:33

Bonjour, je viens de relire ce flot de mots et je ne m'étais pas rendu compte que vous m'aviez fourni une correction de l'avant-propos en format PDF. Avec le recul, je m'aperçois que je me suis amélioré mais vous avez raison, il y a sûrement encore beaucoup d'erreurs à rectifier.

Cela me donne une idée, il est sans doute possible d'éditer le dictionnaire de Sigil que j'utilise pour éviter qu'il accepte des mots orthographiés de façon moderne.

Pour ce qui est du statut de ma numérisation, j'ai complété les 11 chapitres de la première partie et le premier de la seconde.  Et je continue mes expériences de programmation tout en faisant cela.

Je désire toujours publier le tout sous forme de eBook mais je vous fournirai en parallèle le résultat de mes travaux.

#14 Re : Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 26/03/2018 18:14

Merci pour ces réponses.  Je vais les approfondir plus en détails lorsque je serai prêt.

Refaire l'OCR ne m'avance pas car je dois refaire tout le formatage.  Pour l'instant je fais plus de tests de OCR et post-traitement avec bash.  Mais je vais peut-être me mettre à la programmation Python pour plus de contrôle.

Et effectivement, l'avant-propos était mes premières armes à ce texte.  Je commence maintenant à vivre et penser comme Roubo après plus de 10 chapitres.

#15 Re : Version actuelle de ROUBO.ART » De l'utilisation du S long (ſ) » 26/03/2018 18:04

Ouf, tant de prose.  Ça va me prendre quelques jours à digérer tout cela.

Je retiens quand même que j'avais ignoré les espaces insécables tout influencé me mon Amérique du Nord natale.  Et qu'il faudra que je soigne mes apostrophes typographiques. Je vais corriger cela merci.

Si l'ennuie ou le cœur m'en dit, j'essaierai vos documents libre Office avec macros. 

Merci.

#16 Version actuelle de ROUBO.ART » Comment mousser la visibilité de ce site? » 22/03/2018 18:39

jrbastien
Réponses : 2

Il n'y a peu de membres pour l'instant et je crois que ça provient du fait qu'on ne retrouve pas ce site sur les engins de recherche (en particulier le diabolique Google).

Mes quelques cours d'HTML m'ont permis de savoir qu'il est important que d'autres site y réfère donc je vais écrire un petit article sur mon blog.

Aussi le "Heading Map" montre seulement 2 niveaux:  L'art du Menuisier et "M.DCC.LX.IX — M.DCC.LXX.V. André-Jacob Roubo".  Le second niveau n'est pas très utile pour les engins de recherche.

D'autres suggestions?

#17 Version actuelle de ROUBO.ART » OCR de l'Art du Menuisier » 22/03/2018 18:15

jrbastien
Réponses : 14

Comme vous le savez j'ai entrepris la correction du ePub fournit par l'Intenet Archive afin d'avoir une version électronique de l'art du Menuisier.

J'en suis présentement au Chapitre 6 et c'est très long.

Après quelques tests d'OCR avec Tesseract, je me suis aperçu qu'en utilisant l'option de langage frm (Français moyen - médévial), les résultats sont bien meilleurs.

Je vais donc repartir des pages individuelles et produire un nouvel OCR pour les prochains chapitres.

Mes questions:

  1. Pour les besoins de ce site, quel est le meilleur format (avec mise en page) ou texte pur?

  2. Quel serait le meilleur site pour pouvoir obtenir la collaboration de d'autres correcteurs?  Personnellement j'utilise GitHub, ça permet de conserver l'historique et d'approuver les "Pull Requests"

  3. Connaissez vous un correcteur orthographique qui supporte les s longs?  Pour l'instant, j'utilise Sigil pour trouver les erreurs mais il ne connaît rien à cette forme ancienne d'écriture.  Remarquez que je crois avoir défini les règles de conversions dans la discussion précédente.  J'attends votre confirmation.

Jean-René

#18 Version actuelle de ROUBO.ART » De l'utilisation du S long (ſ) » 21/03/2018 02:47

jrbastien
Réponses : 4

Veuillez me pardonnez ce titre au goût douteux, j'aime bien utiliser cette forme en usage dans l'ouvrage de Roubo.

Bien que je comprennes qu'il n'est pas question pour l'instant d’offrir un version digitale (corrigée) de l’œuvre de Roubo, je me permets d'expliquer comment gérer les "s" longs aux cas où d'autres utilisateurs auraient des textes à partager.

Donc, s'il est convenu qu'il est préférable de conserver les s longs lors de la lecture/numérisation  de Roubo, je crois que tout texte qui a été modernisé peut se convertir à l'aide de ces 3 règles de base:

- Tout "s" qui est minuscule, en début ou au milieu d'un mot est un "s" long.
- Tous doubles "ss" minuscules sont des s longs.
- Les "s" utilisés pour la description des figures (exemple les points r s t) ne sont pas long.

Une simple recherche et remplacement avec ces expressions régulières permet de remettre les s longs:

Recherche d'un simple s au début où au milieu d'un mot:

[== RegEx ==]
(?<=([a-rt-zA-RT-Zçàâéèêëîôûù\s]))[s](?=[a-rt-zçàâéèêëîôûù])

Recherche d'un double s au milieu d'un mot:

[== RegEx ==]
s{2}

Afin de ne pas confondre les lettres utilisées dans les figures avec des mots, il est préférable de les espacer. Ce qui semble aussi le cas dans l’œuvre originale.

Me laisser savoir si j'oublie quelque chose,

Merci.

#19 Présentation des nouveaux membres. » Bonjour du Québec » 19/03/2018 17:35

jrbastien
Réponses : 1

Bonjour,

Merci pour ce fantastique projet!  Menuisier amateur et passionné d'histoire, je m'intéresse depuis peu à l'ouvrage de Roubo.  À l'heure des outils modernes électriques et de la trop peu nombreuse documentation francophone existant sur la menuiserie traditionnelle en ligne, la préservation de l'ouvrage de Roubo est essentielle.

J'avais d'ailleurs entrepris de produire une version électronique corrigée de Roubo car il est difficile de chercher sur Internet étant donné que la reconnoissance (une trop grande influence de Roubo ici  smile ) de caractères donne plusieurs formes aux "S" longs telles que "lT", "ff", "ft", etc.

Bref, j'en étais au chapitre 5 (formaté au format epub) de la première partie (version Internet Archive) lorsque je me suis aperçu que ce site merveilleux existe.  Je ne sais si j'aurai la détermination de compléter puisque votre site facilite beaucoup la recherche et la lecture de l'ouvrage. Si jamais ce texte vous intéresse, laissez-le moi savoir. 

Jean-René

Pied de page des forums

Propulsé par FluxBB