Re : automatiser l'ocr de fichiers en pdf
Je suis triste, mais je chercherai.
Vous n’êtes pas identifié. Veuillez vous connecter ou vous inscrire.
Le Vrai Asile » Questions / Réponses » automatiser l'ocr de fichiers en pdf
Vous devez vous connecter ou vous inscrire pour pouvoir répondre
Je suis triste, mais je chercherai.
Non mais les bons logiciels du genre n'ont pas une fonction batch d'office? Ça existe depuis que j'ai un PC dans photoshop le traitement par lot...
J'insiste: tu peux pas tout foutre dans un dossier et faire passer le dit dossier dans l'une des applis citées au dessus?
Je vais regarder cela, mais je sens que tu vas sauver mon cul de feignasse.
Bon par contre c'est vidéos "payantes", doit y'avoir moyen de trouver un tuto gratos en cherchant mieux.
J'utilise l'OCR de Foxit que je préfère à Acrobat, mais il ne propose pas d'ocr par lot. Cela étant tu as raison je vais bien finir par trouver un putain de programme que je puisse lancer sur un répertoire entier.
merci en tout cas
Ben celui que je t'ai linké, au hasard, c'est le meilleur programme d'OCR du marché. Il y a même les liens de téléchargements. T'as beau passer tes journées ici au point d'avoir 6 000 pages de dossiers de retard, on t'aide quand même, et voilà comment tu remercies !
C'est un mange merde d'avocat, s'il te facture pas il t'écoute pas.... même pour l'aider, c'est un principe monsieur.
En plus, ce n'est pas comme s'il le faisait simplement :
Les fichiers PDF ont envahi notre quotidien. Pourtant, l'appellation « PDF » regroupe des fichiers de types très différents : certains peuvent intégrer des pages numérisées, d'autres des images incorporées ou des types de contenus qui, pour la plupart, ne peuvent faire l'objet d'aucune recherche de texte.
Pour résoudre ce problème, nous avons créé l'Assistant eDiscovery, un outil révolutionnaire qui permet de transformer, individuellement ou par lots, n'importe quel type de PDF en document sur lequel vous pouvez lancer des recherches de texte complètes. Grâce à lui, vous n'aurez plus jamais besoin d'ouvrir vos PDF pour en déterminer le contenu, ni d'exécuter d'opération d'OCR susceptible d'effacer de précieuses informations.
Et au cas où tu ne veux pas te faire chier avec la version humpf humpf du dessus, tu peux même l'acheter pour la somme extravagante de 99 €, c'est cher payé pour un logiciel qui peut te traiter 6 000 pages de documents professionnels !
Sinon doit y'avoir moyen de bricoler un robot nintendo NES pour qu'il scanne tes pages
Oui mais est-ce que ca marche vraiment ?
Parce que Dragon Naturaly Speaking, c'était de loin le meilleur soft de reconnaissance vocale. Mais c'était risible tellement c'était pas utilisable.
Faux ! ça marchait très bien si tu lui parlais pendant 32 jours et 32 nuits en continue pour qu'il apprenne ta voix.
L'OCR c'est quand même beaucoup moins compliqué et largement plus au point !
Surtout sur des documents basiques avec du texte en police classique. Si tu veux faire de l'OCR sur du chinois ou du texte écrit à la main, forcément ça va se compliquer.
Quand tu vois les trucs qui décodent vite fait les captcha, tu te dis que ça fonctionne plutôt bien.
Oui mais est-ce que ca marche vraiment ?
Parce que Dragon Naturaly Speaking, c'était de loin le meilleur soft de reconnaissance vocale. Mais c'était risible tellement c'était pas utilisable.
L'OCR ça fonctionne mieux que la reconnaissance vocale, et ça marche bien oui, c'est ce qui est utilisé pour les livres numériques, et il y a besoin de moins en moins de corrections, ça se voit sur les livres récents qui ne sont pas corrigés, il y a moins de coquilles.
Quand tu vois les trucs qui décodent vite fait les captcha, tu te dis que ça fonctionne plutôt bien.
D'ailleurs j'ai entendu dire que seul le premier mot (celui qui sert à valider l'OCR) est le seul qui compte pour valider la captcha, le second, qui est généralement illisible, il n'y a pas besoin de le mettre.
Ah non, c'est plus compliqué que ça :
Concrètement, par rapport à un processus habituel d'authentification par Captcha, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un Captcha habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.
Le système part du principe que si les utilisateurs résolvent correctement le Captcha habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.
L'OCR ca marche plutot pas mal sur un pdf. De toute façon l'objet c'est de rendre mes fichiers searchable.
Sur un gros dossier de 6000 cotes, à l'audience, ça te permet d'abord de pas te pointer avec un semi remorque de papier et ensuite de réagir vite en retrouvant les pièces rapidement quand on en parle ou quand tu dois interroger un témoin sur des trucs que tu n'as pas sous la main.
Donc un OCR plutôt grossier convient très bien.
En fait je parlais des programmes genre cryptload ou autre downloaders qui arrivent justement à lire le captcha et l'écrire à ta place via OCR justement.
THANK YOU CAPTAIN HINSIGHT
Ça remplace les schémas par des images si tu lui demandes gentillement.
Vous devez vous connecter ou vous inscrire pour pouvoir répondre
Le Vrai Asile » Questions / Réponses » automatiser l'ocr de fichiers en pdf
Propulsé par PunBB, supporté par Informer Technologies, Inc.
Généré en 0,075 secondes, 76 requêtes exécutées