| Priceputeanu a întrebat:

Am un document pdf, o carte veche de 89 pagini, când o convertescc in format doc, diacriticele nu sunt lizibile, apar pătrățele și spații goale, știți careva ce se poate face? Am încercat întâi să copiez și să adaug conținutul în word, dar tot așa apar diacriticele.

Dețin Adobe pro, am convertit cartea în alte formate, inclusiv HTML, dar inutil, diacriticele tot nu apar.

10 răspunsuri:
| NLS a răspuns:

Incearca Abbyy Fine Reader, orice altceva e praf la capitolul OCR (cel putin la chestiile pretentioase).

Sau PDF-XChange Editor 9, dar doar versiunea contracost (PLUS sau PRO) face o treaba buna (se bazeaza tot pe motorul lui FineReader, dar o versiune putin mai veche).

Răspuns utilizator avertizat
| NLS a răspuns (pentru Bubico2022):

De OCR e nevoie atunci cand PDF-ul acela nu a fost creat din tr-un editor text, ci de unumite scannere, sau mai exact - metode sau programe de scanat.
E tot digital, cum spui tu, dar practic, cartea aceea consta din "poze" (nu e un format imagine in sine, dar se comporta intocmai ca unul), insirate intr-un document PDF.

Omul vrea probabil sa extraga o parte din pagini in format doc, sa le foloseasca mai departe intr-un referat, lucrare, etc.

Chestie pe care n-o poate face pana nu transforma imaginile acelea in text EDITABIL.

Folosesc din 2014 la munca OCR destul de mult (din PDF-XChange Editor PLUS) iar in facultate am folosit ABBYY la greu pentru a transforma pagini scanate in ceva ce puteam utiliza mai departe la proiecte.

Acrobat Pro face o treaba destul de buna la OCR, insa ABBYY e MULT mai priceput.

Răspuns utilizator avertizat
| NLS a răspuns (pentru Bubico2022):

OCR asta inseamna > convetire din acel format ciudat de imagine incapsulat, in text editabil si search-abil.

Noi cream bucati de printscreen-uri de ecran,
le introducem in Word, apoi trebuie sa transformam in PDF,
pentru a securiza documentul contra copiere/modificare.
La final, (bineinteles intr-o copie fara securizare), arhivam pentru noi o copie, si dupa OCR, putem cauta dar si selecta textul din zonele de imagine captate cu Printscreen.
Cu "diacriticele" de rigoare nemtesti.

Toate programele de OCR care se respecta "stiu" si romana (depinde insa cat de bine).
In PDF-XChange Editor (varianta free), poti adauga si folosi 105 limbi.
Varianta pe bani vine cu OCR imbunatatit (API-ul de la ABBY, de acum ~2 ani), cu si mai multe limbi (196).

Insa ABBYY e programul absolut.

| VoidEternal a răspuns:

Îți trebuie alt OCR. Adobe nu recunoște diacriticele, aparent. Mai sunt câteva variante online, poți încerca, dar de obicei rezultatele sunt destul de slabe.

| carevaescu a răspuns:

Trimite cartea prin wetransfer si arunc o privire

| Priceputeanu explică:

Cartea e deja convertită în OCR, diacriticele sunt lizibile, dar am nevoie să copiez conținutul și să îl reeditez, recorectez și să mai adaug. Am nevoie să o lucrez în word. Am transformat pdf-ul în word, și cu Abbyy și cu Adobe, rezultatul e același.

Răspuns utilizator avertizat
| Nicusor1975 a răspuns:

Copiaza textul din documentul PDF și creaza un nou document Word. Copiaza textul din documentul PDF într-un editor de text simplu, cum ar fi Notepad, și salveaza_l apoi ca document Word încât să poti pastra diacriticele.