Sobre OCR lliure i en català

Bon dia amics de Linkat
Voldria informació sobre OCR's en progamari lliure i clar, que funcionin en entorn de Linkat 2.
Gràcies
Hola,

Com a programes OCR per a GNU/Linux tens el programa OCRAD i Kooka del projecte KDE.


Joan de Gracia
Hola, sóc en Xavier Baldovín i aquesta és la meva primera contribució.

Fa poc em van encomanar un escanejat d'un document que teníem en paper del qual s'havia perdut el fitxer de text. Ja posats, per què no fer-ho amb la linkat?

Després de "googlejar" una estona, la meva recepta inlouria xsane + tesseract +xsane2tess.

Vaig provar el xsane amb el gocr, però no funcionava (no hi havia el gocr instal·lat). L'rpm del gocr que vaig baixar no em va funcionar bé. A més, sembla que el tesseract (de Sant Google) funciona millor, pel que diuen.  La cosa està a saber si és veritablement lliure (el seu origen està a HP l'any 1985)

De tota manera, he aconseguit que funcioni i els resultats, a manca de comprovacions més exhaustives, son força bons (esperant que es pugui emprar l'Ocrad, pel que sembla el successor del tesseract.

El tesseract està testejat i comprovat per a Ubuntu i Windows. Pel que fa a Suse, és pot baixar la font i compilar-la (jo he provat la versió 2.0): ./configure > make > make install.

També cal baixar-se algun paquet d'idioma (el castellà està disponible sota la denominació tesseract-spa)

Per fer-lo anar amb el xsane cal un script, el xsane2tess. D'aquest fitxer hi ha un rpm que produeix problemes de dependències, però es pot extreure amb el file roller i desar-lo a /usr/bin

Un cop fet això, obrim el xsane, anem al Preferències > setup > OCR i canviem gocr per xsane2tess.sh -l spa (sense l'sh no em funcionava)

PD: no recordo exactament si el tesseract demana també d'instal·lar l'Imagemacik. La raó és que el tessearct digitalitza a partir d'una imatge TIFF però sense compressió i el xsane crea imatges *.pnm i *.tiff però no recordo si les TIFF estan comprimides.

Més informació a:

http://www.arfues.net/weblog/ocr-decente-con-linux-xsane-tesseract
http://code.google.com/p/tesseract-ocr/downloads/list (per baixar el tesseract i el paquet de llengua)
http://doc.ubuntu-fr.org/tesseract-ocr