Benvingudes i benvinguts al portal Linkat

La Linkat és la distribució educativa de GNU/Linux que ha iniciat i ofereix el Departament d'Educació a la comunitat educativa. Es tracta d'un projecte de programari lliure que permet als centres educatius, però també a tota la societat, tenir accés de forma legal, gratuïta i amb suport tècnic professional, a un conjunt molt ampli d'aplicacions: educatives, d'ofimàtica, d'Internet, multimèdia...

Sobre OCR lliure i en català

Imprimeix el tema

jrodri59

Registrat/da: 25 / Abr / 2024

Darrera visita: 10 / Gen / 2012

Enviaments: 8
Enviat: 08/Maig/2008 - 14:13

Bon dia amics de Linkat
Voldria informació sobre OCR's en progamari lliure i clar, que funcionin en entorn de Linkat 2.
Gràcies
jgraci25

Rang:

Registrat/da: 25 / Abr / 2024

Darrera visita: 18 / Mar / 2024

Enviaments: 2390
Enviat: 09/Maig/2008 - 12:16

Hola,

Com a programes OCR per a GNU/Linux tens el programa OCRAD i Kooka del projecte KDE.

Joan de Gracia
fbaldovi

Registrat/da: 25 / Abr / 2024

Darrera visita: 06 / Oct / 2011

Enviaments: 6
Enviat: 15/Oct/2008 - 00:08

Hola, sóc en Xavier Baldovín i aquesta és la meva primera contribució.

Fa poc em van encomanar un escanejat d'un document que teníem en paper del qual s'havia perdut el fitxer de text. Ja posats, per què no fer-ho amb la linkat?

Després de "googlejar" una estona, la meva recepta inlouria xsane + tesseract +xsane2tess.

Vaig provar el xsane amb el gocr, però no funcionava (no hi havia el gocr instal·lat). L'rpm del gocr que vaig baixar no em va funcionar bé. A més, sembla que el tesseract (de Sant Google) funciona millor, pel que diuen. La cosa està a saber si és veritablement lliure (el seu origen està a HP l'any 1985)

De tota manera, he aconseguit que funcioni i els resultats, a manca de comprovacions més exhaustives, son força bons (esperant que es pugui emprar l'Ocrad, pel que sembla el successor del tesseract.

El tesseract està testejat i comprovat per a Ubuntu i Windows. Pel que fa a Suse, és pot baixar la font i compilar-la (jo he provat la versió 2.0): ./configure > make > make install.

També cal baixar-se algun paquet d'idioma (el castellà està disponible sota la denominació tesseract-spa)

Per fer-lo anar amb el xsane cal un script, el xsane2tess. D'aquest fitxer hi ha un rpm que produeix problemes de dependències, però es pot extreure amb el file roller i desar-lo a /usr/bin

Un cop fet això, obrim el xsane, anem al Preferències > setup > OCR i canviem gocr per xsane2tess.sh -l spa (sense l'sh no em funcionava)

PD: no recordo exactament si el tesseract demana també d'instal·lar l'Imagemacik. La raó és que el tessearct digitalitza a partir d'una imatge TIFF però sense compressió i el xsane crea imatges *.pnm i *.tiff però no recordo si les TIFF estan comprimides.

Més informació a:

http://www.arfues.net/weblog/ocr-decente-con-linux-xsane-tesseract
http://code.google.com/p/tesseract-ocr/downloads/list (per baixar el tesseract i el paquet de llengua)
http://doc.ubuntu-fr.org/tesseract-ocr

Usuaris connectats

0 usuaris

Aquesta llista mostra els usuaris actius durant els darrers 20 minuts.

Linkat

Benvingudes i benvinguts al portal Linkat

Sobre OCR lliure i en català

Usuaris connectats

Destaquem

Documentació

Menú principal

Cercar

Comunitat

XTEC

Institucional

Administració

Altres distribucions

Linkat

Benvingudes i benvinguts al portal Linkat

Sobre OCR lliure i en català

Usuaris connectats

Destaquem

Documentació

Menú principal

Cercar

Entrada d'usuaris

Comunitat

XTEC

Institucional

Administració

Altres distribucions