Alfresco OCR Yapılandırması: OCR (Optik Karakter Tanıma), bilgisayar tarafından basılı veya yazılı metin karakterlerinin tanınmasıdır. Görüntülerin veya taranan belgelerin karakterlerini tanır ve bu da görüntüleri (metin içeren) arama yapabilen hale getirir. OCR, herhangi bir ECM ürünü veya yazılımı için çok kullanışlı bir özelliktir. Bu blogda, Alfresco Topluluk Sürümü’nde nasıl yapılandırabileceğimizi göreceğiz. Bunu Alfresco 5.1.f ve 5.2.e sürümleriyle test ettik. Ayrıca yakındaki diğer versiyonlarla da çalışmalıdır. Alfresco OCR Yapılandırması Nasıl yapılır?

Alfresco OCR Yapılandırması

Alfresco OCR Yapılandırması için Ön şartlar:ocr-büyütücü cam

  1. AlfrescoCommunity Edition yüklü ve çalışıyor
  2. Alfresco yönetiminin temel bilgisi

Tesseract Yapılandırma Adımları:

  1. Tesseract’ı indirin ve yükleyin.
  2. İçerik dosyasını aşağıdaki bağlantıdan indirin
    1. Windows için:    Buradan indirin .
    2. Linux için: Buradan indirin .

Alfresco-global.properties dosyasındaki özellikleri aşağıdaki gibi eklemelisiniz:

Windows için: ocr.script=/opt/<ALFRESCO-HOME>/ocr.bat

Linux için: ocr.script=/opt/<ALFRESCO-HOME>/ocr.sh

ghostscript.exe=gs

 

  1. Bağlam dosyasını aşağıdaki konuma yerleştirin \ <ALFRESCO-HOME> \ tomcat \ shared \ classes \ alfresco \ extension \ <tesseract-context.xml>
  2. Linux için Windows veya .sh için a.bat dosyası oluşturun ve \ <ALFRESCO-HOME> \ ocr.sh (bat) ‘a yerleştirin.

 

a) ocr.bat (Windows için)

REM to see what happens
mkdir c:\tmp
echo from %1 to %2 >> C:\\tmp\ocrtransform.log
copy /Y %1 "C:\TMP\%~n1%~x1"
echo target %~d2%~p2%~n2
REM call tesseract and redirect output to $TARGET
"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" "C:\tmp\%~n1%~x1" "%~d2%~p2%~n2" -l eng

b) ocr.sh (Linux için)

# save arguments to variables
SOURCE=$1
TARGET=$2
TMPDIR=/tmp/Tesseract
FILENAME=`basename $SOURCE`
OCRFILE=$FILENAME.tif
# Create temp directory if it doesn't exist
sudo mkdir -p $TMPDIR
# to see what happens
#echo "from $SOURCE to $TARGET" >>/tmp/ocrtransform.log
sudo cp -f $SOURCE $TMPDIR/$OCRFILE
# call tesseract and redirect output to $TARGET
sudo /usr/local/bin/tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng
#sudo tesseract $TMPDIR/$OCRFILE ${TARGET%\.*} -l eng
sudo rm -f $TMPDIR/$OCRFILE
  1. Sunucunuzu yeniden başlatın ve Alfresco deposunda görüntü dosyasını yükleyerek çalışıp çalışmadığını test edin. Bu dosya içindeki herhangi bir kelimeye göre aramayı deneyin.

 

Alfresco OCR Yapılandırması Hakkında Önemli birkaç şey:

  1. Bağlam dosyasında doğru argümanlar geçtiğinizden emin olun (bağlam dosyalarındaki girişler Windows ve Linux için farklı olacaktır).
  2. .Bat veya .sh komutlarının düzgün çalışıp çalışmadığını kontrol edin.
  3. Tesseract’ın görüntü dosyası için metin dosyası oluşturduğunu doğrulayın.
    1. Aşağıdaki komutu çalıştırmak için
    2. tesseract –tessdata-dir ./ ./<image file-name> ./<text file-name> -l eng

Metin dosyası içeriğiyle oluşturulmuşsa, bölmeniz çalışıyor demektir.

 

Alfresco OCR Yapılandırması yazısını okuduğunuz için teşekkürler.

This post is also available in: İngilizce