Alfresco OCR Plugin Entegrasyonu kimi kurum ve işletmelerin ihtiyaç duyduğu bir konudur. Bazı projeler, taranmış belgeleri almak için otomatik belge yönetimi çözümlerine ihtiyaç duymaz. Bu durumlar için standart bir Alfresco OCR Transformer kullanarak bir Alfresco 5 eklentisi geliştirildi. Metin çıkarımı süreçleri süre içinde değiştiğinden, bu dönüşümü asenkron modda uygulayarak, aranabilir PDF’ye ayrılmış bir sıra arkaplanı işlemlerine dönüştürme düşünüldü. Bu çözüm farklı Linux sunucularında (Ubuntu / CentOS / Mac OS) çalışır, ancak Windows sunucuları için mevcut değildir.

 

Alfresco OCR Plugin Entegrasyonu

OCR sonuçlarını ticari çözümler ile karşılaştırılabilir elde etmek için, OCR çözümü bu sürecin tüm klasik aşamalarına entegre edilebilir:

  • Sayfa Ayrımı
    • OCR yazılımı tek bir sayfanın görüntüsünde en iyi şekilde çalışır
    • Bu aşamanın bir sonucu olarak, PDF formatında bir dizi belge elde edilir.
  • Biçimleri tanımla
    • PDF’ye gömülü olan görüntünün türüne bağlı olarak (PNG, TIF, JPG…), farklı dönüşüm parametreleri uygulanmalıdır.
  • Tek renkli formata dönüştürme ( PBM )
    • Klasik PBM formatı, ekstraksiyon OCR algoritmalarının daha yüksek verimliliğini sağlar
    • 300 dpi’den daha yüksek çözünürlük kullanmaya gerek yoktur: daha iyi sonuç elde edilemez
    • Bu aşamanın bir sonucu olarak, PDF formatında bir dizi belge elde edilir.

 

  • Sayfaların her birinde yatay ayar, gürültü azaltma ve kenar düzeltme
    • Bu işlem hala önceki aşamada elde edilen belge setini rafine etmek için PBM formatında görüntüler üzerinde gerçekleştirilmektedir.

 

  • OCR metin çıkarımı
    • Özel bir dil topluluğu kullanmak,  önemli sonuçları iyileştirir
    • Bu aşama, PBM görüntülerinde belirtilen kelimeleri içeren bir dizi metin belgesi üretir.

 

  • Her sayfayı PDF’ye dönüştürme
    • PBM görüntüsü ve OCR metin belgesinden, doğru boyut formatıyla bir PDF sayfası oluşturulur
    • Bu aşamanın bir sonucu olarak, aranabilir PDF formatında bir dizi belge elde edilir.

 

  • Son PDF bileşimi
    • Bir önceki aşamada elde edilen PDF sayfaları, tek bir aranabilir PDF dokümanı oluşturmak için uygun sıraya eklenir.

 

Böylece, bu hizmeti oluşturmak için yalnızca Açık Kaynak araçlarını kullanmasına rağmen, sonuçlar oldukça tatmin edicidir.

Alfresco OCR eklentisi https://addons.alfresco.com adresinde mevcuttur.

 

Alfresco OCR Plugin Hakkında

Bu eklenti, OCR metnini resimlerden (TIFF) veya Alfresco’daki düz PDF’lerden ayıklamak için bir depo işlemi sağlar. Ayrıca, Belge Kitaplığı işlemlerinde bir OCR İşlem menüsü ile ortaya çıkar.

Lisans Eklenti LGPL v3.0 ile lisanslanmıştır.

Devlet Güncel eklenti sürüm 2.3.1 olduğu

Uyumluluk  Bu eklenti Alfresco SDK 3.0 kullanılarak geliştirildi aynı zamanda Alfresco’da 5.1, 5.0 ve 4.2 sürümlerinde çalıştırmak gerektiği halde, geçerli sürüm Alfresco 5.2 ve Alfresco SDK 3.0.2 kullanılarak geliştirilmiştir.

Tarayıcı uyumluluğu  %100 desteklemektedir.

Daha fazla bilgi burada: Alfresco OCR Plugin Entegrasyonu

İlginizi çekebilecek diğer konular:

This post is also available in: İngilizce