Главная
Главная Руководства Debian › Ставим tesseract на Debian



Автор:

Статья опубликована: 2017-02-11 18:54:36
Последние правки: 2018-03-11 20:21:22

Tesseract - это движок OCR, который на данный момент разрабатывается и поддерживается корпорацией Google. Устанавливаем на Debian Jessie.

  • Установка

    Качать: отсюда

    Установка tesseract хорошо описана в вики, поэтому читаем. Я только в общих чертах переведу на русский что там написано. Не обращайте внимание, что там описан процесс для Ubuntu, на Debian все тоже самое.
    1. Устанавливаем необходимый софт как написано. Без этого - никак, иначе при установке tesseract посыпятся ошибки.
    2. Я ставил tesseract 4.00, поэтому, как и написано в инструкции, скачал и установил последнюю версию leptonica из исходников (процесс смотрите в readme в архиве с лептоникой). Тоже ничего сложного, ./configure, make, make check, make install
    3. Ставим tesseract. Качаем, распаковываем. Далее по инструкции:
    # ./autogen.sh
    # ./configure
    # make
    # make install
    # make training
    # make training-install
    


  • Языковые файлы
    Искать здесь.
    Поместить в директорию /usr/local/share/tessdata


  • Проверка
    $ tesseract
    Usage:
      tesseract --help | --help-psm | --help-oem | --version
      tesseract --list-langs [--tessdata-dir PATH]
      tesseract --print-parameters [options...] [configfile...]
      tesseract imagename|stdin outputbase|stdout [options...] [configfile...]
    
    OCR options:
      --tessdata-dir PATH   Specify the location of tessdata path.
      --user-words PATH     Specify the location of user words file.
      --user-patterns PATH  Specify the location of user patterns file.
      -l LANG[+LANG]        Specify language(s) used for OCR.
      -c VAR=VALUE          Set value for config variables.
                            Multiple -c arguments are allowed.
      --psm NUM             Specify page segmentation mode.
      --oem NUM             Specify OCR Engine mode.
    NOTE: These options must occur before any configfile.
    
    Page segmentation modes:
      0    Orientation and script detection (OSD) only.
      1    Automatic page segmentation with OSD.
      2    Automatic page segmentation, but no OSD, or OCR.
      3    Fully automatic page segmentation, but no OSD. (Default)
      4    Assume a single column of text of variable sizes.
      5    Assume a single uniform block of vertically aligned text.
      6    Assume a single uniform block of text.
      7    Treat the image as a single text line.
      8    Treat the image as a single word.
      9    Treat the image as a single word in a circle.
     10    Treat the image as a single character.
     11    Sparse text. Find as much text as possible in no particular order.
     12    Sparse text with OSD.
     13    Raw line. Treat the image as a single text line,
                            bypassing hacks that are Tesseract-specific.
    OCR Engine modes:
      0    Original Tesseract only.
      1    Neural nets LSTM only.
      2    Tesseract + LSTM.
      3    Default, based on what is available.
    
    Single options:
      -h, --help            Show this help message.
      --help-psm            Show page segmentation modes.
      --help-oem            Show OCR Engine modes.
      -v, --version         Show version information.
      --list-langs          List available languages for tesseract engine.
      --print-parameters    Print tesseract parameters to stdout.