gImageReader

25.09.2012, 21:41

GImageReader — кроссплатформенный графический интерфейс для системы оптического распознавания символов Tesseract. Программа использует графические библиотеки GTK и написана на языке программирования Python. Особенности gImageReader:
* Поддерживаемые форматы изображений: jpeg, png, tiff, gif, pnm, pcx, bmp.
* Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.
* Выделение области с текстом для распознавания.
* Получение изображения напрямую со сканера. Настройка разрешения, сохранение в формат png.
* Проверка орфографии.

Зависимости: tesseract-ocr, python-gtk (PyGTK), python-cairo (PyCairo), python-poppler (PyPoppler), python-enchant (PyEnchant), python-gtkspell (PyGTKspell), python-imaging (PIL), python-imaging-sane (необязательно, только для сканирования).
В свою очередь, Tesseract (начиная с 3-й версии) зависит от пакета LibLeptonica (Leptonica).

Установка
* Ubuntu и Debian, Fedora — в репозитории gImageReader есть готовые пакеты.
* Slackware — см. инструкцию: http://www.salixos.org/wiki/index.php/Распознавание_текста
* Arch — скрипт для сборки PKGBUILD в AUR репозитории: https://aur.archlinux.org/packages.php?K=gimagereader

Лицензия: GNU GPL
Автор: Sandro Mani

Установил. Сделал тест - распознать одну страницу PDF формата. Получил какие-то крякозябры. Вдобавок к этому страница очень долго "распознавалась".
Причину не подскажете?

ответить

30.09.2012
06:39

В программе предварительно нужно выбрать распознаваемый язык. Зайдите в настройки: меню "File" --> "Configure" --> "Preferred language" --> выберите "Русский язык (ru_RU)" --> кнопка "Применить".

30.09.2012
06:42

--> перезагрузите программу.

30.09.2012
07:01

Да, распознаётся долго. Для улучшения распознавания можно выделить текст блоком вручную.

30.09.2012
16:30

Спасибо за подсказку. Альтернативу этой программе не знаете?

01.10.2012
06:12

OCRFeeder на GKT+ и YAGF на Qt.

VadimAndy

25.06.2014
10:17

+Kubuntu

Кракозябры -скорее всего- кодировка - Utf8/16/win1251=))

Hao

03.01.2013
19:13

Система Tesseract в настоящее время поддерживает много языков, но только с версии 3. Но третей версии нет в репозиториях "старых" дистрибутивов. Мне пришлось порядком потрудиться, вручную устанавливая нужные библиотеки, чтобы программа распознавала русский (и другой неевропейский) текст из под Ubuntu 10.4.
В целом можно отметить медленную работу, к тому же программа чувствительна к качеству изображения. Ещё один минус - распознавание ведётся только на каком-либо одном языке, то есть если в русском тексте присутствуют слова, написанные латинскими буквами, то правильно распознать его сходу будет нельзя.
Но в целом, стоит отметить что для начала вполне не плохо, учитывая что направление свободного OCR-софта в среде LINUX только начинает развиваться.

forumes

22.01.2013
16:15

Установил пакет в Arch Linux и не запускается. Не находит папку Directory contain tesseract languages. Где он располагается по умолчанию?

25.06.2014
10:19

/usr/share

alekx

21.11.2013
19:55

не работает с русским,хоть его и выбираешь? не хватает чего?

22.11.2013
18:58

Проверьте в /usr/share/tesseract/tessdata/ наличие файлов, начинающихся на "rus.". Если их нет, то вам нужно установить пакет с дополнительными файлами для распознавания русского языка.

Арман

10.12.2013
20:40

Альтернатива cuneiform + yagf. В версии 1.1 распознает до 70" русских слов. :)

anonimus

02.09.2014
21:35

Спасибо за программу, особенно за то, что напмсали про устпновку в Arch linux, очень удобно писать сразу wget "..." и переходить к сборке, делайте так почаще)

14.09.2014
10:27

Вот тут очень не плохо опсиана установка под Ubuntu 14.04: http://gamblisfx.com/how-to-install-gimagereader-2-93-on-ubuntu-14-04-trusty-tahr/

после этого:
sudo synaptic в поиске: tesseract-ocr-rus
как -то так

ссылка на скрин: http://itmages.ru/image/view/1915491/4a3b8d2e

там где всякие каракули - написано на латинице

14.09.2014
10:44

там где всякие каракули - написано на латинице

dara3108

15.11.2015
18:13

Установка через терминал (с http://forum.ubuntu.ru)
gImageReader
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gImageReader

Tesseract
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-rus (для установки русского языка)

Программа русифицирована) Имхо на данный момент лучшая распознавалка среди свободного софта, гугл плохо не делает)

Александр

05.01.2019
17:01

Спасибо!

madesthifi

01.05.2023
15:58

Установил на Manjaro. В настройках поставил русский язык. Закинул исструкцию от паяльника на тест. На мое удивление все распрознано идеально.

Программа кроссплатформенная
Работает в:

Windows аналоги

Сайт:

Обзоры программы от пользователей

Скриншоты программы

Распознавание текста в GImageReader

Комментарии

Написать комментарий