gImageReader - распознавание текста в Linux. Программы для Linux

gImageReader

20
Распознавание текста
Оценка пользователей
зарегистрируйтесь, чтобы ставить оценки
Добавить в мои программы
зарегистрируйтесь, чтобы получить доступ к этим функциям
gImageReader

Программа кроссплатформенная
Работает в:

  • Linux
  • Windows

Windows аналоги

  • FineReader

Обзоры программы от пользователей

Andyun
25.09.2012, 21:41
GImageReader — кроссплатформенный графический интерфейс для системы оптического распознавания символов Tesseract. Программа использует графические библиотеки GTK и написана на языке программирования Python. Особенности gImageReader:
* Поддерживаемые форматы изображений: jpeg, png, tiff, gif, pnm, pcx, bmp.
* Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.
* Выделение области с текстом для распознавания.
* Получение изображения напрямую со сканера. Настройка разрешения, сохранение в формат png.
* Проверка орфографии.

Зависимости: tesseract-ocr, python-gtk (PyGTK), python-cairo (PyCairo), python-poppler (PyPoppler), python-enchant (PyEnchant), python-gtkspell (PyGTKspell), python-imaging (PIL), python-imaging-sane (необязательно, только для сканирования).
В свою очередь, Tesseract (начиная с 3-й версии) зависит от пакета LibLeptonica (Leptonica).

Установка
* Ubuntu и Debian, Fedora — в репозитории gImageReader есть готовые пакеты.
* Slackware — см. инструкцию: http://www.salixos.org/wiki/index.php/Распознавание_текста
* Arch — скрипт для сборки PKGBUILD в AUR репозитории: https://aur.archlinux.org/packages.php?K=gimagereader

Лицензия: GNU GPL
Автор: Sandro Mani
Лайков: +2
войдите, чтобы ставить лайки
20
  • Опубликовано: 25.09.2012

Скриншоты программы

Смотрите также

Комментарии

Hifo
29.09.2012
20:48
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Установил. Сделал тест - распознать одну страницу PDF формата. Получил какие-то крякозябры. Вдобавок к этому страница очень долго "распознавалась".
Причину не подскажете?
Andyun
Активный пользователь
Активный
30.09.2012
06:39
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийHifoРодительский комментарий
+1
войдите, чтобы ставить лайки
В программе предварительно нужно выбрать распознаваемый язык. Зайдите в настройки: меню "File" --> "Configure" --> "Preferred language" --> выберите "Русский язык (ru_RU)" --> кнопка "Применить".
Andyun
Активный пользователь
Активный
30.09.2012
06:42
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийAndyunРодительский комментарий
+1
войдите, чтобы ставить лайки
--> перезагрузите программу.
Andyun
Активный пользователь
Активный
30.09.2012
07:01
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийHifoРодительский комментарий
+1
войдите, чтобы ставить лайки
Да, распознаётся долго. Для улучшения распознавания можно выделить текст блоком вручную.
Hifo
30.09.2012
16:30
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийAndyunРодительский комментарий
+1
войдите, чтобы ставить лайки
Спасибо за подсказку. Альтернативу этой программе не знаете?
Andyun
Активный пользователь
Активный
01.10.2012
06:12
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийHifoРодительский комментарий
+1
войдите, чтобы ставить лайки
OCRFeeder на GKT+ и YAGF на Qt.
VadimAndy
Активный пользователь
Активный
25.06.2014
10:17
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийAndyunРодительский комментарий
+1
войдите, чтобы ставить лайки
+Kubuntu
VadimAndy
Активный пользователь
Активный
25.06.2014
10:17
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийHifoРодительский комментарий
+1
войдите, чтобы ставить лайки
Кракозябры -скорее всего- кодировка - Utf8/16/win1251=))
Hao
Активный пользователь
Активный
03.01.2013
19:13
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Система Tesseract в настоящее время поддерживает много языков, но только с версии 3. Но третей версии нет в репозиториях "старых" дистрибутивов. Мне пришлось порядком потрудиться, вручную устанавливая нужные библиотеки, чтобы программа распознавала русский (и другой неевропейский) текст из под Ubuntu 10.4.
В целом можно отметить медленную работу, к тому же программа чувствительна к качеству изображения. Ещё один минус - распознавание ведётся только на каком-либо одном языке, то есть если в русском тексте присутствуют слова, написанные латинскими буквами, то правильно распознать его сходу будет нельзя.
Но в целом, стоит отметить что для начала вполне не плохо, учитывая что направление свободного OCR-софта в среде LINUX только начинает развиваться.
forumes
22.01.2013
16:15
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Установил пакет в Arch Linux и не запускается. Не находит папку Directory contain tesseract languages. Где он располагается по умолчанию?
VadimAndy
Активный пользователь
Активный
25.06.2014
10:19
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийforumesРодительский комментарий
+1
войдите, чтобы ставить лайки
/usr/share
alekx
21.11.2013
19:55
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
не работает с русским,хоть его и выбираешь? не хватает чего?
Andyun
Активный пользователь
Активный
22.11.2013
18:58
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийalekxРодительский комментарий
+1
войдите, чтобы ставить лайки
Проверьте в /usr/share/tesseract/tessdata/ наличие файлов, начинающихся на "rus.". Если их нет, то вам нужно установить пакет с дополнительными файлами для распознавания русского языка.
Арман
10.12.2013
20:40
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Альтернатива cuneiform + yagf. В версии 1.1 распознает до 70" русских слов. :)
anonimus
02.09.2014
21:35
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Спасибо за программу, особенно за то, что напмсали про устпновку в Arch linux, очень удобно писать сразу wget "..." и переходить к сборке, делайте так почаще)
VadimAndy
Активный пользователь
Активный
14.09.2014
10:27
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Вот тут очень не плохо опсиана установка под Ubuntu 14.04: http://gamblisfx.com/how-to-install-gimagereader-2-93-on-ubuntu-14-04-trusty-tahr/

после этого:
sudo synaptic в поиске: tesseract-ocr-rus
как -то так

ссылка на скрин: http://itmages.ru/image/view/1915491/4a3b8d2e

там где всякие каракули - написано на латинице
VadimAndy
Активный пользователь
Активный
14.09.2014
10:44
Постоянная ссылка на комментарийПостоянная ссылка на комментарийРодительский комментарийVadimAndyРодительский комментарий
+1
войдите, чтобы ставить лайки
там где всякие каракули - написано на латинице
dara3108
15.11.2015
18:13
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Установка через терминал (с http://forum.ubuntu.ru)
gImageReader
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gImageReader

Tesseract
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-rus (для установки русского языка)

Программа русифицирована) Имхо на данный момент лучшая распознавалка среди свободного софта, гугл плохо не делает)
Александр
05.01.2019
17:01
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
+1
войдите, чтобы ставить лайки
Спасибо!
madesthifi
01.05.2023
15:58
Постоянная ссылка на комментарийПостоянная ссылка на комментарий
0
войдите, чтобы ставить лайки
Установил на Manjaro. В настройках поставил русский язык. Закинул исструкцию от паяльника на тест. На мое удивление все распрознано идеально.

Написать комментарий

Ваше имя:
Текст комментария:
  • Уважать других.
  • Не ругаться.
  • Без оскорблений.
  • Без грубости.
  • Не переходить на личности.
  • Писать на русском языке.
  • Без политики.
  • Без флуда.
Правила