gImageReader - распознавание текста в Linux, скачать бесплатно. Программы для Linux

gImageReader

18
Распознавание текста
Оценка пользователей
зарегистрируйтесь, чтобы ставить оценки
Добавить в мои программы
зарегистрируйтесь, чтобы получить доступ к этим функциям
gImageReader
Программу на сайт добавил пользователь Andyun, его обзор:
Andyun
25.09.2012, 21:41
GImageReader — кроссплатформенный графический интерфейс для системы оптического распознавания символов Tesseract. Программа использует графические библиотеки GTK и написана на языке программирования Python. Особенности gImageReader:
* Поддерживаемые форматы изображений: jpeg, png, tiff, gif, pnm, pcx, bmp.
* Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.
* Выделение области с текстом для распознавания.
* Получение изображения напрямую со сканера. Настройка разрешения, сохранение в формат png.
* Проверка орфографии.

Зависимости: tesseract-ocr, python-gtk (PyGTK), python-cairo (PyCairo), python-poppler (PyPoppler), python-enchant (PyEnchant), python-gtkspell (PyGTKspell), python-imaging (PIL), python-imaging-sane (необязательно, только для сканирования).
В свою очередь, Tesseract (начиная с 3-й версии) зависит от пакета LibLeptonica (Leptonica).

Установка
* Ubuntu и Debian, Fedora — в репозитории gImageReader есть готовые пакеты.
* Slackware — см. инструкцию: http://www.salixos.org/wiki/index.php/Распознавание_текста
* Arch — скрипт для сборки PKGBUILD в AUR репозитории: https://aur.archlinux.org/packages.php?K=gimagereader

Лицензия: GNU GPL
Автор: Sandro Mani

Сайт программы (скачать бесплатно):

Программа gImageReader
18

Скриншоты программы

Смотрите также

Комментарии

[аноним]
29.09.2012, 20:48
Постоянная ссылка на комментарий
Установил. Сделал тест - распознать одну страницу PDF формата. Получил какие-то крякозябры. Вдобавок к этому страница очень долго "распознавалась".
Причину не подскажете?
AndyunАктивный
30.09.2012, 06:39
Постоянная ссылка на комментарийРодительский комментарий
В программе предварительно нужно выбрать распознаваемый язык. Зайдите в настройки: меню "File" --> "Configure" --> "Preferred language" --> выберите "Русский язык (ru_RU)" --> кнопка "Применить".
AndyunАктивный
30.09.2012, 06:42
Постоянная ссылка на комментарийРодительский комментарий
--> перезагрузите программу.
AndyunАктивный
30.09.2012, 07:01
Постоянная ссылка на комментарийРодительский комментарий
Да, распознаётся долго. Для улучшения распознавания можно выделить текст блоком вручную.
[аноним]
30.09.2012, 16:30
Постоянная ссылка на комментарийРодительский комментарий
Спасибо за подсказку. Альтернативу этой программе не знаете?
AndyunАктивный
01.10.2012, 06:12
Постоянная ссылка на комментарийРодительский комментарий
OCRFeeder на GKT+ и YAGF на Qt.
VadimAndyАктивный
25.06.2014, 10:17
Постоянная ссылка на комментарийРодительский комментарий
+Kubuntu
VadimAndyАктивный
25.06.2014, 10:17
Постоянная ссылка на комментарийРодительский комментарий
Кракозябры -скорее всего- кодировка - Utf8/16/win1251=))
Hao
03.01.2013, 19:13
Постоянная ссылка на комментарий
Система Tesseract в настоящее время поддерживает много языков, но только с версии 3. Но третей версии нет в репозиториях "старых" дистрибутивов. Мне пришлось порядком потрудиться, вручную устанавливая нужные библиотеки, чтобы программа распознавала русский (и другой неевропейский) текст из под Ubuntu 10.4.
В целом можно отметить медленную работу, к тому же программа чувствительна к качеству изображения. Ещё один минус - распознавание ведётся только на каком-либо одном языке, то есть если в русском тексте присутствуют слова, написанные латинскими буквами, то правильно распознать его сходу будет нельзя.
Но в целом, стоит отметить что для начала вполне не плохо, учитывая что направление свободного OCR-софта в среде LINUX только начинает развиваться.
[аноним]
22.01.2013, 16:15
Постоянная ссылка на комментарий
Установил пакет в Arch Linux и не запускается. Не находит папку Directory contain tesseract languages. Где он располагается по умолчанию?
VadimAndyАктивный
25.06.2014, 10:19
Постоянная ссылка на комментарийРодительский комментарий
/usr/share
[аноним]
21.11.2013, 19:55
Постоянная ссылка на комментарий
не работает с русским,хоть его и выбираешь? не хватает чего?
AndyunАктивный
22.11.2013, 18:58
Постоянная ссылка на комментарийРодительский комментарий
Проверьте в /usr/share/tesseract/tessdata/ наличие файлов, начинающихся на "rus.". Если их нет, то вам нужно установить пакет с дополнительными файлами для распознавания русского языка.
[аноним]
10.12.2013, 20:40
Постоянная ссылка на комментарий
Альтернатива cuneiform + yagf. В версии 1.1 распознает до 70" русских слов. :)
[аноним]
02.09.2014, 21:35
Постоянная ссылка на комментарий
Спасибо за программу, особенно за то, что напмсали про устпновку в Arch linux, очень удобно писать сразу wget "..." и переходить к сборке, делайте так почаще)
VadimAndyАктивный
14.09.2014, 10:27
Постоянная ссылка на комментарий
Вот тут очень не плохо опсиана установка под Ubuntu 14.04: http://gamblisfx.com/how-to-install-gimagereader-2-93-on-ubuntu-14-04-trusty-tahr/

после этого:
sudo synaptic в поиске: tesseract-ocr-rus
как -то так

ссылка на скрин: http://itmages.ru/image/view/1915491/4a3b8d2e

там где всякие каракули - написано на латинице
VadimAndyАктивный
14.09.2014, 10:44
Постоянная ссылка на комментарийРодительский комментарий
там где всякие каракули - написано на латинице
dara3108
15.11.2015, 18:13
Постоянная ссылка на комментарий
Установка через терминал (с http://forum.ubuntu.ru)
gImageReader
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gImageReader

Tesseract
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-rus (для установки русского языка)

Программа русифицирована) Имхо на данный момент лучшая распознавалка среди свободного софта, гугл плохо не делает)

Написать комментарий

Ваше имя:
Текст комментария:
Распознавание текста ABBYY FineReader скачать бесплатно на русском.