gImageReader

Распознавание текста
Текущая оценка:
Зарегистрируйтесь, чтобы ставить оценки.
Добавить в мои программыЧто это такое?

Программу на сайт добавил пользователь Andyun, его обзор:
25.09.2012, 21:41
GImageReader — кроссплатформенный графический интерфейс для системы оптического распознавания символов Tesseract. Программа использует графические библиотеки GTK и написана на языке программирования Python. Особенности gImageReader:
* Поддерживаемые форматы изображений: jpeg, png, tiff, gif, pnm, pcx, bmp.
* Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.
* Выделение области с текстом для распознавания.
* Получение изображения напрямую со сканера. Настройка разрешения, сохранение в формат png.
* Проверка орфографии.

Зависимости: tesseract-ocr, python-gtk (PyGTK), python-cairo (PyCairo), python-poppler (PyPoppler), python-enchant (PyEnchant), python-gtkspell (PyGTKspell), python-imaging (PIL), python-imaging-sane (необязательно, только для сканирования).
В свою очередь, Tesseract (начиная с 3-й версии) зависит от пакета LibLeptonica (Leptonica).

Установка
* Ubuntu и Debian, Fedora — в репозитории gImageReader есть готовые пакеты.
* Slackware — см. инструкцию: http://www.salixos.org/wiki/index.php/Распознавание_текста
* Arch — скрипт для сборки PKGBUILD в AUR репозитории: https://aur.archlinux.org/packages.php?K=gimagereader

Лицензия: GNU GPL
Автор: Sandro Mani

Скриншоты

Распознавание текста в GImageReader
Версия: 0.9. Скриншот предоставлен пользователем.
GImageReader - распознавание текста в Linux
Смотрите также:
Sunflower
Простой файловый менеджер
PlayOnLinux
Windows игры в Linux
SimpleBurn
Запись дисков
OpenShot Video Editor
Видео редактор
KDE
 
25.09.2012Andyun18

Комментарии

Hifo
29.09.2012, 20:48
Установил. Сделал тест - распознать одну страницу PDF формата. Получил какие-то крякозябры. Вдобавок к этому страница очень долго "распознавалась".
Причину не подскажете?
Активный
30.09.2012, 06:39
В программе предварительно нужно выбрать распознаваемый язык. Зайдите в настройки: меню "File" --> "Configure" --> "Preferred language" --> выберите "Русский язык (ru_RU)" --> кнопка "Применить".
Активный
30.09.2012, 06:42
--> перезагрузите программу.
Активный
30.09.2012, 07:01
Да, распознаётся долго. Для улучшения распознавания можно выделить текст блоком вручную.
Hifo
30.09.2012, 16:30
Спасибо за подсказку. Альтернативу этой программе не знаете?
Активный
01.10.2012, 06:12
OCRFeeder на GKT+ и YAGF на Qt.
Активный
25.06.2014, 10:17
+Kubuntu
Активный
25.06.2014, 10:17
Кракозябры -скорее всего- кодировка - Utf8/16/win1251=))
03.01.2013, 19:13
Система Tesseract в настоящее время поддерживает много языков, но только с версии 3. Но третей версии нет в репозиториях "старых" дистрибутивов. Мне пришлось порядком потрудиться, вручную устанавливая нужные библиотеки, чтобы программа распознавала русский (и другой неевропейский) текст из под Ubuntu 10.4.
В целом можно отметить медленную работу, к тому же программа чувствительна к качеству изображения. Ещё один минус - распознавание ведётся только на каком-либо одном языке, то есть если в русском тексте присутствуют слова, написанные латинскими буквами, то правильно распознать его сходу будет нельзя.
Но в целом, стоит отметить что для начала вполне не плохо, учитывая что направление свободного OCR-софта в среде LINUX только начинает развиваться.
forumes
22.01.2013, 16:15
Установил пакет в Arch Linux и не запускается. Не находит папку Directory contain tesseract languages. Где он располагается по умолчанию?
Активный
25.06.2014, 10:19
/usr/share
alekx
21.11.2013, 19:55
не работает с русским,хоть его и выбираешь? не хватает чего?
Активный
22.11.2013, 18:58
Проверьте в /usr/share/tesseract/tessdata/ наличие файлов, начинающихся на "rus.". Если их нет, то вам нужно установить пакет с дополнительными файлами для распознавания русского языка.
Арман
10.12.2013, 20:40
Альтернатива cuneiform + yagf. В версии 1.1 распознает до 70" русских слов. :)
anonimus
02.09.2014, 21:35
Спасибо за программу, особенно за то, что напмсали про устпновку в Arch linux, очень удобно писать сразу wget "..." и переходить к сборке, делайте так почаще)
Активный
14.09.2014, 10:27
Вот тут очень не плохо опсиана установка под Ubuntu 14.04: http://gamblisfx.com/how-to-install-gimagereader-2-93-on-ubuntu-14-04-trusty-tahr/

после этого:
sudo synaptic в поиске: tesseract-ocr-rus
как -то так

ссылка на скрин: http://itmages.ru/image/view/1915491/4a3b8d2e

там где всякие каракули - написано на латинице
Активный
14.09.2014, 10:44
там где всякие каракули - написано на латинице
15.11.2015, 18:13
Установка через терминал (с http://forum.ubuntu.ru)
gImageReader
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install gImageReader

Tesseract
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-rus (для установки русского языка)

Программа русифицирована) Имхо на данный момент лучшая распознавалка среди свободного софта, гугл плохо не делает)

Написать комментарий

Ваше имя:
Текст:
Вы не зарегистрированы: комментарий будет опубликован только после просмотра администратором сайта.
Распознавание текста ABBYY FineReader скачать бесплатно на русском.