Установка через Flatpak
Установка:
flatpak install flathub org.gnome.OCRFeeder
Запуск:
flatpak run org.gnome.OCRFeeder
OCRFeeder — программа для автоматического распознавания текста. Поддержка импорта и экспорта документов. Автоматическое определение макета документа.
В качестве входных данных программа принимает файлы изображений (поддерживаются все популярные форматы) или PDF файлы, а также изображения со сканера (через программу SANE).
OCRFeeder автоматически анализирует файлы и выполняет распознавание, умеет анализировать макет документа, различая графику, текст, блоки текста, параграфы и абзацы.
Интерфейс программы выполнен достаточно аккуратно. В центре главного окна находится рабочая область — редактор документа. Слева миниатюры страницы, а справа панель форматирования, коррекции текста и дополнительные параметры.
OCRFeeder позволяет через графический интерфейс выполнять коррекцию текста, исправлять нераспознанные символы, устанавливать стили абзацев, удалять изображения, выделять и корректировать блоки текста на странице. Поддерживается проверка орфографии.
Поддерживается несколько форматов экспорта распознанных документов: ODT (OpenDocument Format), обычный текстовый файл, HTML, PDF. Основным является формат ODT.
Рабочий проект можно сохранить для последующего редактирования.
Также есть режим работы программы через командную строку (исполняемый файл ocrfeeder-cli).
OCRFeeder использует «внешние» движки распознания текста. Это могут быть, например, Tesseract, Ocrad, GOCR, Cuneiform. Результат распознавания может сильно зависеть от конкретного движка. У меня, например, Tesseract почему-то вообще не заработал. Если конкретный движок поддерживает русский язык, тогда программа сможет его распознать. Выбирать движок можно прямо из программы.
Изначально OCRFeeder был разработан как проект магистерской диссертации по информатике программиста Хоакима Роши (Joaquim Rocha).
Установка:
flatpak install flathub org.gnome.OCRFeeder
Запуск:
flatpak run org.gnome.OCRFeeder
sudo apt install ocrfeeder
sudo pacman -S ocrfeeder
git clone https://aur.archlinux.org/ocrfeeder-git.git
cd ocrfeeder-git
makepkg -sri
Разрабатывается в рамках проекта: | |
Исходный код: |
|
Языки программирования: |
|
Библиотеки: |
|
Приложение переведено на русский язык. |
Комментарии
19:16
18:52
22:42
13:53
09:38
20:25
13:25
08:23
Чтобы программа распознавала русский текст, нужно поставить языковой пакет для ocr движка Tesseract: sudo apt-get install tesseract-ocr-rus.