Скачать ocr cuneiform 12 бесплатно 5/5 (3)

Возможности

Во времена выпуска и поддержки данного программного обеспечения разработчиками CuneiForm распространялась вместе с популярными моделями сканеров и МФУ. Последняя версия была выпущена в 2011 году, после чего поддержка от создателей прекратилась. Если вы не гонитесь за обновлениями и новыми функциями, то данная утилита и сейчас способна удовлетворить потребности рядового пользователя. Ниже представлен список основных функций софта:

  • распознавание с сохранением структуры документа;
  • редактирование результата с помощью текстовых инструментов;
  • сканирование напрямую с внешнего устройства;
  • работа с 20 языками;
  • использование встроенного словаря;
  • распознавание специальных символов;
  • преобразование графических файлов в текстовые документы;
  • пакетная обработка.

По функционалу CuneiForm можно сравнить с более популярной и именитой ABBYY FineReader, но последняя распространяется на платной основе.

CuneiForm

CuneiForm – удобная и простая в использовании программа для распознавания текста при сканировании. У неё очень простой интерфейс, большой набор функций. При этом она распространяется абсолютно бесплатно, что не может не радовать пользователей.

Функционал программы

  1. возможность распознавать текст более, чем на 20 языках мира,
  2. работа с различными печатными шрифтами и символами,
  3. восстановление текста с изображений плохого качества,
  4. качественное распознание таблиц и списков, сносок и индексов,
  5. встроенный электронный словарь слов,
  6. проверка орфографических ошибок,
  7. распознание текста с фотографии и сохранение его в формат *.txt или *.rtf,
  8. сохранение форматирования.

Хотя с CuneiForm можно работать с любым изображением, находящимся на компьютере или на съёмном носителе, это всё-таки программа для распознавания текста со сканера. Она открывает перед пользователем широкие перспективы и упрощает работу.

Как пользоваться CuneiForm

Пользоваться CuneiForm легко. Давайте попробуем распознать текст с картинки, которую мы уже использовали сегодня:

Откройте программу. Перед вами покажется такое главное окно, которое выглядит так

Под главным меню нажмите кнопку Распознание. Картинка трансформируется в текст

Теперь, после того, как у вас получилось распознать текст с картинки, его можно сохранить. Для этого нажмите кнопку Сохранить рядом с кнопкой Распознание под главным меню. Вы увидите окно

Как видите, хотя программы выдала не такой красивый результат, как получилось у Abbyy Finereader, текст распознался полностью и не содержит непонятных символов или других включений. Его можно сохранить в файл, формат которого вы выберете на своё усмотрение.

Microsoft OneNote

Microsoft OneNote – ещё одна полезная программа для распознавания текста с картинки. Использовать её просто и удобно. Если вы её как следует изучите, то найдёте себе хорошего помощника, обладающего массой полезных функций.

Возможности программы

  • автоматическое сохранение информации,
  • возможность форматирования текста, добавление списков и оформления без обращения к другому редактору,
  • улучшенный алгоритм снятия скриншотов открытого окна,
  • добавление информации в файл непосредственно из интернета в режиме онлайн,
  • удобство перехода между вложенными страницами,
  • закрепление на рабочем столе и создание ссылок внутри файла,

Как вы уже поняли, Microsoft OneNote – это полноценный текстовый редактор с огромным количеством функций. Меню программы похоже на MS Word и MS Exel, поэтому подробно рассматривать как распознать текст в Microsoft OneNote и сохранить мы не будем. Качество при этом ничем не уступает двум предыдущим редакторам.

OCR CuneiForm V.12

OCR CuneiForm V.12

Freeware, open source

Разработчик Cognitive Technologies

Сайт www.cuneiform.ru

Размер 33,38 МБ

Адрес загрузки www.cuneiform.ru… cuneiform.zip

Вердикт

Бесплатность; поддержка большого количества языков

Возможные проблемы с запуском; нестабильное качество распознавания

Система распознавания текста является шрифтонезависимой и поддерживает более 20 языков, среди которых украинский, русский и большинство европейских. Кроме того, программа умеет «читать» документы со смешанным текстом на русском и английском языках. CuneiForm автоматически находит такие элементы страницы, как таблицы и изображения. Если некоторые из них были определены неверно, стоит воспользоваться ручной разметкой, что повысит качество конечного электронного документа. В настройках программы есть специальные опции, улучшающие распознавание распечаток, сделанных на матричном принтере или присланных по факсу.

В документации к программе указано, что в ней заложены принципы самообучения, однако как именно они работают, узнать не удалось.

Для уменьшения количества ошибок процесс распознавания текста дополняется словарным контролем, после которого неверно определенные слова подсвечиваются другим цветом.

Окно программы в режимах распознавания отдельных страниц и пакетном

Источником текста может быть не только сканер, но и заранее сохраненные графические файлы (поддерживаются все популярные форматы). Приемлемое качество распознавания достигается при разрешении от 200 до 400 пикселов на дюйм. Для работы с большим количеством страниц существует отдельный модуль пакетной обработки, в нем есть опция автоповорота страницы, которая позволяет программе самостоятельно определять ориентацию текста. Также в пакетном режиме доступно автоматическое сохранение «прочитанных» документов сразу в несколько файлов разных типов.

На первый взгляд CuneiForm можно охарактеризовать словом «нестабильность» – в одних случаях программа без труда распознает 99–100% текста, в других абсолютно неправильно обрабатывает вплоть до четверти символов. Определенные проблемы вызвалo у CuneiForm и корректное нахождение картинок на странице, здесь может пригодиться функция авторазметки. Отметим, что с идентичными заданиями FineReader 9 во всех случаях справился отлично. Повышению эффективности работы способствуют давно известные «уловки» – увеличение контрастности документа и по возможности перевод его в черно-белый цветовой режим. Тогда качество распознавания текста может достигать 100%.

Стоит отметить, что скорость работы CuneiForm значительно превышает таковую у FineReader, однако это не очень радует, когда часть текста распознается неверно. Потому можем посоветовать программу тем, кто в основном имеет дело с документами, содержащими небольшое количество графики.

На текущий момент CuneiForm не устанавливается под операционную систему Windows Vista, причем проблема не в самом приложении, а в инсталляторе, и на официальном форуме есть ее решение. Там же обсуждаются и темы, связанные с портированием CuneiForm на Linux (хотя программа уже сейчас работает в этой ОС с помощью Wine) и Mac OS X. Планируется интеграция с OpenOffice.org, добавление поддержки новых форматов входных и выходных файлов, распознавание скриншотов.

Учитывая бесплатность продукта, а также возлагая большие надежды на open source community, будем с нетерпением ждать выхода следующей версии приложения, в котором в первую очередь хотелось бы увидеть улучшенное качество распознавания.

После релиза OCR от Google, запланированного на осень 2008 года, мы постараемся провести сравнительный анализ качества работы FineReader, OCRopus и CuneiForm.

Пакетное распознавание текста

Эта функция программы может пригодится, когда вам нужно распознать не одну картинку, а сразу несколько. Ярлык для запуска пакетного распознавания, обычно, спрятан в меню « пуск «.

1) После открытия программы, вам нужно создать новый пакет, либо открыть ранее сохраненный. В нашем примере — создадим новый.

2) В следующем шаге даем ему название, желательно такое, чтобы и через полгода вспомнить что в нем сохранено.

3) Далее выбираете язык документа (русско-английский), указываете, есть ли в вашем отсканированном материале картинки и таблицы.

4) Теперь нужно указать папку, в которой расположены файлы для распознавания. Кстати, что интересно, программа сама найдет все картинки и другие графические файлы, которые она сможет распознать и добавить их в проект. Вам же останется удалить лишние.

5) Следующий шаг не важен- выбираете что делать с исходными файлами, после распознавания. Рекомендую выбрать галочку «ничего не делать».

6) Осталось лишь выбрать формат, в котором будет сохранен распознанный документ. Есть несколько вариантов:

— rtf — файл из документа word, открывается всеми популярными офисами (в том числе и бесплатными, ссылка на программы);

— txt — текстовый формат, в нем можно сохранить только текст, картинки и таблицы нельзя;

— htm — гипертекстовая страничка, удобно, если вы сканируете и распознаете файлы для сайта. Его и выберем в нашем примере.

7) После нажатия кнопки « готово » запустится процесс обработки вашего проекта.

8) Программа работает довольно таки быстро. После распознания перед вами появится вкладка с файлами htm. Если щелкнуть по такому файлу запуститься браузер, где вы сможете увидеть результаты. Кстати, пакет можно сохранить для дальнейшей работы с ним.

9) Как видно, результаты работы весьма впечатляющие. Картинку программа легко распознала, а под ней легко распознала текст. При том что программа и бесплатна — то вообще супер!

Пример распознавания текста

Будем считать что необходимые картинки для распознавания вы уже получили (отсканировали там, или скачали в интернете книгу в формате pdf/djvu и достали из них нужные картинки. Как это сделать — см. в этой статье).

1) Открываем требуемую картинку в программе CuineForm ( файл/открыть или « Cntrl+O «).

2) Чтобы приступить к распознаванию — нужно сначала выделить различные области: текста, картинок, таблиц и пр. В программе Cuneiform это можно сделать не только в ручную, но и автоматически! Для этого щелкните по кнопке « разметка » в верхней панели окна.

3) Спустя 10-15 сек. программа автоматически подсветит все области различными цветами. Например, область текста выделяется синим цветом. Кстати, подсветила она все области правильно и довольно быстро. Честно говоря, не ожидал от нее такой быстрой и правильной реакции…

4) Для тех, кто не доверяет автоматической разметке, можно воспользоваться и ручной. Для этого есть панелька инструментов (см. картинку ниже), благодаря которой можно выделить: текст, таблицу, картинку. Передвинуть, увеличить/уменьшить начальное изображение, подрезать края. В общем, неплохой набор.

5) После того, как все области были размечены, можно приступить к распознаванию. Для этого просто щелкните по одноименной кнопке, как на картинке ниже.

6) Буквально через 10-20 сек. перед вами откроется документ в Microsoft Word с распознанным текстом. Что интересно, в тексте для этого примера, ошибки, конечно были, но их крайне не много! Тем более, учитывая в каком невзрачном качестве был исходный материал — картинка.

По скорости и качеству вполне сравнимо с FineReader!

Abbyy Finereader

Abbyy Finereader – популярная программа для распознания текста и сохранения его в любом формате. Помимо своих главных функций она имеет массу дополнительных характеристик и преимуществ перед аналогичным софтом.

Преимущества и возможности программы

  1. возможность распознать текст из pdf формата в файл word,
  2. распознавание текста с фотографии, отсканированного файла или электронной книги,
  3. возможность сканировать документы и улучшать их качество перед распознаванием,
  4. перевод изображений, pdf фалов, снимков с камеры в другие форматы,
  5. поддержка многоязычного языкового пакета (более 42),
  6. сохранение форматирования в конечном вордовском документе,
  7. возможность машинного перевода с более, чем 30 мировых языков,
  8. экспорт по вашему желанию в любое из облачных хранилищ в интернете,
  9. направление копии документа в один из популярных редакторов, среди которых не только MSWord и MS Excel, но и Org Writer, PowerPoint, WordPerfekt, OpenOffice и Adobe Acrobat.
  10. высокая скорость работы и большие возможности редактирования файла непосредственно в рамках Abbyy Finereader.

Как пользоваться Abby Finereader

Abbyy Finereader прекрасный рапознаватель текста с картинки, даже если она плохого качества. Эта программ обладает интуитивно понятным интерфейсом, а многие её процессы проходят в автоматическом режиме. Давайте на несложном примере рассмотрим, как перевести картинку в текст:

  • Запускаем программу. Перед нами открывается такое окно.
  • Затем нажимаем под меню кнопку Открыть. Она выводит на экран окошко, в котором мы и находим нужную картинку.
  • Выбираем файл и нажимаем кнопку Открыть в его нижнем правом углу. Перетащите в окно программы нужный объект, удерживая левую кнопку мыши. Вот так выглядит окно программы после открытия файла.

Нажимаем кнопку Закрыть и видим, что слева расположена зона эскизов загруженных страниц файла (у нас это одна картинка). В центре — само изображение, в котором уже выделены зоны распознаваемого содержимого, а справа – сам текст.

  • Чтобы перевести картинку в формат Word нужно нажать кнопку Распознать, расположенную, как и кнопка Открыть, под главным меню. После этого вы увидеть диалоговое окно, отражающее ход распознания. Большие объёмы занимают много времени – от 10 минут до получаса. Единичная картинка не отнимет более 2-5 минут.
  • Чтобы сохранить информацию в формат Word, нажмите кнопку Сохранить с вордовским значком, которая находится справа от кнопки Распознать. Так выглядит новое окно, которое перед вами появится

Выбирайте место сохранения и имя нового файла, после чего жмите кнопку Сохранить. Вордовский документ с распознанной информацией и картинками появится у вас на экране. Также происходит распознавание текста в PDF, с той лишь разницей, что полученный результат вы можете сохранить в один документ или каждую страницу в отдельный.

Стоит отметить, что программа не бесплатна. Она требует регистрации. Но при необходимости используйте ABBYY Fine Reader Online без регистрации и бесплатно. Это сэкономит и деньги, если перевод информации из картинки в текст вы делаете редко, и время. Интерфейс в этом режиме очень похож на обычную программу и не вызовет у пользователя затруднений. Да и перевести информацию из картинки в текст online вы сможете на любом компьютере и в любое время.

Особенности [ править | править код ]

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году . Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

OCRFeeder

OCRFeeder — это система анализа макета документов и оптического распознавания символов.

Откройте в этой программе изображения и она автоматически определит контуры областей, в которых находятся изображения и текст и выполнит OCR (распознавание текста) этого документа. Программа может сохранять полученные результаты в разные форматы, главным из них является ODT.

Программа имеет законченный GTK+ графический пользовательский интерфейс, который позволяет пользователям корректировать любые нераспознанные символы, определять или корректировать границы областей текста, устанавливать стили параграфов, очищать введённые изображения, импортировать PDF, сохранять и загружать проект, экспортировать всё в несколько форматов и так далее.

В общем, это программа по функциям схожая с Abbyy FineReader, в некотором смысле, можно сказать, что OCRFeeder это аналог Abbyy FineReader для Linux, по крайней мере, в его базовой функциональности.

Установка OCRFeeder

В своей работе OCRFeeder использует сторонние движки оптического распознавания символов, например, по умолчанию она использует Tesseract. Для установки нужно установить и графический интерфейс OCRFeeder и Tesseract. В Debian и производных Tesseract устанавливается в качестве зависимости, поэтому необязательно указывать этот пакет явно. Но при этом помните, что вместе с Tesseract устанавливается по умолчанию только распознавание английского языка, для дополнительной поддержки русского, нужно явно указать этот пакет. Про распознавание других языков, а также про работу с Tesseract будет рассказано в этой же статье далее.

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

sudo apt install ocrfeeder tesseract-ocr-rus

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

sudo pacman -S ocrfeeder tesseract-data-eng tesseract-data-rus

Как пользоваться OCRFeeder

Для запуска программы найдите её в меню (скорее всего, в разделе Офис):

Или в командной строке выполните команду:

ocrfeeder

Внешний вид программы:

Для анализа у меня есть тестовое изображение:

Загрузим его в программу (для этого нажмите знак плюс +). Вам необязательно добавлять изображения по одному — можно добавлять целыми папками или импортировать PDF документ.

Для распознавания в меню Документ выберем «Распознать документ» (будут распознаны все страницы, которые загружены в программу), либо «Распознать страницу» (будет распознана страница, которая выделена в данный момент).

В правом нижнем углу появляются результаты распознавания текста:

С моим тестовым файлом, результаты неудовлетворительные, поскольку программа неудачно выбрала области для распознавания. Это исправить легко, просто выбираем новую область и выбираем «Распознать выделенную область»:

Как видим, результаты не идеальные, но вполне удовлетворительные — после небольшой ручной корректировки, этот текст пригоден для использования.

Как обычно с системами OCR — чем лучше качество исходного текста (имеют значение ровность, размер, контрастность и другое), тем лучше получается результат (хотя в любом случае требуется вычитка и корректировка полученного при распознавании текста):

По умолчанию языком для распознавания установлен тот же язык, что имеет ваша система, то есть, скорее всего, русский язык. Вы можете изменить язык в Меню → Настройки → Распознавание → Default language. Если вы выбрали неверный язык, то движок оптического распознавания символов вернёт плохие результаты. Если вы выбрали язык, который не поддерживается движком, то он может вернуть пустую страницу.

Вы можете экспортировать для распознавания PDF документы. А полученные результаты сохранять в различных форматах:

  • ODT
  • HTML
  • PDF
  • Простой текст

Также вы можете сохранить весь проект целиком в собственном формате программы.

Если вы запускаете OCRFeeder из командной строки, то вы можете использовать несколько опций для ускорения процесса добавления изображений.

Использование:

ocrfeeder 

Опции:

  --version             показать версию программы и выйти
  -h, --help            показать справку и выйти
  -i ИЗОБРАЖЕНИЕ1 , --images=ИЗОБРАЖЕНИЕ1 
                        изображения, которые будут автоматически добавлены при запуске программы.
                        Используйте эту опцию перед каждым изображением для добавления.
  -d ДИРЕКТОРИЯ, --dir=ДИРЕКТОРИЯ
                        директория с изображениями, которая будет добавлена 
                        автоматически при запуске программы.

ABBYY FineReader

Когда дело доходит до оптического распознавания символов, вряд ли найдется что-то, что даже близко подходит к ABBYY FineReader. ABBYY FineReader позволяет загружать текст со всех видов изображений на одном дыхании.

Несмотря на широкий набор функций, ABBYY FineReader очень прост в использовании. Он может извлекать текст практически из всех популярных форматы изображений, такие как PNG, JPG, BMP и TIFF. И это еще не все. ABBYY FineReader также может извлекать текст из файлов PDF и DJVU. После загрузки исходного файла или изображения (которое предпочтительно должно иметь разрешение не менее 300 т / д для оптимального сканирования) программа анализирует его и автоматически определяет различные разделы файла, имеющие извлекаемый текст. Вы можете либо извлечь весь текст, либо выбрать только некоторые конкретные разделы. После этого все, что вам нужно сделать, это использовать опцию Сохранить, чтобы выбрать формат вывода, а ABBYY FineReader позаботится обо всем остальном. Поддерживаются многочисленные форматы вывода, такие как TXT, PDF, RTF и даже EPUB.

Выводимый текст является полностью редактируемым, и текст даже из самых содержательных документов (например, имеющих несколько столбцов и сложные макеты) извлекается безупречно. Другие функции включают в себя обширная языковая поддержка, многочисленные стили шрифтов / размеры и инструменты коррекции изображения для файлов, полученных из сканеров и камер.

Сказав все это, то, что отличает ABBYY FineReader от остальных программ, это его почти идеальная точность. С новым обновлением Finereader 15, теперь программное обеспечение использует AI для улучшения распознавания символов, AI особенно используется при извлечении текстов из документов, написанных на японском, корейском и китайском языках. Таким образом, если вы хотите получить абсолютно лучшее программное обеспечение для оптического распознавания текста с расширенными функциями, расширенным форматом ввода-вывода и поддержкой обработки, выберите ABBYY FineReader.

Доступность платформы: Windows и macOS

Цена: Платные версии начинаются с $ 199, доступна 30-дневная бесплатная пробная версия

Другие способы распознания текста

Есть ещё немалое количество программ, которые помогут вам распознать текст с любого изображения или файла PDF. Их можно скачать и установить бесплатно. Среди них популярны такие, как:

  1. Top OCR. Преимущество этого софта перед другими программами этого класса – возможность озвучивания распознанного текста и запись в файл mp3.
  2. RiDoc. Функционал утилиты уже в сравнении с Abbyy Finereader, но скорость её работы с подключенным сканером и принтером высокая, а качество текста на выходе также полностью удовлетворяет пользователей.
  3. Capture text. Она разрешает не распознавать весь документ, а выделить только нужный фрагмент текста.
  4. Readiris. Это бесплатный аналог Finereader, который справляется с поставленными ему задачами сканирования текста, распознавания и сохранение в файл нужного расширения.

ПОСМОТРЕТЬ ВИДЕО

Это далеко не полный перечень возможных способов распознания текста и его сохранения, в том числе и в MS Word. Каждый пользователь выбирает подходящую ему утилиту. Программа Abbyy Finereader – признанный фаворит среди подобных программ с большим набором функций для работы с текстом не бесплатна. Поэтому пользователи вместо неё, желая сэкономить, скачивают бесплатные аналоги с интернета, работающие не хуже, хоть и узки в наборе функций.

Основные возможности приложения

  • распознавание текстовых документов более, чем на двадцати языках, среди которых русский, украинский, английский, испанский, немецкий, французский;
  • распознавание всех печатных шрифтов из книг, журналов, газет, с пишущих машин, распечаток из матричных и лазерных принтеров и др.;
  • встроенные оптические алгоритмы, которые могут распознавать текст с факсов или ксерокопий низкого качества;
  • возможность чтения таблиц с разными структурами и степенями сложности, даже если не отображаются линии табличной сетки;
  • сохранение структуры и форматирования документа;
  • словарная проверка для повышения качества (словарь расширяется с помощью импорта новых слов из текстов).

Все итоговые результаты, полученные в программе, можно сохранять практически во всех популярных форматах, а затем удобно и быстро находить их, используя полнотекстовый поиск.

Отличия CuneiForm от аналогов

CuneiForm отличается от других аналогичных программ высоким уровнем техники распознавания, мощнейшим текстовым редактором, наличием встроенных мастеров. Приложение распознает даже те сфотографированные или отсканированные тексты, которые отличаются особенно низким качеством.
Программа качественно преобразовывает электронные графические файлы и бумажные документы в текст для редактирования на уровне коммерческих утилит, являясь при этом абсолютно бесплатной.
Приложения с подобным функционалом: ABBYY FineReader, Tesseract, VietOCR и др.

Принципы работы

В установке программы нет никаких сложностей, нужно только запустить специальный установочный файл и действовать согласно отображаемым инструкциям.
Интерфейс достаточно простой и практически не нуждается ни в каких дополнительных настройках. Основные операции выполняются с помощью кнопок, расположенных на панели инструментов.

Интерфейс CuneiForm

Для начала нужно убедиться, поддерживает ли программа ваш сканер. Если да, то можно нажимать на кнопку «Получить изображение» или открывать готовый скан. Далее производится разметка, распознавание и сохраняется результат в необходимом формате.
В настройках («Файл» — «Общие параметры») можно изменить язык и некоторые другие параметры форматирования, сохранения и сканирования.

Мастер распознавания: Изобажение

Общие параметры

Общие параметры

CuneiForm – довольно мощная и функциональная программа, при помощи возможностей которой можно распознавать любые сфотографированные и отсканированные тексты.

Особенности

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

  • Английский
  • Болгарский
  • Венгерский
  • Голландский
  • Датский
  • Испанский
  • Итальянский
  • Латышский
  • Литовский
  • Немецкий
  • Польский
  • Португальский
  • Румынский
  • Русский
  • Сербский
  • Словенский
  • Турецкий
  • Украинский
  • Французский
  • Хорватский
  • Чешский
  • Шведский
  • Эстонский

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году. Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

gImageReader

gImageReader — это графический GTK+ интерфейс для tesseract-ocr.

Tesseract — пожалуй, самое точное программное обеспечение с открытым исходным кодом для оптического распознавания символов (OCR) и может распознавать текст на более чем 60 языках.

gImageReader поддерживает автоматическое определение макета страницы, но пользователь также может вручную задать и отредактировать области распознавания. Есть возможность импортировать изображения с диска, устройств сканирования, буфера обмена и скриншотов. gImageReader также поддерживает многостраничные документы PDF. Распознанный текст отображается непосредственно рядом с изображением и базовое редактирование текста включает поиск/замену и удаление сломанных строк если это возможно. Также поддерживается проверка орфографии для выводимого текста если установлены соответствующие словари.

Особенности:

  • Импорт PDF документов и изображений с диска, сканирующих устройств, буфера обмена и скриншотов
  • Обработка нескольких изображений и документов за один проход
  • Ручное или автоматическое определение области распознавания
  • Распознавание в простой текст или в документ hOCR
  • Распознанный текст отображается рядом с исходным изображением
  • Последующая обработка текста, включая проверку орфографии
  • Геренирование PDF документов из hOCR документов

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

sudo apt install gimagereader

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

git clone https://aur.archlinux.org/gtkspellmm.git
cd gtkspellmm
makepkg -si

cd ..

git clone https://aur.archlinux.org/gimagereader.git
cd gimagereader
makepkg -si

English[edit]

English Wikipedia has an article on:cuneiform

Wikipedia

Assyrian tablet bearing cuneiform script.

Pronunciationedit

  • (Received Pronunciation) IPA(key): /ˈkjuː.nɪ.fɔːm/, /ˈkjuː.ni.ɪ.fɔːm/, /kjʊˈneɪ.ɪ.fɔːm/

    .mw-parser-output .k-player .k-attribution{visibility:hidden}Audio (UK)

    (file)

  • (General American) IPA(key): /kjuːˈni.ə.fɔɹm/

Adjectiveedit

cuneiform (not )

  1. Having the form of a wedge; wedge-shaped, especially with a tapered end.
    • 1936, W. Frank Calderon, Animal Painting and Anatomy, page 297:
      The cuneiform tendon is always sharply defined when the hock is flexed by the action of the muscle.
    • 1952, Aileen Fox, Roman Exeter (Isca Dumnoniorum): Excavations in the War-damaged Areas, 1945-1947, page 69:
      The cuneiform leaf is not the characteristic heart-shaped early form (O. and P., p. 241).
  2. Written in the writing system.
    • 1911, Alvin Sylvester Zerbe, The Antiquity of Hebrew Writing and Literature, page 182:
      There, too, it was originally the vulgar script in contrast with the official cuneiform script employed for all official documents, compacts, etc.
    • 2000, Jöran Friberg, A Remarkable Collection of Babylonian Mathematical Texts, page ix:
      The text is inscribed on a clay tablet of a very unusual format. The only other known mathematical cuneiform text on a clay tablet of a similar format is also the only previously known Kassite (and therefore post-Old-Babylonian) mathematical cuneiform text.

Translationsedit

having the form of a wedge

  • Afrikaans: wigvormig
  • Bulgarian: клиновиден (klinoviden)
  • Dutch: wigvormig (nl)
  • German:  (de)
  • Greek:  (el) (sfinoeidís)
  • Icelandic: fleyglaga
  • Irish:
  • Russian: клинови́дный (ru) (klinovídnyj)

written in the cuneiform writing system

  • Afrikaans: ,
  • Armenian:  (hy) (sepagir), բեւեռագիր (beweṙagir)
  • Dutch:  (nl) n,  n
  • French:  (fr)
  • Georgian: ლურსმული (lursmuli), სოლისებრი (solisebri)
  • German: keilschriftlich
  • Greek:  (el) (sfinoeidís)
  • Italian:  (it) m or f
  • Polish: klinowy (pl)
  • Russian: клинопи́сный (ru) (klinopísnyj)
  • Spanish:  (es)

Nounedit

cuneiform (plural )

  1. An ancient Mesopotamian writing system, adapted within several language families, originating as pictograms in Sumer around the 30th century BC, evolving into more abstract and characteristic wedge shapes formed by a blunt reed stylus on clay tablets.
  2. (anatomy) A wedge-shaped bone, especially a cuneiform bone.

Translationsedit

ancient writing system

  • Afrikaans: ,
  • Arabic: مِسْمَارِيَّة‎ (mismāriyya)
  • Armenian:  (hy) (sepagir), բեւեռագիր (beweṙagir)
  • Belarusian: клінапіс (klinapis)
  • Bengali: কিউনিফর্ম (kiuniphôrm)
  • Bulgarian: клинопис m (klinopis)
  • Catalan:  (ca) m
  • Chinese:
    Cantonese: (sit3 jing4 man4 zi6), 釘頭文字, 钉头文字 (ding1 tau4 man4 zi6, deng1 tau4 man4 zi6), 箭頭文字, 箭头文字 (zin3 tau4 man4 zi6), 楔形字 (sit3 jing4 zi6), 釘頭字, 钉头字 (ding1 tau4 zi6, deng1 tau4 zi6), 箭頭字, 箭头字 (zin3 tau4 zi6)
    Mandarin:  (zh) (xiēxíng wénzì), 釘頭文字, 钉头文字 (dīngtóu wénzì), 箭頭文字, 箭头文字 (jiàntóu wénzì), 楔形字 (xiēxíngzì), 釘頭字, 钉头字 (dīngtóuzì), 箭頭字, 箭头字 (jiàntóuzì)
    Min Nan: teng-á-jī
  • Czech:  n
  • Danish:  c
  • Dutch:  (nl) n,  n
  • Esperanto: kojnoskribo
  • Finnish:  (fi)
  • French:  (fr) m
  • Georgian: სოლისებრი დამწერლობა (solisebri damc̣erloba), ლურსმული დამწერლობა (lursmuli damc̣erloba)
  • German:  (de) f
  • Greek: σφηνοειδής γραφή f (sfinoeidís grafí)
  • Hebrew: ‎ m (ktav yetedót)
  • Hindi:  (hi) (aṅkan), क्यूनिफार्म (kyūniphārm), कोलाक्षर (hi) m (kolākṣar), कीलाक्षर m (kīlākṣar)
  • Hungarian:  (hu)
  • Icelandic: fleygrúnir f pl, fleygletur n
  • Japanese: (kusabigata moji)
  • Korean: 쐐기문자 (sswaegimunja)
  • Latvian: ķīļraksts (lv) m
  • Macedonian: клинесто писмо n (klinesto pismo)
  • Persian: ‎ (fa) (mixi)
  • Polish:  n
  • Portuguese:  (pt) m
  • Russian:  (ru) f (klínopisʹ)
  • Slovene: klinopis (sl) m
  • Spanish:  f
  • Swedish: kilskrift c
  • Thai: please add this translation if you can
  • Turkish: çivi yazısı (tr)
  • Ukrainian: кли́нопис m (klýnopys)
  • Vietnamese: chữ hình nêm

wedge-shaped bone

  • Catalan:  (ca) m
  • Finnish: (wedge-shaped bone in general); (cuneiform bone)
  • French: os cunéiforme (fr) m
  • Greek:  (el) f (sfinoeidís)
  • Macedonian: клинеста коска f (klinesta koska)
  • Portuguese:  (pt) m
  • Russian: клинови́дная кость (ru) f (klinovídnaja kostʹ)
  • Spanish: ()  m

Как пользоваться

В плане интерфейса и управления программа очень простая. На верхней панели расположились большие кнопки, которые отвечают за основной функционал программы. С их помощью вы сможете сделать следующее:

  1. Распознать текст из сохраненного на жестком диске файла.
  2. Распознать документ с помощью сканера, который подключен к персональному компьютеру.
  3. Выполнить разметку и распознавание в автоматическом или ручном режиме.
  4. Сохранить результат на диске.

Под этими кнопками расположены стандартные функции, с которыми знаком каждый пользователь: копирование, вставка, вырезать, поиск, печать, сохранение и так далее. Еще ниже находится панель для управления шрифтом. Здесь вы можете менять тип и стиль шрифта, его размер, выбирать подчеркивание, курсив, указывать форматирование, отступы и прочее. Проще говоря, часть функционала CuneiForm представляет собой стандартный текстовый редактор. Благодаря ему вы можете через одно приложение внести необходимые правки в документ.

В центре окна расположена рабочая область. После того, как вы загрузили в утилиту картинку или отсканировали документ, его изображение появится именно здесь. Чтобы софт произвел распознавание, нажмите одноименную кнопку на верхней панели. Чем больше информации на изображении, тем больше времени уйдет на преобразование. Если документ был преобразован правильно, то сохраните результат в файл Word в любую папку на жестком диске. Если при сканировании были выявлены неточности, то исправьте их до сохранения файла с помощью встроенного функционала.

История

После того, как лидер программного обеспечения OCR в России, CuneiForm был в конкуренции с ABBYY FineReader.

В 1993 Cognitive Technologies подписала контракт OEM с Corel Corporation, которая позволила библиотеке Cognitive признания быть встроенной в популярный пакет публикации Corel Draw 3.0 (и последующие версии).

В 1996 году, OCR CuneiForm’96 был выпущен, который был первым пакетом OCR включающим адаптивный метод распознавания символов. Этот метод основан на сочетании двух видов печатных алгоритмов распознавания символов: multifont и omnifont. Это система самообучения способна распознавать плохо напечатанные символы, создавая внутренний шрифт, порожденную этими символами, которые были напечатаны достаточно хорошо, чтобы быть признанным. Таким образом, динамическая регулировка (адаптация) для конкретного ввода символов используется.

Оцените статью
Рейтинг автора
5
Материал подготовил
Андрей Измаилов
Наш эксперт
Написано статей
116
Добавить комментарий