Як правило, якщо мова заходить про програми для розпізнавання відсканованого тексту (OCR, оптичне розпізнавання символів), більшість користувачів згадують єдиний продукт - ABBYY FineReader, який, безперечно, є лідером серед такого програмного забезпечення в Росії і одним з лідерів в світі.
Проте, FineReader - не єдине такого роду рішення: є безкоштовні програми для розпізнавання тексту, онлайн-сервіси для цих же цілей і, більш того, такі функції присутні і в деяких знайомих вам програмах, які, можливо, вже встановлені на вашому комп'ютері . Про все це я і постараюся написати в цій статті. Всі розглянуті програми працюють в Windows 7, 8 і XP.
Лідер розпізнавання текстів - програма ABBYY Finereader
Про FineReader (вимовляється як Файн Рідер) чули, напевно, більшість з вас. Ця програма краща або одна з кращих для якісного розпізнавання текстів російською мовою. Програма є платною і ціна ліцензії для домашнього використання складає трохи менше 2000 рублів. Також є можливість завантажити пробну версію FineReader або ж скористатися онлайн розпізнаванням текстів в ABBYY Fine Reader Online (безкоштовно можна розпізнати кілька сторінок, далі - платно). Все це є на офіційному сайті розробника http://www.abbyy.ru.
Установка пробної версії FineReader не викликало ніяких проблем. ПО може інтегруватися з Microsoft Office і Провідником Windows, для того щоб було зручніше розпочати розпізнавання. З обмежень безкоштовної пробної версії - 15 діб використання і можливість розпізнати не більше 50 сторінок.
Знімок для тестування програм розпізнавання
Так як сканера у мене немає, то для перевірки я скористався знімком з неякісної камери телефону, в якому трохи відредагував контрастність. Якість нікуди не придатне, подивимося, хто впорається.
Меню програми FineReader
FineReader може отримувати графічне зображення тексту безпосередньо зі сканера, з графічних файлів або камери. У моєму випадку, досить було відкрити файл зображення. Результат порадував - всього пара помилок. Відразу скажу, що це найкращий результат з усіх перевірених програм при роботі з даним зразком - схоже якість розпізнавання було тільки на безкоштовному онлайн сервісі Free Online OCR (але в цьому огляді ми говоримо тільки про програмні засоби, що не онлайн розпізнаванні).
Результат розпізнавання тексту в FineReader
Відверто кажучи, для кириличних текстів у FineReader, напевно, немає конкурентів.Плюсами програми є не тільки якість розпізнавання текстів, а й широка функціональність, підтримка форматування, грамотний експорт в безліч форматів, включаючи Word docx, pdf та інші можливості. Таким чином, якщо завдання OCR - це те, з чим ви стикаєтеся постійно, то не пошкодуйте порівняно невеликої суми грошей і це цілком окупиться: ви заощадите величезну кількість часу, швидко отримуючи якісний результат в FineReader. Я, до речі, не рекламую нічого - дійсно вважаю, що тим, кому потрібно розпізнати більше десятка сторінок, варто задуматися про покупку такого ПО.
CuneiForm - безкоштовна програма для розпізнавання тексту
За моєю оцінкою, друга за популярністю програма OCR в Росії - безкоштовна CuneiForm, скачати яку можна з офіційного сайту http://cognitiveforms.ru/products/cuneiform/.
Установка програми також дуже проста, ніякого сторонніх програм (як багато безкоштовне ПО) вона встановити не намагається. Інтерфейс лаконічний і зрозумілий. У деяких випадках найпростіше скористатися майстром, для чого призначена перша з іконок в меню.
З зразком, яким я користувався в FineReader, програма не впоралася, або, точніше, видала щось погано читається і недоноски слів.Друга спроба була зроблена зі скріншотом тексту з сайту самої цієї програми, який, правда, довелося збільшити (їй потрібні скани з дозволом 200dpi і вище, скріншоти з товщиною ліній шрифтів 1-2 пікселя вона не читає). Тут вона впоралася добре (частина тексту не розпізнає, так як був обраний тільки російську мову).
Розпізнавання тексту в CuneiForm
Таким чином, можна припустити, що CuneiForm - це те, що слід спробувати, особливо якщо у вас якісно відскановані сторінки і ви хочете розпізнати їх безкоштовно.
Microsoft OneNote - програма, яка у вас, можливо, вже є
До складу Microsoft Office, починаючи з версії 2007 і закінчуючи поточної, 2013, присутній програма для ведення нотаток - OneNote. У ній також присутні функції розпізнавання тексту. Для того, щоб скористатися нею, просто вставте відскановане або будь-яке інше зображення тексту в замітку, клікніть правою клавішею миші по ній і скористайтеся контекстним меню. Зазначу, що за замовчуванням для розпізнавання встановлений англійську мову.
Розпізнавання в Microsoft OneNote
Не можу сказати, що текст розпізнається ідеально, але, наскільки я можу судити, наскільки краще навіть ніж в CuneiForm.Плюс програми, як уже було сказано, в тому, що з неабиякою ймовірністю вона вже встановлена на вашому комп'ютері. Хоча, звичайно, її використання в разі необхідності роботи з великою кількістю відсканованих документів навряд чи буде зручним, скоріше вона підійде для швидкого розпізнавання візиток.
OmniPage Ultimate, OmniPage 18 - має бути, щось дуже круте
Я не знаю, наскільки хороша програма для розпізнавання текстів OmniPage: пробних версій немає, десь завантажувати не хочу. Але, якщо її ціна виправдана, а вона обійдеться приблизно в 5000 рублів у версії для індивідуального використання і не Ultimate, то це повинно бути щось вражаюче. Сторінка програми: http://www.nuance.com/for-individuals/by-product/omnipage/index.htm
Ціна на ПО OmniPage
Якщо ознайомитися з характеристиками і відгуками, в тому числі і в російськомовних виданнях, в них зазначається, що OmniPage дійсно забезпечує якісне і точне розпізнавання, в тому числі і російською мовою, порівняно легко розбирає не самі якісні скани і надає набір додаткових інструментів. З недоліків виділяють не найзручніший, особливо для початківців, інтерфейс. Так чи інакше, на західному ринку OmniPage - прямий конкурент FineReader і в англомовних рейтингах вони борються саме між собою, а тому, думаю, програма повинна бути гідною.
Це далеко не всі програми даного типу, існують також різні варіанти невеликих безкоштовних програм, але, поки експериментував з ними знайшов два головні недоліки їм властивих: відсутність підтримки кирилиці, або різне, не дуже корисне ПО в комплекті установки, а тому вирішив не згадувати їх тут.