Хочу представить читателям новую программу от ABBYY под названием FineReader Touch для iPhone. Как явствует из названия, речь идет реализации концепта распознания текста на мобильной платформе. Меня это сразу заинтересовало, потому что я элементарно не мог себе представить, каким образом разработчик собирается реализовать функционал «взрослого» Файнридера на «игрушечном» смартфоне. Объясню почему.
Чисто технические возможности современных мобильных устройств колоссальны и в прямом смысле слова сносят голову. Возьмем, к примеру, Jiayu G4 Advanced, за которым я уже лыжи наточил прокатиться весной в Бангалоре — благо всего 560 км от зимнего дома. Айфон айфоном, но удержаться от обладания ТАКИМ монстром я — уж простите — не в состоянии: четырехъядерное сердце 1.2 GHz Cortex A7, система на кристалле (SoC) MediaTek 1.2GHz MT6589, 2 Gb RAM, 32Gb под хранение данных, IPS LCD 4,7″ экран 720х1280, защищенных Corning Gorilla Glass 2, 32 Gb RAM, 13-мегапиксельная задняя камера и 3-мегапиксельная передняя, аккумулятор на 3000 mAh, две SIM-карты, Bluetooth v4.0, слот microUSB — и ВСЁ ЭТО за 249 долларов!
А ведь есть еще и другой чайнафон — Umi X2, в котором разрешение экрана доведено до Full HD (1920×1080, правда, на 5-ти дюймах — лопата для меня лично неприемлемая).
Так, вот: на фоне столь фантастической мощности железной начинки, которая затыкает за пояс ноутбуки и настольные компьютеры семи-девятилетней давности, программное обеспечение мобильных устройств заставляет биться в истерике. Какие-то детские недотыкомки, едва-едва выбивающиеся по функционалу из категории примитивного органайзера. Читалочка там, тудушечка, редактор текстовый, плеер, браузерок да твитер. Всё!
Где реальные монстры программного обеспечения, способные задействовать в полном объеме железную составляющую, которая приблизилась к суперкомпьютерам 90х годов?! Вы представляете, что только можно делать на современном смартфоне? Рассчитывать, например, нейросеть с десятками показателей финансового рынка и выдавать в реальном времени триггеры для открытия биржевых позиций. Анализировать данные, поступающие с компьютерного томографа, причем мощности хватит и для обработки данных и для графического воспроизведения на самом высоком уровне разрешения (том самом Full HD). Управлять реляционной базой данных с порой-тройкой миллионов записей. Ну и так далее.
Ничего подобного в софтверном сопровождении нет даже в проекции. И не потому, что, якобы, нет спроса (чушь собачья! спроса нет массового, зато на уровне профессиональных пользователей — от врачей до банкиров, финансистов и следователей уголовного розыска — спрос такой, что можно будет выставлять цену на мобильный продукт значительно выше, чем для стационарного компьютера), а потому что нет умеющих программистов!
Софт для мобильных устройств в 99 случаев из 100 пишется доморощенными любителями-наколеночниками, вчерашними (и сегодняшними) школьниками, в лучшем случае — софоморами. По этому причине мы и наблюдаем колоссальную пропасть между потенциалом мобильного «железа» и программным наполнением наших смартфонов и планшетов.
Возвращаемся теперь к Abbyy FineReader Touch для iPhone. Программа меня заинтриговала именно прорывом в царство серьезного софта из привычной мобильной песочницы. Функционал оптического распознавания текта (OCR) — это уже по-взрослому. Скажем, движок преобразования текста в речь — вроде того, что в строен в микрочудо Evolvo («Об Алёне из Эволвы и пальцевом вводе косинуса«) — также принадлежит уже к категории взрослых продуктов, однако по сложности реализации очевидно уступает OCR.
Скажу сразу, ABBYY не совершила революционного прорыва, написав программу для оптического распознания речи, задействующую непосредственно возможности мобильной операционной системы (iOS). Однако ABBYY предложила весьма оригинальную и очень, на мой взгляд, перспективную парадигму, которая в ближайшем будущем позволит малой кровью, но при этом достаточно эффективно компенсировать недостаток взрослого софта на наших смартфонах. Во всяком случае нам не придется ждать, пока народится и оформится профессионально новое поколение ответственных и умелых программистов 🙂
Если коротко, то суть подхода ABBYY к решению вопроса сводится к дистанционному делегированию услуг. Выглядит это следующим образом:
1) Мы фотографируем встроенной в айфон камерой любой текстовых документ:
Очень удобный момент: электронную кнопку затвора можно нажимать сколько угодно раз — FineReader Touch автоматически добавляет всё новые и новые страницы до тех пор, пока вы не дадите программе понять, что съемка завершена. Это очень удобно, скажем, в ситуации, когда вы заглянули в книжный магазин, зачитались журнальной статьей (или книгой 🙂 и решили отложить чтение, либо просто сохранить текст в электронном виде. В этом случае вы фотографируете нужные страницы и сохраняете их в FineReader Touch.
2) Проводим предварительную обработку изображения (ротация и обрезка):
Обратите внимание: изображения в техническом отношении очень сложные. FineReader Touch автоматически пытается поймать верную проекцию изображения, учитывая оптическое искажение. После обрезки видно, что «рыбий глаз» сильный и движку OCR придется серьезно попотеть.
3) Нажимаем кнопку «Распознать» и программа FineReader Touch … отсылает изображения на специальный сервер ABBYY!
Да, я понимаю ваше разочарование: подлинного чуда не происходит — могучее железо айфона не задействуется для непосредственного распознания текстовой графики и волшебной придачи ему оцифрованного вида. Зато происходит чудо поменьше: наша задача так или иначе выполняется, причем с минимальной для конечного пользователя головной болью!
Вспомните, сколько времени у нас уходило для OCR в программе FineReader! Сколько кнопочек приходилось нажимать, сколько настроек подкручивать, сколько исправлений вносить в выданный компьютером результат. Делегируя услуги на сервер ABBYY, мы экономим уйму времени. При условии, разумеется, что полученный с сервера результат окажется как минимум пристойным (а как максимум — безупречным).
Сервер ABBYY вернул обработанный и распознанный документ через четыре минуты. Следить за окончанием работы не обязательно: отчет о результате поступит в приложение в принудительном режиме, а результат распознавание будет безвозмездно храниться на сервере 14 дней:
Обратите внимание на изменение цифры «баланса» — было 97, стало 94. FineReader Touch изначально позволяет бесплатно распознать 100 страниц текста. После исчерпания лимита, вы пополняете баланс, докупая пакеты по 100 страниц.
Поглядим теперь на распознание текста из нашего примера (программа выдает результат в формате DOCX):
Тот же текст, открытый в читалке GoodReader:
Общее впечатление: один в один «сырой вариант» после обработки стационарным FineReader’ом, после которого текст доводится до ума уже ручками. В мобильных условиях fine tuning выполняется в любом редакторе, установленном на смартфоне:
По гамбургскому счету полностью автономное приложение для распознавания текста на смартфоне в функциональном отношении было бы предпочтительнее. Но это лишь в том случае, если для вас работа с OCR является важным элементом жизни (профессии). При возникновении потребности в распознании текста от случая к случаю вариант с делегированием услуг серверу, реализованный ABBYY в FineReader Touch, явно предпочтительнее. И для пользователя, и — уж подавно! — для разработчика, поскольку встроенные продажи 100-страничных пакетов распознавания открывает приятный канал для денежных поступлений.
Подводим теперь итоги нашей лингвистической викторины. Сложность с определением языка в квизе, на мой взгляд, заключалась только в деталях. То, что перед нами язык скандинавской группы, видно было невооруженным глазом. Тем удивительнее взятые с неведомого потолка версии вроде венгерского, африкаанс, баскский и т.п.
Итак, язык в клипе — фарерский (føroyskt), на котором разговаривает народ-душегуб с Фарерских островов (если кто-то забыл про ту мою «Голубятню» — напоминаю: «Grindadrap«). Кстати, за четыре года после откровения китовых бойнь к моим познаниям прибавилось еще много показательного из жизни последних варваров Европы. Любимое лакомство бесов — овечья голова (жрут глаза, мозги и щеки). Воспитание будущих менгеле начинают с раннего детства («За неделю до нашего приезда, двенадцатилетняя дочь Биргира привела в класс живую овцу, прямо в классе убила её при помощи специального пневматического пистолета и в классе же выпотрошила. Остальные дети помогали ей по мере сил: на Фарерах это никого не шокирует» — из путевого дневника).
Вот они, кстати — лоснящиеся и румяненькие фарерчики (заимствовано из помянутого дневника: «Вопреки истерикам защитников китов, люди там очень открытые, чистые и во многих вопросах девственные»):
Всего пришло четыре верных ответа. Победитель — Дмитрий (oasis@smtp.ru), которого мы искренне поздравляем и награждаем подарочной моделью электронной сигареты Cubica CC.
В следующий вторник мы разыграем в традиционной аудиовикторине помимо подарка от Supersmoke два регистрационных кода ABBYY FineReader Touch для iPhone и еще два кода TextGrabber + Translator для Android, оставшихся после очень трудного квиза с языком аймара.