Три наиболее значимые проблемы современной дополненной реальности и пути их решения

Ананд Диббль является сотрудником крупной IT-компании, работающей на международном рынке, Brainberry. Недавно он опубликовал статью, в которой провёл тщательный анализ ситуации на рынке дополненной реальности. В ней он определенным образом структурировал существующие сегодня проблемы в этой области и предложил конкретные решения, способные сделать её основной технологией интерфейсов и заинтересовать миллионы пользователей по всему миру.

Во время написания статьи, посвящённой лучшим приложениям дополненной реальности (AR), мне пришлось протестировать их великое множество. Я, вооружившись iPad, бегал вокруг здания и уничтожал незримых противников. За это время мои коллеги по офису сильно устали от меня.

Но это не единственное чем я занимался.

Я понял, что большая часть приложений дополненной реальности, в том числе и самые популярные, существенно отстают в трёх наиболее значимых и взаимосвязанных сферах.

И, конечно, у меня есть предположения, как эту ситуацию исправить.

Проблема №1: Отображение

Не смотря на то, что современные фильмы получаются с практически бесшовной интеграцией в ту или иную кинокартину анимационных компонентов, большая часть AR-приложений выглядят мультяшными. То есть они существенно отличаются от того, что демонстрирует кино наподобие «Аватар» и больше похожи на какой-нибудь «Space Jam» («Космический джем»).

Three-of-the-most-important-problems-of-modern-Augmented-Reality-and-Solutions-i-look.net

При создании фильма движения объекта или человека записываются посредством захвата движения, а затем обрабатываются при помощи анимационного ПО, следовательно, дополнение реальности происходит, после записи движения и хорошо контролируется. AR-приложения в свою очередь фиксируют и создают изображение в режиме реального времени. В этом случае не получится ретушировать анимацию постфактум, а освещение и тени будут всегда выглядеть одинаково вне зависимости от условий окружающей среды. Именно из-за этого качества анимации создаётся ощущение мультяшности, от которого страдают многие AR-приложения. Также присутствуют недостатки в размещение компонентов, но это мы разберём в третьей части обзора.

Эту проблему можно решить, используя освещение на основе картинки (IBL — Image-BasedLighting). Подобный способ 3D-рендеринга работает при помощи специальной камеры для съёмки освещения, помещенной в определенную среду и использующей результат уже созданной компьютером картинки. Проблема тут состоит в том, что современные смартфоны не обладают достаточной вычислительной мощностью для поддержки такого программного обеспечения, а на носимые гаджеты оно будет распространяться ещё дольше. К тому же, в связи с подобным состоянием технологий к этим аппаратам навряд ли будет добавлена дополнительная камера лишь для лучшей прорисовки объектов.

Другой проблемой является регистрация перемещения – необходимость ориентиров. Однако это уже скорее относится ко второй главе.

Проблема №2: Распознавание объектов

Одним из первых, анонсированных AR-приложений, стало GoogleGoggles. Я его установил на свой смартфон и проанализировал с ним следующие три вещи: очки и чашка, компьютерная мышь и  бутылка воды. Т.е. то, что находилось рядом.

Получил же я следующий результат: обувь и сумка, диван, платья. Также я тестировал другие подобные приложения. Похоже, что они справляются лучше с этой задачей, но все они тоже работают на недостаточно высоком уровне.

Есть две причины, почему это важно для дополненной реальности. Первая: если ваш гаджет не способен определить то, что расположено перед ним, то он никак не передаст вам корректную информацию об увиденном. Вторая причина также касается регистрации движения.

Для правильной работы регистрации пользователю в кадре необходима фиксированная точка отсчёта. Смартфоны, обладающие гироскопом способны решить эту проблему до определенного уровня, так как он даёт им слабую проприоцепцию. Но эта фиксированная точка также нужна для определения передвижения анимированного объекта относительно живой сцены.

Её можно устранить, только увеличивая базу данных, с которой работает гаджет, и улучшая ПО. Распознавание объектов можно воспринимать как результат поиска. Входная информация (картинка) получена, сопоставлена с другими изображениями в базе данных и определяется принадлежность объекта посредством набора алгоритмов. Увы, поиск изображений является более сложным процессом, чем обычный поиск в Сети, и наши вычисления запаздывают. Интеллектуальная обработка, которая нужна для распознавания видеоряда, удаётся компьютеру с натяжкой, и многие из нас этого не осознают.

Благодаря распознаванию объектов можно избежать использования 2D-маркеров и QR-кодов, которые используют практически все нынешние AR-приложения. К тому же это могло бы стать основой для создания браузера дополненной реальности для физического мира, способного взаимодействовать с реальными объектами.

Проблема №3: Бинокулярное зрение

Я тестировал приложение, которое предположительно должно было показать, как будет смотреться мебель у меня в комнате. У меня нормально получалось выбирать «мультяшную» мебель и размещать её в комнате. Однако тут я столкнулся с одной весьма серьёзной проблемой. Мебель всегда словно парила в нескольких сантиметрах над полом.

Это всё связано с третьей проблемой, а именно с глубиной восприятия.

Мы обладаем бинокулярным зрением, поэтому можем воспринимать глубину. Благодаря этому мы понимаем расстояние между вещами. Мой смартфон с одной камерой это не может сделать.

Существует несколько способов обхода этой проблемы. Первый из них – это эхолокация. Это не лучший вариант, так как он создаёт шумовое загрязнение. Можно проводить её на частоте, которая является неслышимой для человека, но она всё равно может вызывать определенный дискомфорт у животных. Также она не способна создавать зримую 3D-среду с использованием одного лишь звука, так как данные эхолоакции необходимо объединить с информацией о видимом свете. Это же касается и тепловых данных, хотя конечно, эхолоакция более предпочтительна для эксплуатации при слабой освещённости.

Я думаю, что лучшим способом решения данной проблемы является то, к чему человек пришёл естественным образом в результате эволюции, а именно бинокулярное зрение. Это смог реализовать Kinect, правда в тринокулярном режиме, а также FirePhone. Он использует пять камер смотрящих в сторону пользователя. Они способны определить ваше месторасположение относительно смартфона. Пока есть определенные накладки в работе, но это передовая технология, и, как и ожидалось, первые модели имеют множество ошибок.

Обсудить на форуме.