Главная | Проекты | ПО для автоматического монтажа видеолекций

ПО для автоматического монтажа видеолекций

Технологии машинного зрения и нейросетевые методы обработки видеоматериала ускоряют и удешевляют съемку и монтаж за счет автоматизации работы операторов и монтажеров.

Задача

При съемках видеолекций в аудиторных условиях видеоматериал необходимо редактировать: удалять неинформативные элементы клипов, выполнять цветокоррекцию – делать всё, чтобы снятая в полевых условиях лекция была удобна и приятна для просмотра студентом в дистанционном режиме. Зачастую на этапе обработки приходится бороться с дефектами видео, вызванными проблемами с освещением или проектором, нештатными ситуациями во время съемки.

Метод ручной статической сборки применяется для того, чтобы заменить изображение проектора на видеозаписи кадрами из оригинальных презентационных материалов. Это повышает разборчивость демонстрируемых презентационных материалов, но при этом имеет много недостатков: трудоемкость; неестественный вид из-за несоответствия цветовых моделей видео и презентационных материалов; «отрезание» части лектора или посторонних предметов, попадающих в зону презентации.

Задача заключалась в разработке программной модели для интеллектуального анализа видеолекций для проведения статической сборки в автоматическом режиме с отсутствием описанных недостатков.

Разработанная система выполняет следующие ключевые функции:

  • предварительная обработка видеоданных с целью улучшения качества, настройки цветовых моделей и моделей освещения;
  • обработка видеопотока с целью обнаружения, локализации, распознавания и классификации элементов в кадре;
  • удаление неинформативных элементов сцены;
  • замена изображения проектора на видеозаписи кадрами из оригинальных презентационных материалов;
  • размещение слоя с лектором поверх наложенных презентационных материалов;
  • сохранение видео в заданных форматах, в том числе для выполнения последующей обработки в ручном режиме.

Решение

Разработанный программный комплекс состоит из двух подсистем.

Подсистема «Автослайд»

Автоматически совмещает видео и презентацию лектора в процессе постобработки видео. Оба файла загружаются в систему; нейронная сеть определяет, какой слайд показывается в определенный момент времени и автоматически заменяет его четким, ярким, подходящим по размеру слайдом из оригинальной презентации. Это освобождает монтажера от долгой и рутинной работы по ручной вставке нужных материалов.

Также система распознает фигуру лектора в видеопотоке, выделяет ее и размещает изображение поверх вставленного слайда, обеспечивая реалистичность выходного видеопотока.

Подсистема «Автооператор»

Позволяет снимать видеолекции без участия видеооператора. Камеры сверхвысокого разрешения, установленные в аудитории, снимают общий план. Во время обработки видео система самостоятельно определяет активную зону и кадрирует изображение, опираясь при этом на опыт профессиональных операторов.

 До обработки                                                                                  После обработки    

Преимущества решения

  • Автоматизирует труд операторов и монтажеров, который составляет 80% времени и всей стоимости производства.
  • Удешевляет производство видеолекций: обычно 90% бюджета идет на оплату съемки и монтажа.
  • Ускоряет выпуск видеолекций за счет исключения ручного монтажа, который занимает 80% времени подготовки.
  • Повышает качество конечного видеопродукта: слайды включены в видеопоток более корректно, отсутствие зрительных помех улучшает восприятие материала.
  • ПО доступно по стоимости и является бюджетной альтернативой комплексным решениям для съемки видеоконференций от известных мировых производителей, так как не требует закупки и установки дорогостоящего специализированного оборудования.

Детали

Разработаны два программных средства, совмещенных в одном веб-интерфейсе, что позволяет использовать их как в отдельности, так и совместно, что включает в себя последовательную обработку видеолекции в каждой из подсистем.

  • Для работы подсистемы «Автослайд» требуется загрузить исходный видеофайл и презентационные материалы, установить настройки в зависимости от условий, в которых была снята видеолекция, а также в зависимости от свойств презентационных материалов. В начале обработки происходит обнаружение презентационных материалов на протяжении всего видео, что позволяет стабилизировать изображение. Далее для каждой последовательности кадров с одинаковым изображением презентационной зоны подбирается соответствующий слайд из презентационных материалов на основе метода ключевых точек, выполняется замена, далее – цветокоррекция. В завершении обработки выделяется маска лектора, с помощью которой лектор располагается поверх наложенной презентации, помогая избежать нереалистичных моментов на видео, связанных с размещением презентации поверх лектора. Скачать файл можно или в формате видеозаписи, или в формате проекта, совместимом с Adobe Premier Pro для его последующей ручной обработки.
  • Для работы подсистемы «Автооператор» требуется загрузить исходный видеофайл, предварительно снятый со статично установленной в аудитории камеры сверхвысокого разрешения. В начале обработки происходит обнаружение лектора и зон отображения информации (меловые или маркерные доски, проекторы, флип-чарты), определение тех из них, что используются в рамках конкретной лекции для отображения информации. Далее на основе оцифрованного опыта операторов происходит кадрирование видеопотока, основанное на статичных положениях и переходах. В результаты работы подсистемы «Автооператор» происходит удаление неинформативных элементов сцены.

При решении поставленных задач были использованы нейросетевые технологии. Переданный заказчиком набор исходных данных был размечен и использован для обучения нейросети. Таким образом достигается высокий уровень реалистичности при имитации работы операторов и монтажеров.

Задачи «Лекториума» – предоставление исходных данных (в том числе синтетических для проверки гипотез), проведений консультаций по работе операторов и монтажеров, промежуточная и итоговая апробация разработанных программных средств

Задачи лаборатории ПСПОД – разработка алгоритмов и программных средств интеллектуального анализа видеолекций.

 

Научно-техническая новизна разработки

заключается в автоматизации деятельности операторов и монтажеров неалгоритмическими методами. Применение такого подхода в большей степени подходит для слабо формализуемой, отчасти творческой работы по созданию видеолекций.

Достигнута точность распознавания ключевых элементов в кадре – порядка 99% в студийных условиях и порядка 95% в аудиторных условиях. Скорость обработки – порядка 10 кадров в секунду.

На текущий момент ведется доработка подсистемы «Автооператор», связанная с расширением её функциональности. Кроме того, существуют планы по созданию новых интеллектуальных продуктов в сфере дистанционного образования.

Технические преимущества:

  1. Возможность применения на этапе постобработки видеолекции.
  2. Повышенная реалистичность за счет применения нейросетевых технологий.
  3. Конфигурируемость применяемых модулей.

Технологии

Языки программирования и фреймворки: С++, Qt, OpenCV, ffmpeg, RabbitMQ AMQP
Web языки и технологии php, javascript, css, RabbitMQ
OS: linux
Архитектуры: x86
CVS: git (GitLab)
СУБД/БД MariaDB
 IDE Qt Creator
Реверс инжиниринг Adobe Premiere project file

РИД

Проект реализован в сотрудничестве с просветительским проектом «Лекториум» и при финансовой поддержке Фонда содействия развитию малых форм предприятий в научно-технической сфере (ФСИ).

Ключевые исполнители

  • Руководитель проекта - М.В. Болсуновская
  • Математик-алгоритмист - Н.А. Абрамов
  • Главный разработчик - К.О. Беляевский
  • Веб-разработчики - А.В. Никитина, М.А. Фомина
  • Менеджер проекта - А.М. Гинцяк

Индустриальные партнёры