Назад к списку

Онлайн сурдопереводчик

Подробнее

AI-алгоритм, который конвертирует видео человека, говорящего на языке жестов, в текстовый формат.

Последние успехи наших специалистов в области компьютерного зрения дают возможность воплотить в жизнь идею беспрепятственного общения и обмена знаниями для людей с ограничениями по слуху или речи.

Распознавание слов языка жестов осуществляется по алгоритму:

  • Получение информации о пространственном положении частей тела с помощью
    модели MediaPipe Holistic. Модель получает на вход изображение, осуществляет поиск людей на этом изображении и строит скелет человека по точкам в трёхмерном пространстве.
SignLab рус.png
  • Подготовка информации. Первичная информация позволяет определять слова,
    но из-за огромной вариативности движений в трёхмерном пространстве, это возможно только для очень ограниченного числа слов. Результатом выполнения преобразований над первичной информацией является вектор, содержащий максимальное количество полезной информации (для одного кадра видео) в минимальном объёме.
  • Распознавание слов языка жестов осуществляется по набору векторов.
    Один вектор характеризует положение частей тела человека на одном кадре видео.

Расширенный text-to-speech и speech-to-text методами, алгоритм способен осуществляет перевод:

  • голос в текст;
  • текст в голос;
  • язык жестов в текст;
  • язык жестов в голос.

В языке жестов отсутствуют знаки препинания и любые другие компоненты, которые могли бы указывать на то что один жест закончился и начался другой. Поэтому для распознавания слов необходимо было решить задачу поиска начала и конца слова на непрерывном временном ряду. Для этого был разработан алгоритм скользящего окна (Windowing method), который по набору множества предыдущих слов может прогнозировать следующее.

Алгоритм реализован для 2 языков: русский и английский.

Сервисы
Время разработки
50 недель 10 разработчиков