Google научила нейросеть распознавать отдельные голоса в толпе

Как это работает?

Нейронная сеть распознает лица и речь, сопоставляет звук с мимикой и выделяет отдельный канал для каждого говорящего. Она умеет выделять и усилять голос, заглушать посторонний шум. Для корректной работы звуковая и видеодорожка должны быть синхронизированы.

Чтобы обучить искусственный интеллект, исследователи собрали коллекцию из 100 000 видеороликов на YouTube и извлекли из них сегменты с речью без помех. К получившимся 2000 часов видео добавили фоновый шум с AudioSet. Сначала сеть училась читать по губам, затем — отсеивать смех, кашель и другие посторонние звуки. Потом её научили различать мимику в диалогах и в том случае, если лицо частично закрыто. В завершение системе показали, как сортировать полученную информацию.

Google собирается использовать функцию в видеочатах Hangouts и Duo: она поможет лучше понимать собеседника, если тот находится в толпе. В слуховых аппаратах система усилит звук голоса, если подключить к ней камеру. Среди других возможностей — применение технологии для точного автоматического составления субтитров. Также возможно использование в методах скрытого наблюдения и подслушивания.

Источник

#искусственный интеллект #новости

Поділитись статтею