Барабанная дробь, плеск воды, шелест листвы и прочие
другие звуки, которые являются звуковым сопровождением какого-нибудь
видеоролика и которые вы сможете услышать в недалеком будущем, вполне могут
иметь не совсем естественное происхождение. "Автором" этих звуков
может являться компьютер и система искусственного интеллекта, которая
достаточно "умна" для того, чтобы разобраться в том, что происходит
на видео и снабдить это все соответствующим звуковым сопровождением. И, в
некоторых случаях, система делает это настолько удачно, что создается
впечатление максимальной реалистичности и естественности звуков, другими
словами, компьютер проходит своего рода аудио-вариант теста Тьюринга.
Создавая систему искусственного интеллекта, специалисты
из Лаборатории информатики и искусственного интеллекта Массачусетского
технологического института начали обучать его на примерах простых действий,
типа постукивания палочкой по книге. Кроме этого, программе были
"скормлены" видео с естественным звуковым сопровождением, на которых
демонстрировалась листва, шелестящая под воздействием ветра, грохот падающих
скал и многое, многое другое. Всего через программу было пропущено более тысячи
видеороликов, в аудио-дорожке которых присутствовало порядка 46 тысяч различных
звуков.
"Алгоритм добывает из видео ключевую информацию по
форме представленных там объектов, о материале, из которого они изготовлены, об
их движении и т.п." - рассказывает Эндрю Оуэнс (Andrew Owens), - "Все
это сопоставляется с звуками из аудио-дорожки и заносится в базу данных".
После получения набора данных в базе, программа
искусственного интеллекта пропустила их через алгоритм так называемого
глубинного изучения. В результате этого искусственный интеллект обрел возможность
идентифицировать объекты на видео и происходящее с ними, плюс к этому, алгоритм
привязал объекты, действия и явления к конкретным звукам.
После процесса самообучения система искусственного
интеллекта стала способной самостоятельно озвучивать загружаемые ей видеоролики
в которых отсутствовала звуковая дорожка. А эксперты, привлеченные к оценке
работы искусственного интеллекта, в среднем два раза из четырех выбирали
звуковую дорожку искусственного происхождения при прохождении аудио-варианта
теста Тьюринга. Но, пока искусственный интеллект имеет свойство ошибаться в
некоторых случаях, особенно, если объект на видео движется неравномерно, а
рывками, что приводит к наложению на видео не совсем соответствующего звукового
сопровождения.
Исследователи надеются, что дополнительное обучение
системы искусственного интеллекта, проведенное на базе более сложных и
разнообразных видеороликов, позволит существенно понизить количество
совершаемых системой ошибок. И после этого ее с успехом можно будет
использовать для "озвучивания" фильмов, телепередач, театральных
постановок и т.п. Еще одной областью применения новой системы может стать
виртуальная реальность, где искусственный интеллект сможет правдоподобно
озвучивать все то, что происходит в виртуальном мире.