Хотите узнать, что о вас думает ваш питомец? ИИ смог расшифровать собачий лай

Представьте, что можно понять собаку каждый раз, когда она лает, скулит или рычит. Такую возможность предоставило недавнее исследование ученых из Мичиганского университета в сотрудничестве с Национальным институтом астрофизики, оптики и электроники в Пуэбле, Мексика.

Его результаты были представлены на Объединенной международной конференции по вычислительной лингвистике, языковым ресурсам и оценке.

Исследователи выяснили, как искусственный интеллект может интерпретировать вокальные сигналы собак, отличая игривый лай от агрессивного рычания и даже определяя такие характеристики, как возраст, порода и пол собаки. Полученные результаты свидетельствуют о том, что модели ИИ, изначально разработанные для человеческой речи, могут быть адаптированы для анализа способов коммуникации животных, открывая новые пути к общению с домашними любимцами.

Собаки известны своей сильной привязанностью к человеку и часто воспринимаются как верные компаньоны, которые глубоко нас понимают. Однако наше представление о них, в частности об их вокальной коммуникации, все еще ограниченное. Используя передовые технологии искусственного интеллекта, ученые попытались расшифровать вокальные сигналы собак, что может не только улучшить отношения между человеком и собакой, но и повысить уровень благополучия животных за счет лучшего понимания их потребностей и эмоций.

Чтобы изучить эту возможность, исследователи собрали данные о лае 74 собак в Тепике и Пуэбле (Мексика). Собаки в возрасте от пяти до 84 месяцев, средний возраст — 35 месяцев, были преимущественно чихуахуа, французскими пуделями и шнауцерами. Записи были сделаны в естественной домашней обстановке, чтобы зафиксировать подлинные вокальные реакции собак.

Исследователи подвергали собак воздействию различных стимулов, призванных вызвать различные типы вокализации. Эти стимулы включали в себя такие ситуации, как присутствие незнакомца, игра, ласковые слова и даже имитация нападения на хозяина. Вокализации были записаны на камеру и для анализа использовались только аудиокомпоненты.

«Вокальные сигналы животных гораздо сложнее получить и записать. Их приходится записывать в дикой природе или, в случае с домашними животными, с разрешения владельцев», - рассказал ведущий автор исследования и докторант Мичиганского университета в области компьютерных наук и инженерии Артем Абзалиев.

Затем аудиозаписи были разделены на более короткие фрагменты продолжительностью от 0,3 до пяти секунд и вручную аннотированы в зависимости от контекста, в котором они прозвучали. В результате аннотирования были выделены четырнадцать отдельных категорий вокализаций, таких как очень агрессивный лай на незнакомца, обычный лай на незнакомца, лай, вызванный нападением на хозяина, и игривый лай во время игр.

В основе анализа лежит использование сложной модели искусственного интеллекта Wav2Vec2, изначально разработанной для распознавания человеческой речи. Исследователи доработали эту модель с помощью набора данных собачьих вокализаций, изучив несколько задач. Эти задачи включали в себя идентификацию собак по их лаю, определение породы собаки по ее вокализации, пола собаки и привязку лая к конкретному контексту.

Модель искусственного интеллекта продемонстрировала поразительную способность распознавать отдельных особей по их лаю. Модель, обученная на данных о человеческой речи, значительно превзошла модель, обученную с нуля. Она достигла почти 50% точности по сравнению с 24% у модели, обученной исключительно на данных о собаках. Следовательно, предварительное обучение на человеческой речи обеспечивает надежную основу для понимания моделью сложных структур в вокализации животных.

«Используя модели ИИ, обученные на человеческой речи, наше исследование открывает новое окно в то, как мы можем использовать уже созданное нами в области обработки речи, чтобы начать понимать нюансы собачьего лая», — говорит профессор компьютерных наук и инженерии и директор лаборатории ИИ Мичиганского университета Рада Михалча.

Модель ИИ успешно определила породу собаки по ее лаю, а также отлично справилась с привязкой лая к конкретному контексту. Она могла различать типы лая, например очень агрессивный лай на незнакомца и обычный лай на незнакомца. Предварительно обученная модель достигла наивысшей точности в этой задаче, что подчеркивает преимущества использования предварительного обучения человеческой речи для понимания вокализации животных.

«Это первый случай, когда инструменты, оптимизированные для человеческой речи, были использованы для расшифровки коммуникации животных. Наши результаты показывают, что звуки и паттерны, полученные из человеческой речи, могут служить основой для анализа и понимания акустических паттернов других звуков, например вокализации собак», — объясняет Михалча.

Хотя результаты исследования многообещающие, у него есть несколько ограничений. Во-первых, набор данных был ограничен небольшим количеством пород и относительно однородной выборкой. Будущие исследования должны включать более широкий спектр пород собак и более разнообразные выборки, чтобы убедиться, что модели ИИ могут обобщать различные популяции.

Кроме того, исследование было сосредоточено исключительно на домашних собаках. Если распространить это исследование на другие виды, например птиц или морских млекопитающих, то можно получить дополнительные сведения о коммуникации животных. Исследователи также использовали одну архитектуру ИИ — Wav2Vec2. Изучение других моделей нейронных сетей может выявить более эффективные и точные методы анализа вокализации животных.

Источник