Спойлер: среди них нет английского.
Институт AIRI представил на конференции ACL 2024 в Таиланде результаты уникального исследования, в котором проанализировано взаимодействие 189 языков для обучения ИИ, пишет "Хайтек". Совместно с учеными из Сколтеха, исследователи определили «супердоноров» и «суперреципиентов» — то есть языки, которые наиболее эффективно передают и усваивают знания для улучшения работы моделей искусственного интеллекта.
Несмотря на обилие разговорных языков в мире, только малый их процент используется в современных технологиях, а большинство остается малоресурсными (МРЯ). Исследование показало, что английский язык, вопреки ожиданиям, не стал лучшим источником знаний для ИИ. Среди «супердоноров» выделились африкаанс, словенский, литовский и французский, а «суперреципиенты» — гуарани и коптский.
Используя модель mT5 для межъязыкового переноса, ученые продемонстрировали, что обучение ИИ на многоресурсных языках улучшает его понимание малоресурсных, что открывает новые перспективы для изучения и обработки редких языков.