Спойлер: среди них нет английского.

Языки, которые лучше всего помогают ИИ учиться: результаты исследования AIRI

Институт AIRI представил на конференции ACL 2024 в Таиланде результаты уникального исследования, в котором проанализировано взаимодействие 189 языков для обучения ИИ, пишет «Хайтек». Совместно с учеными из Сколтеха, исследователи определили «супердоноров» и «суперреципиентов» — то есть языки, которые наиболее эффективно передают и усваивают знания для улучшения работы моделей искусственного интеллекта.

Несмотря на обилие разговорных языков в мире, только малый их процент используется в современных технологиях, а большинство остается малоресурсными (МРЯ). Исследование показало, что английский язык, вопреки ожиданиям, не стал лучшим источником знаний для ИИ. Среди «супердоноров» выделились африкаанс, словенский, литовский и французский, а «суперреципиенты» — гуарани и коптский.

Используя модель mT5 для межъязыкового переноса, ученые продемонстрировали, что обучение ИИ на многоресурсных языках улучшает его понимание малоресурсных, что открывает новые перспективы для изучения и обработки редких языков.

Поделиться: