Лучшие модели искусственного интеллекта не сдали украинское ВНО, — исследование

Name: Лучшие модели искусственного интеллекта не сдали украинское ВНО, — исследование
Item: Лучшие модели искусственного интеллекта не сдали украинское ВНО, — исследование
Author: RadaKarp

ATinformТехно 18.07.2025 в 13:25 429 Обсудить

Фото: скриншот

Наибольшие трудности вызывали визуально-текстовые задания

Хотя искусственный интеллект уже давно обгоняет людей в скорости обработки данных и точности вычислений, его логическое мышление и аналитический подход, как и раньше, оставляет желать лучшего. К тому же, ChatGPT и другие популярные модели ИИ не сдали бы украинского ВНО. Как сообщает Dev.ua, команда украинских исследователей представила ZNOVision – первый многоформатный тест для ИИ, проверяющий знания по 13 предметам ВНО на украинском языке. К тестированию привлекли шесть 6 крупных языковых моделей разных разработчиков, включая OpenAI, Google и Claude.

Бенчмарк состоит из более чем 4 300 вопросов и охватывает 12 академических дисциплин, среди которых математика, физика, химия и гуманитарные науки. Более половины из них содержат визуальный компонент – схемы, диаграммы, рисунки. Часть вопросов требует логического вывода (reasoning), другая – точной интерпретации инструкций на украинском языке.

Результаты теста показали, что искусственному интеллекту не удалось преодолеть порог в 70% правильных ответов. Лучший балл (67,5%) – у Gemini Pro и 64,3% у Claude 3.5, тогда как GPT-4o набрал лишь 47%. Для сравнения, выбор наугад дал бы ≈ 22%.

По словам исследователей, наибольшие трудности для ИИ моделей вызывали визуально-текстовые задания: модели не распознавали украинские слова на изображениях, путали единицы измерения, игнорировали часть формулировки.

В специальном наборе VQAUA (визуальные вопросы на украинском) показатели были еще ниже: Claude – 26,7%, GPT-4o – 29%. Это почти вдвое хуже, чем средние результаты для англоязычных аналогов (60%+), что свидетельствует о слабой поддержке украинского языка на уровне мультимодальных представлений.