Штучний загальний інтелект, або AGI, часто описується як система, яка може виконувати багато завдань у різних сферах так само, як і люди. Результати, оприлюднені цього тижня з тесту MATHVISTA, показують, що сучасні моделі все ще не досягають цієї мети. Вчені з Microsoft Research, Sahara AI та Еморі університету протестували можливості, що є ключовими для загального інтелекту, математичного мислення, заснованого на візуальній інформації, включаючи графіки, діаграми та схеми. З 12 базових моделей, включаючи ChatGPT, Gemini та Claude, найвищий результат показала GPT-4 Vision — 49,9%. Середньо людські учасники набрали 60,3%, що підкреслює різницю між сучасними системами ШІ та ширшими можливостями логічного мислення, які часто асоціюються з AGI.
«Ми хочемо, щоб машина могла виконувати завдання, які може зробити звичайна, середня людина у повсякденних справах», — сказав головний дослідник Microsoft Research Хао Ченг у інтерв’ю Decrypt. «Саме цього всі прагнуть досягти у розвитку AGI». Задачі у вигляді зображень, схем і графіків тестують здатність моделей точно інтерпретувати візуальну інформацію та розв’язувати багатоступінчасті математичні й логічні задачі — навички, що виходять за межі простого співставлення шаблонів у тексті. Моделі все ще мають труднощі з цими завданнями, і вимірювання їхніх обмежень є складним.
Коли команда Ченга переглядала існуючі набори даних для оцінювання, багато з них містили задачі, що не вимагали візуального мислення. Моделі часто давали правильні відповіді, покладаючись лише на текст. «Що не є ідеальним», — сказав Ченг. MathVista, доступний на GitHub та Hugging Face, був запущений у жовтні 2023 року. З того часу його завантажили понад 275 000 разів, з них понад 13 000 — за минулий місяць, повідомляє Microsoft Research. Створення набору даних вимагало більше, ніж стандартного маркування даних. Потрібні були аннотатори, здатні працювати з задачами з арифметики, алгебри, геометрії та статистики, при цьому відрізняючи глибше математичне мислення, таке як інтерпретація графіків або розв’язання рівнянь, від простих завдань, таких як підрахунок об’єктів або читання чисел. Після пілотної фази Microsoft обрав Sahara AI для підтримки цієї роботи. Компанія надала навчений персонал, індивідуальні робочі процеси та багатоступінчасті перевірки якості для створення понад 6000 мультимодальних прикладів, використаних у тесті. Без надійних еталонів важко вимірювати прогрес у напрямку до ширшого машинного інтелекту, каже Шон Рен, генеральний директор Sahara AI та доцент комп’ютерних наук у USC. «Існує нюанс забруднення даних, коли, починаючи використовувати цей набір для тестування, результати потрапляють у наступну версію», — сказав Рен у інтерв’ю Decrypt. «Тому ви не можете точно сказати, чи вони розв’язують саме набір даних, чи мають справжню здатність». Якщо відповіді з тесту з’являються у тренувальних даних моделі, високі результати можуть відображати запам’ятовування, а не логічне мислення. Це ускладнює визначення, чи дійсно системи ШІ покращуються.
Вчені також вказують на обмеження у навчальних даних. Більшість публічно доступного інтернету вже включено до наборів даних моделей. «Обов’язково потрібно знайти спосіб додати нові знання у цей процес», — сказав Ченг. «Я вважаю, що це має базуватися на високоякісних даних, щоб ми могли справді подолати цю межу знань». Один із запропонованих шляхів — створення імітованих середовищ, де моделі можуть взаємодіяти, навчатися на досвіді та покращуватися через зворотний зв’язок. «Створюєте двійковий світ або дзеркало реального світу у пісочниці, щоб модель могла грати і виконувати багато дій, які роблять люди, — сказав Ченг. — Це дозволить їй фактично подолати межу інтернету». Рен зазначив, що люди все ще можуть відігравати важливу роль у покращенні систем ШІ. Хоча моделі швидко генерують контент, люди залишаються кращими у його оцінюванні. «Ця різниця між людиною і ШІ, у тому, що вони добре роблять і де слабкі, може бути використана для суттєвого покращення ШІ у майбутньому», — сказав він.