Мілачо́ва Вікічі застосувала ШІ, щоб створити «проєкт на максимальний бал»? Перевірка розробниками: це справді має цінність чи перебільшення та розкрутка?

CryptoCity

Система AI для пам’яті MemPalace, розроблена за участі Міли Джововіч та Вікі, заявляє, що тести набрали ідеальний результат і швидко стала вірусною, але спільнота викрила її: тести, імовірно, містять жульництво та вводять в оману дані. Проведені перевірки показали, що ефект перебільшений і є багато помилок; команда визнала недоліки та зараз працює над їх виправленням.

Міла Джововіч створює AI Палац пам’яті, викликаючи інтерес з боку зовнішнього світу

Учора (4/7) в AI-спільноті сталася велика новина: голлівудська акторка Міла Джововіч (Milla Jovovich), відома за фільмами «Оселя зла» та «П’ятий елемент», разом із розробником Ben Sigman використали Claude Code для допомоги у створенні «MemPalace» — відкритої (open-source) системи AI для пам’яті.

У якийсь момент поширилося твердження: «голлівудська мегазірка знімає кросовер і створює проєкт на повний бал». Поки що MemPalace на GitHub має понад 20 тисяч зірок, але дуже швидко це викликало запитання в середовищі розробників: це справді щось стоїть, чи просто розкрутка?

Спершу розкажемо про мотивацію появи MemPalace. Офіційна документація стверджує, що система має вирішити проблему: нинішні AI-системи зникають після завершення робочої сесії, а саме — контент діалогів користувача з AI, процес ухвалення рішень та обговорення архітектури. Через це кілька місяців роботи фактично зводяться нанівець.

Щоб вирішити цю проблему, MemPalace використовує просторову архітектуру для збереження пам’яті: інформацію чітко групують у крило, що представляє персонал або проєкт, а також у різні рівні структури — коридори, кімнати та шухляди — з подальшим збереженням оригінального тексту діалогів для подальшого семантичного пошуку.

Команда розробників заявляє, що MemPalace отримала 100% ідеального результату в довготривалому оцінюванні пам’яті LongMemEval, і при цьому досягла точності 96.6% без жодного виклику зовнішніх API; також система може працювати повністю локально, без потреби підписки на хмарні сервіси, та оснащена діалектною системою AAAK, яка, як стверджується, досягає 30-кратного без втрат стискання.

Джерело зображення: GitHub Голлівудська зірка Міла Джововіч створює AI Палац пам’яті, привертаючи увагу з боку зовнішнього світу

Колеги й спільнота синхронно ставлять під сумнів, а також вказують на проблеми в методиці тестування та рекламних матеріалах

Втім, заявлений MemPalace ідеальний результат LongMemEval дуже швидко викликав сумніви в колег.

PenfieldLabs, яка так само створює AI-системи для пам’яті, вказала, що MemPalace нібито отримала повний бал у датасеті LoCoMo — але математично це неможливо, адже стандартні відповіді в цьому датасеті самі містять 99 помилок.

Провівши аналіз, PenfieldLabs з’ясувала, що 100% результат MemPalace походить від встановлення кількості витягів (retrieval) на 50 разів, але в тестових діалогах максимальна кількість етапів становить лише 32, що означає: система напряму обминає етап витягування та передає всі дані AI-моделі для читання.

Щодо 100% результату LongMemEval, команду розробників було помічено в тому, що вона орієнтувалася на 3 конкретні проблеми, які були помилково зосереджені в розробницькій частині; було написано спеціальний код для виправлення. Це створює підозри щодо шахрайства в тестовому наборі.

Джерело зображення: Reddit PenfieldLabs вказує, що MemPalace заявляє повний бал у датасеті LoCoMo — але це математично неможливо

Практичні тести користувачів на GitHub: в базових тестах є елементи введення в оману

Користувач GitHub hugooconnor після практичного тестування залишив коментар: MemPalace заявляє про точність витягування аж 96.6%, але насправді взагалі не використовує заявлену архітектуру «палац пам’яті». hugooconnor стверджує, що їхній тест просто викликав стандартну функцію нижчорівневої бази даних ChromaDB і жодним чином не задіював логіку класифікації, на якій наголошують у проєкті, зокрема крило, кімнати чи шухляди.

Після тестування hugooconnor виявив, що коли система справді вмикає власну логіку класифікації цих палаців пам’яті, результати витягування навпаки погіршуються. Наприклад, для режиму «кімната» точність падає до 89.4%, а після вмикання технології AAAK стискання точність ще знижується до 84.2% — обидва значення нижчі за показники бази даних за замовчуванням.

hugooconnor також розкритикував методику тестування: середовище тестування MemPalace навмисно звужує область витягування для кожного запитання — приблизно до 50 етапів діалогу — і шукати відповідь у дуже невеликій тестовій колекції є надто простою задачею.

Якщо розширити охоплення до понад 19,000 етапів діалогу в реальному сценарії, точність звичайного пошуку за ключовими словами падає до 30%, що свідчить: поточний спосіб тестування MemPalace приховує реальну складність задачі пошуку.

Джерело зображення: GitHub Практичні тести користувача GitHub: у базових тестах MemPalace є елементи введення в оману

Водночас, хоча команда розробників уже опублікувала заяву про уточнення та визнала, що технологія AAAK справді підтверджується як стискання з втратами, і пообіцяла відкоригувати документацію та дизайн системи відповідно до суворої критики з боку спільноти, основний опис проєкту все одно зберігає багато недоопрацьованих перебільшень. Серед них заяви про 30-кратне без втрат стискання та 34% підвищення точності витягування, а також порівняльні графіки з іншими конкурентами, які також повністю позбавлені посилань на джерела.

Вихідний код MemPalace стикається з низкою Bug

Зі збільшенням кількості завантажень тестів, на платформі GitHub з’явилося багато звітів про Bug у вихідному коді MemPalace.

Користувач cktang88 навів низку серйозних недоліків, включно з тим, що команда стискання не працює та призводить до падіння системи, логіка підрахунку кількості слів/змісту в тезах (summary) помилкова, а статистика для «викопування» кімнат є неточною, а також тим, що сервер при кожному виклику завантажує всі дані інтерпретацій у пам’ять, спричиняючи серйозні проблеми з надмірним споживанням ресурсів.

Серед інших вказаних проблем також є те, що система примусово записує імена членів родини розробника в профіль налаштувань за замовчуванням, а під час перевірки стану існує примусове верхнє обмеження відображення для 10k записів даних.

Щодо цих проблем, відкрита спільнота вже розпочала активні виправлення. Користувач adv3nt3 подав кільказапитів навиправлення**, включно з виправленням статистичних даних для «викопування», видаленням імені членів родини за замовчуванням та відтермінуванням часу ініціалізації знаннєвого графа.** Команда розробників згодом також визнала ці помилки та зараз через співпрацю зі спільнотою поступово вирішує проблеми в коді.

Вайб-кодинг Міли Джововіч крутий, а маркетинг — ні

Щодо проєкту MemPalace, користувач Hacker News darkhanakh зробив висновок: MemPalace створює враження, схоже на OpenClaw, тобто штучне керування результатами бенчмарку, щоб вони виглядали ідеальними, а потім упакування цього як якусь грандіозну проривну новину для маркетингу.

Він вважає, що базова технологія MemPalace, можливо, справді має цікаві моменти, але за наявності таких вад у методиці тестування ще й робити акцент на «найвищому публічно доступному результаті в історії» для реклами — це не дуже доречно. «Але, що ж, Міло Джововіч розважається Vibe Coding — і я думаю, що це все-таки доволі круто».

Додаткове читання:
AI пише код і виходить косяк! Проблеми з кібербезпекою в застосунку «惜食獵人» з прострочкою зі супермаркету, у себе вдома весь час «висить» GPS без одежі

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів