
Глубокое расследование британского《Гардиан》 выявило быстро растущую глобальную серую индустрию: тысячи обычных людей из Южной Африки, Индии и США обменивают свои голоса, лица, видео с ходьбой и записи частных разговоров на деньги за обучение ИИ. Поскольку спрос компаний ИИ на качественные человеческие данные превышает доступные в открытой сети, появились платные платформы для сбора данных, такие как Kled AI, Silencio, Neon Mobile.
Этот глобальный бум данных для ИИ особенно наглядно проявляется в развивающихся странах.
27-летний юноша из Кейптауна Якобус Лоу завершил задание «Городская навигация» на Kled AI, за видео с прогулкой он получил 14 долларов, что в 10 раз больше местного минимального заработка. Он признает, что осознает цену своей конфиденциальности, но из-за многолетнего заболевания нервной системы не может устроиться на работу. Продав повседневные видео, он накопил 500 долларов и записался на курсы массажиста. «Как южноафриканец, получать доллары гораздо ценнее, чем кто-либо может себе представить», — сказал Лоу.
22-летний студент Саил Тигга из Ранчии, Индия, ежемесячно зарабатывает более 100 долларов, продавая записи окружающего шума через Silencio; 18-летний ученик-сварщик Рамелио Хилл из Чикаго, США, продает записи частных разговоров Neon Mobile за 0,50 доллара за минуту, заработав около 200 долларов за примерно 11 часов. Его логика проста и пряма: технологические компании уже владеют множеством его личных данных, так почему бы не получить свою долю.
Улучшения генеративного ИИ, такие как ChatGPT и Gemini, зависят от огромного объема качественных человеческих данных, но основные открытые наборы данных, такие как C4, RefinedWeb и Dolma, начали ограничивать коммерческое использование. Исследователи предполагают, что компании ИИ могут исчерпать свежие качественные тексты уже в 2026 году. Использование синтетических данных, созданных ИИ, для обучения уже доказало, что это приводит к моделям, которые выдают множество ошибок и «мусора», что еще больше увеличивает дефицит реальных человеческих данных.
Таким образом, возникшие платные платформы для сбора данных образуют новую экосистему цифровых работ, охватывающую весь мир:
Kled AI: покупка повседневных фотографий и видео по заданиям.
Silencio: краудсорсинг для сбора аудио окружающей среды с расчетом в криптовалюте.
Neon Mobile: покупка разговоров и записей звонков по 0,50 доллара за минуту.
Luel AI (поддержка Y Combinator): сбор многоязычных разговоров по примерно 0,15 доллара за минуту.
ElevenLabs: позволяет пользователям цифрово клонировать свой голос с базовой ставкой 0,02 доллара за минуту.
Профессор экономики Кингс-колледжа в Лондоне Боуке Клейн Тизелинк указывает, что работа в сфере обучения ИИ — это новая категория профессий, которая будет расти, поскольку компании ИИ активно платят за сбор данных, чтобы избежать полного зависания от сбора данных с веб-сайтов, что может вызвать правовые споры.
Юридические риски этих платформ почти неизвестны пользователям. Профессор права в Университете Сент-Джордж в Лондоне Энрико Бонадио указывает, что лицензионные соглашения обычно предоставляют платформам «глобальные, исключительные, необратимые, передаваемые и безвозмездные» права, позволяя им продавать, демонстрировать, хранить и создавать производные работы на их основе, и поставщики данных почти не имеют реальных возможностей отозвать согласие или пересмотреть условия.
Случай актера из Нью-Йорка Адама Коя является наиболее показательным. Он продал свои права на портрет за 1000 долларов AI-программному обеспечению для редактирования видео Captions, в соглашении четко указано, что он не может использоваться для политической пропаганды или порнографического контента, срок лицензии — год. Но вскоре его друг обнаружил в Instagram видео с миллионами просмотров, в котором «он» называет себя «гинекологом», рекламируя несертифицированные медицинские добавки для женщин в период беременности. «Комментарии были странными, потому что они оценивали мою внешность, но это ведь не я», — сказал Кой. С тех пор он больше не принимал никаких заданий по сбору данных для ИИ.
Профессор Оксфордского университета Марк Грэм подводит итог: эта работа структурно «нестабильна, не имеет возможности для роста и на самом деле является тупиком», единственные долгосрочные выигравшие — «платформы Северного полушария, которые получают всю устойчивую ценность».
Серая индустрия обучения ИИ относится к ряду платных платформ для сбора данных, которые выплачивают обычным пользователям за голоса, лица, видео и записи разговоров для обучения моделей ИИ. Она называется «серой», потому что сделки выглядят законными, но окончательное использование данных не является прозрачным, условия лицензирования крайне асимметричны, и существует риск потенциального злоупотребления, такого как глубокая подделка, что ставит ее на грани соблюдения норм и эксплуатации.
Поставщики обычно предоставляют платформам необратимые права на использование биометрических данных, не полностью понимая условия. Исследователь Стэнфордского университета Дженнифер Кинг указывает, что потребители сталкиваются с риском, что их данные будут использованы «способами, которые им не нравятся, которые они не понимают или которые они не предвидели, и в это время почти не будет средств для исправления». Инцидент с уязвимостью данных Neon Mobile подтвердил, что после утечки данных платформа даже может не уведомить затронутых пользователей.
Некоторые платформы для обучения ИИ (например, Silencio) выплачивают вознаграждения в виде криптовалют, используя децентрализованные платежи для снижения порога для получения трансакций из-за границы, что позволяет пользователям из развивающихся стран получать доход непосредственно в виде стабильных монет или родных токенов. Это делает рынок данных для ИИ важной ветвью реального применения криптовалют, одновременно возникая многими соображениями по оценке токенов, ликвидности и этики данных.