Совершенно новая серая индустрия: тысячи людей по всему миру продают свои данные для обучения ИИ, но какая цена?

CryptoCity

Тысячи людей по всему миру продают свои голоса, образы и записи разговоров для обучения ИИ, получая за это доход, но при этом рискуя столкнуться с глубокими подделками и необратимым предоставлением лицензий.

Введение: Расследование, проведенное британским изданием The Guardian, раскрывает быстро развивающуюся серую индустрию: тысячи людей по всему миру зарабатывают на продаже своих голосов, лиц, записей разговоров и повседневных видео для обучения ИИ. Это не просто обсуждение вопросов конфиденциальности, а расследование с реальными людьми, реальными суммами и реальными последствиями — актер, продавший свое лицо, позже увидел “себя” в рекламе неясного медицинского продукта в Instagram, где пользователи комментировали его “внешность”. Когда жажда данных ИИ-компаний пересекается с глобальным экономическим неравенством, это создает неравные сделки.

Полный текст:

Однажды утром в прошлом году, живущий в Кейптауне, Южная Африка, Jacobus Louw, как обычно, вышел на прогулку и кормил чаек. Но на этот раз он записал несколько видео — снял свои шаги и вид с тротуара. Это видео принесло ему 14 долларов, что составляет примерно 10-кратный размер минимальной зарплаты в стране, и эквивалентно расходам на продукты этого 27-летнего молодого человека за полторы недели.

Это была “городская навигация”, выполненная Louw на Kled AI. Kled AI — это приложение, которое платит пользователям за загрузку фотографий, видео и других данных для обучения моделей ИИ. Всего за несколько недель Louw заработал 50 долларов, загружая фотографии и видео из своей повседневной жизни.

За тысячи миль в Индии, в Ранчи, 22-летний студент Sahil Tigga регулярно зарабатывает на Silencio — приложении, которое краудсорсит аудиоданные для обучения ИИ, получая доступ к микрофону его телефона для записи фонового шума из ресторанов или с оживленных перекрестков. Он также загружает свои голосовые записи. Sahil специально идет в уникальные места, такие как лобби отелей, которые еще не были зафиксированы на карте Silencio. Он зарабатывает более 100 долларов в месяц, что достаточно, чтобы покрыть все расходы на еду.

В Чикаго 18-летний ученик сварщика Ramelio Hill продает свои личные текстовые сообщения с друзьями и семьей Neon Mobile — платформе для обучения диалоговым ИИ, которая платит 0.50 долларов за минуту — заработав несколько сотен долларов. Для Hill это простая арифметика: он считает, что технологические компании уже имеют доступ к его личным данным, так что лучше самому получить долю от этого.

Эти “фрилансеры для обучения ИИ” — которые загружают фотографии своего окружения, свои изображения, видео и аудио — находятся на передовой новой глобальной гонки за данными. Поскольку Кремниевая долина проявляет жажду к качественным человеческим данным, превышающим то, что можно получить из открытых источников, появляется процветающая индустрия рынка данных, которая закрывает этот пробел. От Кейптауна до Чикаго тысячи людей предоставляют свои биометрические данные и личные данные следующему поколению ИИ.

Но новая экономика фриланса имеет свою цену. За несколько долларов они предоставляют топливо для индустрии, которая может в конечном итоге сделать их навыки устаревшими, одновременно подвергая их риску глубоких подделок, кражи личных данных и цифровой эксплуатации — и они только начинают осознавать это.

Движение шестерен ИИ

Моделям ИИ, таким как ChatGPT и Gemini, нужны огромные объемы учебных материалов для постоянного улучшения, но они сталкиваются с нехваткой данных. Наиболее распространенные источники обучающих данных — C4, RefinedWeb и Dolma — занимают четверть лучших наборов данных в сети и в настоящее время ограничивают использование своих данных компаниями генеративного ИИ для обучения моделей. Исследователи оценивают, что ИИ-компании могут исчерпать доступные свежие качественные тексты к 2026 году. Хотя некоторые лаборатории уже начали использовать синтетические данные, сгенерированные самим ИИ, этот рекурсивный процесс может привести к тому, что модели будут производить “мусор”, заполненный ошибками, что может вызвать сбой.

Источник: The Guardian

Приложения, такие как Kled AI и Silencio, появляются именно здесь. На этих рынках данных миллионы людей кормят и обучают ИИ, продавая свои идентификационные данные. Кроме Kled AI, Silencio и Neon Mobile, у фрилансеров по обучению ИИ есть множество других вариантов: Luel AI, поддерживаемое известным инкубатором Y-Combinator, получает многоязычные диалоговые материалы по цене около 0.15 долларов за минуту; ElevenLabs позволяет вам цифровым образом клонировать свой голос и предоставляет его другим по базовой ставке 0.02 доллара за минуту.

Профессор экономики Лондонского королевского колледжа Буке Клейн Тизелинк утверждает, что работа в качестве фрилансера для обучения ИИ — это новая категория работ, которая будет значительно расти.

ИИ-компании понимают, что выплата людям за лицензионные данные помогает избежать правовых споров, связанных с полной зависимостью от контента, собранного с помощью веб-сканирования, говорит Тизелинк. Исследователь ИИ Вениамин Веселовский добавляет, что этим компаниям также нужны качественные данные для моделирования новых, улучшенных поведения системы. “На данный момент человеческие данные являются золотым стандартом для выборки вне распределения модели,” — добавляет Веселовский.

Люди, которые управляют этими машинами — особенно в развивающихся странах — часто нуждаются в этих деньгах и, по сути, не имеют выбора. Для многих фрилансеров по обучению ИИ работа в этой области является практическим ответом на экономическое неравенство. В странах с высоким уровнем безработицы и обесцениванием местной валюты, зарабатывать в долларах часто более стабильно и выгодно, чем на местных работах. Некоторые не могут найти работу начального уровня и вынуждены работать в обучении ИИ ради выживания. Даже в более богатых странах рост стоимости жизни делает продажу себя логичным финансовым выбором.

Фрилансер по обучению ИИ из Кейптауна Louw ясно осознает связанные с этим риски для конфиденциальности. Несмотря на то, что его доход нестабилен и не покрывает все его ежемесячные расходы, он готов принять эти условия ради заработка. Он много лет страдает от неврологического заболевания и не может найти работу, но деньги, заработанные на рынке данных ИИ (включая Kled AI), позволили ему накопить 500 долларов и записаться на курс обучения спа, чтобы стать массажистом.

“Как южноафриканец, получать доллары стоит больше, чем многие могли бы себе представить,” — говорит Louw.

Профессор интернет-географии Оксфордского университета и автор книги “Кормление машин” Марк Грэм признает, что для человека из развивающейся страны эти деньги могут иметь реальное значение в краткосрочной перспективе, но он предупреждает: “Структурно эта работа нестабильна, без возможностей для роста, на самом деле это тупик.”

Грэм добавляет, что рынок данных ИИ зависит от “конкуренции по снижению заработной платы” и “временного спроса на человеческие данные”. Как только этот спрос исчезнет, “рабочие останутся без каких-либо гарантий, без переносимых навыков и без сети безопасности.”

Грэм заявляет, что единственные выигравшие — это “платформы Северного полушария, которые получают всю долговременную ценность.”

Источник: The Guardian

Полная лицензия

Фрилансер по обучению ИИ из Чикаго Хилл испытывает смешанные чувства, продавая свои личные телефонные разговоры Neon Mobile. Около 11 часов разговоров принесли ему 200 долларов, но он говорит, что приложение часто отключается и задерживает платежи. “Neon всегда казался мне подозрительным, но я продолжал им пользоваться, чтобы заработать немного карманных денег для оплаты счетов,” — говорит Хилл.

Теперь он начинает переосмысливать, действительно ли эти деньги так легко заработать. В сентябре прошлого года, всего через несколько недель после того, как Neon Mobile запустился, он был отключен после того, как TechCrunch обнаружил уязвимость, позволяющую любому получить доступ к номерам телефонов пользователей, записям разговоров и текстовым сообщениям. Хилл говорит, что Neon Mobile никогда не уведомлял его об этом, и теперь он очень обеспокоен тем, что его голос может быть использован в интернете неправомерно.

Дженнифер Кинг, исследователь по вопросам конфиденциальности данных в Центре исследований человека-центрированной искусственной интеллекта Стэнфордского университета, выражает озабоченность тем, что рынок данных ИИ неясен в том, как и где будут использоваться данные пользователей. Она добавляет, что, не понимая своих прав и не имея возможности вести переговоры, “потребители подвергаются риску повторного использования данных так, как им не нравится, они не понимают или не ожидали, и в таком случае почти нет никаких путей для восстановления.”

Когда фрилансеры по обучению ИИ делятся данными на Neon Mobile и Kled AI, они предоставляют полную лицензию (глобальную, исключительную, необратимую, передаваемую и без роялти), позволяющую платформам продавать, использовать, публично показывать, раскрывать и хранить их образы, а также создавать производные работы на их основе.

Основатель Kled AI Ави Патель говорит, что данные его компании будут использоваться исключительно для целей обучения и исследований ИИ. “Вся бизнес-модель зависит от доверия пользователей. Если контрибьюторы считают, что их данные могут быть неправомерно использованы, платформа не сможет функционировать.” Он говорит, что компания будет проверять покупателей перед продажей наборов данных, чтобы избежать сотрудничества с “подозрительными” организациями, такими как индустрия порнографии, а также с “государственными учреждениями”, которые, как они считают, могут использовать данные в противоречии с этим доверием.

Neon Mobile не ответил на запросы о комментариях.

Профессор права в Лондонском городском университете Энрико Бонадио указывает на то, что условия этих соглашений позволяют платформам и их клиентам “делать практически все, что угодно с этим материалом, навсегда, без необходимости дополнительной оплаты, а контрибьюторы не имеют реальных способов отозвать согласие или пересмотреть соглашение.”

Еще более тревожные риски включают в себя: использование данных тренеров для создания глубоких подделок и имитации личности. Хотя рынок данных утверждает, что будет удалять идентифицирующую информацию из данных перед продажей (например, имя и местоположение), биометрические данные по своей природе трудно поддаются значительной анонимизации, добавляет Бонадио.

Сожаление продавцов

Даже если фрилансеры по обучению ИИ смогут договориться о более детализированных условиях защиты в отношении использования данных, они все равно могут пожалеть об этом. В 2024 году актер из Нью-Йорка Адам Кой продал свое изображение Captions — программы для редактирования AI-видео, которая теперь переименована в Mirage — за 1000 долларов. Его соглашение гласило, что его личность не будет использована для каких-либо политических целей, не будет использоваться для рекламы алкоголя, табака или порнографического контента, и срок лицензии составляет один год.

Captions не ответил на запросы о комментариях.

Вскоре после этого друзья Адама начали пересылать ему видео, которые они нашли в интернете, в которых использовались его лицо и голос, набравшие миллионы просмотров. В одном из видео в Instagram его AI-копия называет себя “врачом влагалища”, продвигая неподтвержденные медицинские добавки для женщин в период беременности и после родов.

“Объяснять это другим было неловко,” — говорит Кой.

“Комментарии странные, потому что они оценивают мою внешность, но это вовсе не я,” — добавляет Кой. “Когда я принимал решение (продать изображение), я думал, что большинство моделей все равно будут собирать данные и образы из интернета, так что почему бы не получить за это деньги.”

Кой говорит, что с тех пор он не брал никаких подработок по данным ИИ. Он говорит, что подумает об этом только в случае, если какая-то компания предложит значительное вознаграждение.

  • Эта статья была перепечатана с разрешения: 《深潮 TechFlow》
  • Исходный заголовок: 《Тысячи людей продают свои идентичности для обучения ИИ — но какой ценой?》
  • Исходный автор: Shubham Agarwal, The Guardian
  • Перевод: 深潮 TechFlow
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев