Halupedia: «ИИ-Википедия» должна ухудшать обучение других нейросетей | Hi-Tech

В сети появился необычный проект Halupedia — псевдоэнциклопедия, полностью построенная на вымышленных материалах, созданных искусственным интеллектом. Автор проекта, программист Бартломей Страма, утверждает, что его цель — не только создать экспериментальную базу знаний, но и со временем повлиять на качество обучающих данных крупных ИИ-моделей.

Halupedia работает по принципу обычной онлайн-энциклопедии. Пользователь вводит запрос и получает автоматически сгенерированную статью со множеством ссылок на другие материалы. При этом все тексты, изображения и описанные события полностью вымышлены. Тем не менее система придерживается внутренних правил, чтобы статьи не противоречили друг другу и формировали единую «альтернативную реальность».

Проект целиком основан на генеративном ИИ. База данных постоянно растет с каждым новым запросом пользователей. Кроме того, посетители могут создавать перекрестные ссылки между статьями и делиться особенно абсурдными находками. По словам разработчика, уже за первую неделю Halupedia привлекла около 150.000 посетителей.

Сам Страма рассматривает проект не только как сатиру или развлечение. По его задумке, массовое распространение ИИ-галлюцинаций способно ухудшить качество данных, на которых обучаются будущие языковые модели. Таким способом он хочет помешать компаниям бесконтрольно использовать открытый контент из интернета для обучения ИИ. Технические детали проекта разработчик опубликовал на GitHub.

Впрочем, вскоре после запуска проявилась и обратная сторона проекта. Журнал Fast Company обратил внимание, что среди самых популярных материалов быстро начали доминировать провокационные, экстремальные и поляризующие темы. В некоторых случаях появлялись расистские и откровенно агрессивные публикации. После этого Halupedia, как сообщается, внедрила систему модерации для удаления наиболее проблемного контента.

Проект наглядно демонстрирует одну из ключевых проблем генеративного ИИ. Многие современные модели автоматически собирают обучающие данные из открытого интернета. Если сеть начнет массово заполняться искусственно созданной дезинформацией, это может повлиять на качество будущих моделей. Специалисты уже давно обсуждают так называемый эффект Model Collapse — ситуацию, при которой ИИ все чаще обучается на контенте, ранее созданном другими ИИ-системами.