Если вы думаете, что думскроллинг делает вас глупее, представьте, что происходит с большими языковыми моделями, которые потребляют почти бесконечный поток мусорного контента из сети в процессе "обучения".
Исследовательская группа недавно предложила и протестировала теорию под названием "Гипотеза деградации мозга LLM", согласно которой чем больше мусорных данных попадает в ИИ-модель, тем хуже становятся её результаты. Оказалось, что эта теория весьма обоснована – препринт статьи, опубликованной на arXiv командой учёных, показывает, что "деградация мозга" влияет на LLM и приводит к серьёзному когнитивному упадку.
Чтобы выяснить, как LLM работают на постоянной диете из интернет-отходов, исследователи из Техасского университета A&M, Техасского университета в Остине и Университета Пердью выделили два типа "мусорных" данных: короткие посты в соцсетях с высоким уровнем вовлечённости (лайки и репосты) и длинный контент с кликбейтными заголовками, сенсационной подачей и поверхностным уровнем информации. По сути, тот же тип контента, который разрушает и наши собственные мозги.
Исследователи собрали выборку из одного миллиона постов из твиттера, после чего обучили четыре различные LLM на смешанных наборах контрольных данных и мусорных данных, чтобы проверить влияние на производительность.
И как оказалось, потребление напрямую со свалки интернет-контента, которым стал твиттер при Маске (хотя там и без него были проблемы), не способствует четкому "мышлению".
Все четыре протестированные модели (Llama3 8B, Qwen2.5 7B/0.5B и Qwen3 4B) продемонстрировали те или иные формы когнитивного упадка. Llama оказалась наиболее чувствительной к мусору, показав падение способностей к рассуждению, понимания контекста и соблюдения стандартов безопасности. Интересно, что гораздо меньшая модель Qwen 3 4B оказалась более устойчивой, хотя также пострадала. Выяснилось, что чем выше доля плохих данных, тем больше вероятность того, что модель перейдёт в режим "отсутствия мышления", не предоставляя никаких объяснений своему ответу, который с большей вероятностью окажется неточным.
Но помимо "отпуления" в мышлении, исследователи обнаружили интересный эффект от включения мусорных данных – это привело к изменениям в "личности" модели, которая поддалась тому, что учёные назвали "тёмными чертами". Например, модель Llama 3 продемонстрировала значительно более высокий уровень нарциссизма и стала менее покладистой. Она также перешла от практически полного отсутствия признаков психопатии к очень высоким показателям такого поведения.
Интересно, что исследователи также обнаружили – методы смягчения, применённые для минимизации влияния мусорных данных, не могут полностью обратить вред от плохой информации.
В результате учёные предупреждают, что процесс сбора любых данных из сети может на самом деле не давать лучших результатов для LLM, так как объём информации не равен качеству. Они предлагают более тщательную курацию данных для решения этих потенциальных проблем, так как может не существовать обратного пути после того, как модель накормили мусором.
Очевидно, для LLM правило "ты то, что ты ешь" работает в полную силу.