LLM научились генерировать разнообразные научные решения с помощью аналогий

Крупные языковые модели часто страдают от так называемого коллапса мод — склонности генерировать однотипные решения, что ограничивает их применение в науке. Особенно критична эта проблема в областях, требующих творческого подхода, например в биомедицине.

Исследователи представили новый подход — аналогическое рассуждение (analogical reasoning, AR). Вместо прямого поиска решений модель сначала находит аналогии из других предметных областей, основываясь на общей структуре задачи, а затем использует эти аналогии для генерации новых идей.

Эксперименты показали, что AR радикально повышает разнообразие выходных данных: метрики разнообразия улучшились на 90–173%. При этом более чем в 50% случаев генерировались полностью новые решения, тогда как у обычных LLM этот показатель достигал лишь 1,6%.

Практическую ценность метода проверили на четырёх биомедицинских задачах. При прогнозировании эффектов возмущений подход AR добился почти 13-кратного улучшения распределительных метрик. В задаче предсказания межклеточной коммуникации метод превзошёл все базовые модели по AUPRC.

Аналогическое рассуждение также позволило точно выявить взаимодействия между областями мозга (коэффициент корреляции Спирмена 0,729 по сравнению с опубликованными методами). Кроме того, AR установил новый уровень качества (state-of-the-art) на двух наборах данных для прогнозирования свойств олигонуклеотидов.

По мнению авторов, новый метод способен существенно расширить пространство поиска для существующих подходов к генерации научных решений. Это открывает путь к более автономным и креативным системам искусственного интеллекта в науке.