14 мая в 18:00 в Институте языкознания РАН (с возможностью подключения онлайн) состоится состоится заседание семинара «Некоторые применения математических методов в языкознании» им. В.А. Успенского с докладом Ксении Андреевны Студеникиной «Подходы к повышению безопасности текста, генерируемого большими языковыми моделями».
Анонс:
Вместе с ростом возможностей больших языковых моделей возникает серьезная проблема: их ответы могут содержать неэтичный, предвзятый или опасный контент. Обеспечение безопасности генерируемого текста, его соответствие культурным и правовым нормам становится важным условием для использования LLM.
В докладе мы рассмотрим несколько способов, которые позволяют предотвратить генерацию вредоносных ответов:
1) Тонкая настройка с учителем (SFT) и обучение с подкреплением (RLHF) для выравнивания с намерениями человека;
2) Использование системных промптов для управления поведением модели и их уязвимость к атакам;
3) Техники машинного забывания для удаления нежелательных знаний без полного переобучения.
В докладе также будут представлены датасеты, используемые для выравнивания и стресс-тестирования моделей на предмет безопасности.
Время: 14 мая, 18:00-19:30.
Место: Институт языкознания РАН, Большой Кисловский пер., 1, стр. 1, конференц-зал. Для прохода необходимо зарегистрироваться по ссылке и взять с собой паспорт (все зарегистрировавшиеся получат ссылку для онлайн-подключения).