
«Газета.ru». Программа прошла государственную регистрацию.
Учёные объясняют, что большинство распространённых генеративных ИИ-систем (OpenAI ChatGPT и другие) обучаются, в основном, на англоязычных данных. Из-за этого существует риск формирования своеобразной «монокультуры» в области ИИ, где страдает русскоязычная научная информация.
Исследование специалистов НИУ ВШЭ направлено на исправление ситуации. С этой целью представители Института статистических исследований и экономики знаний ВШЭ дообучили открытую языковую модель на специализированном корпусе iFORA-QA. Его вручную собрали более 150 экспертов института.
В результате система стала лучше отвечать на профессиональные вопросы, связанные с научно-технической тематикой. Скорость генерации текста выросла в 2,7 раза, а потребление памяти сократилось на 73 % по сравнению с исходной мультиязычной моделью.