Учёные бьют тревогу: слишком долгое обучение ИИ может ухудшать его работу

Новости
   Время чтения: менее минуты
0
4

Группа исследователей из Carnegie Mellon, Stanford, Harvard и Princeton выступила с неожиданным заявлением, которое может изменить фундаментальный подход к обучению искусственного интеллекта. Согласно их новому исследованию, чрезмерно длительное обучение больших языковых моделей способно не улучшать, а ухудшать их результаты.

Вопреки распространённому мнению, что «чем больше данных — тем лучше модель», учёные описали явление под названием «катастрофическая переобученность» (catastrophic overtraining). Оно заключается в том, что избыточное предварительное обучение (pre-training) может повредить способности модели после её дообучения (fine-tuning).

В рамках эксперимента сравнивались две версии языковой модели OLMo-1B. Первая была обучена на 2,3 триллиона токенов, а вторая — на 3 триллионах. Казалось бы, вторая должна была показать лучший результат. Однако всё вышло наоборот: «переобученная» модель показала до 3% худшие результаты в таких тестах, как AlpacaEval и ARC.

Этот вывод ставит под сомнение текущую стратегию наращивания объёмов обучающих данных, которую активно применяют лидеры индустрии. Если эффект «катастрофической переобученности» подтвердится для более крупных моделей, это может серьёзно изменить то, как мы будем развивать искусственный интеллект в ближайшие годы.

Оцените статью

Ты дочитал статью до конца, значит, нашёл в ней что-то интересное. Автор пыхтел над ней несколько дней, все пальцы стёр. Отблагодари его — оставь комментарий. Без тебя наше комьюнити будет неполным.

Статья была полезной? Поделитесь с друзьями в соцсетях:

Ещё по теме:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Заполните поле
Заполните поле
Пожалуйста, введите корректный адрес email.

Самые популярные
за последний месяц: