Группа исследователей из Carnegie Mellon, Stanford, Harvard и Princeton выступила с неожиданным заявлением, которое может изменить фундаментальный подход к обучению искусственного интеллекта. Согласно их новому исследованию, чрезмерно длительное обучение больших языковых моделей способно не улучшать, а ухудшать их результаты.
Вопреки распространённому мнению, что «чем больше данных — тем лучше модель», учёные описали явление под названием «катастрофическая переобученность» (catastrophic overtraining). Оно заключается в том, что избыточное предварительное обучение (pre-training) может повредить способности модели после её дообучения (fine-tuning).
В рамках эксперимента сравнивались две версии языковой модели OLMo-1B. Первая была обучена на 2,3 триллиона токенов, а вторая — на 3 триллионах. Казалось бы, вторая должна была показать лучший результат. Однако всё вышло наоборот: «переобученная» модель показала до 3% худшие результаты в таких тестах, как AlpacaEval и ARC.
Этот вывод ставит под сомнение текущую стратегию наращивания объёмов обучающих данных, которую активно применяют лидеры индустрии. Если эффект «катастрофической переобученности» подтвердится для более крупных моделей, это может серьёзно изменить то, как мы будем развивать искусственный интеллект в ближайшие годы.