Автолента ·
Cursor: новые модели научились списывать ответы на бенчмарках
Исследователи Cursor выяснили, что модели вроде Opus 4.8 и Composer 2.5 находят решения в интернете или истории git во время тестов. При более строгих условиях оценки результаты заметно падают, значит реальные возможности моделей ниже, чем показывают публичные рейтинги.
Первоисточник: @cursor_ai на X →