методология · Code Agents V1.1 · 10 июня 2026 · к рейтингу AI-агентов

Как считается рейтинг AI-агентов

Эта таблица отвечает не на вопрос «какая модель умнее», а на вопрос: какой агент реально помогает довести задачу в репозитории до результата. Поэтому строка таблицы описывает продуктовый workflow, а не чистую LLM.

четыре принципа score

01Только независимые прогоны

Benchmark Score - weighted average по независимым benchmark-источникам. Перед взвешиванием каждый источник нормализуется relative-to-leader: лидер источника = 100, остальные пропорционально - так бенчмарки разной сложности становятся сопоставимыми. Цифры из пресс-релизов вендоров в score не входят никогда.

02Anchor-правило

Benchmark Score получают только агенты с хотя бы одним независимым live-источником (Terminal-Bench или Artificial Analysis). Композит AA разобран на компоненты, чтобы не считать Terminal-Bench и SWE-Bench Pro дважды: их композитный индекс уже включает оба бенчмарка.

03Сжатие к рыночному прайору

Чтобы строка с одним замером не обгоняла строку с тремя, оценка стягивается к рыночному прайору тем сильнее, чем меньше данных - так работает рейтинг IMDb Top 250. Агент без benchmark-данных получает чистый prior: в таблице это прочерк.

04Цена и доступность не двигают score

Цена, время выполнения, RU/CIS availability помогают выбрать продукт, но не должны маскировать качество выполнения задач. Vendor-цифры из релизов попадают только в блок «Радар» с явной пометкой - до первого независимого прогона.

Источники и веса V1.1

35%Terminal-Bench 2.0 (официальный лидерборд)

terminal autonomy; только whitelist продуктовых агентов, benchmark-special harness отфильтрованы

30%SWE-Bench Pro (Hard) - прогон Artificial Analysis

repo issue resolution в реальных продуктовых агентах, единый evaluator

25%SWE-Atlas-QnA - прогон Artificial Analysis

понимание и навигация по чужой кодовой базе

10%CursorBench

product-native editor signal; vendor-owned, поэтому вес небольшой

Если источника для агента нет, он не превращается в ноль - веса доступных источников нормализуются заново.

Оценка в таблице: сжатие к прайору

Каталог исчерпывающий: в таблице есть и агенты, которых независимые бенчмарки ещё не мерили. Чтобы строка с одним замером не обгоняла строку с тремя, позиция считается байесовским сжатием - оценка стягивается к рыночному прайору тем сильнее, чем меньше данных.

Оценка = (n / (n + 2)) × BenchmarkScore + (2 / (n + 2)) × TierPrior

n         - сколько benchmark-компонентов есть у агента (0..4)
TierPrior - рыночный вес агента (market tier)

tier	prior	смысл
S	75	топ рынка: инструменты-стандарты
A	65	сильный заметный игрок
B	55	заметный продукт
C	45	нишевый / baseline

Market tier - редакционная оценка vibecoding.ru рыночного веса агента; в следующих версиях она будет дополнена измеримыми сигналами: GitHub stars, упоминаемость, включение в независимые прогоны.

Обновление данных

раз в сутки

источники забираются автоматически: лидерборд Terminal-Bench 2.0, страница AA Coding Agents, редакционные метаданные

30 / 90 дней

данные старше 30 дней понижают confidence строки, старше 90 - до low; падение одного источника не блокирует остальные

история навсегда

все сырые наблюдения хранятся историей - рейтинг можно пересчитать на любую дату

Как читать колонки

Колонка «Модель»

Фиксированную пару показываем только там, где она реально объясняет продукт. Для Codex и Claude Code это уместно. Для Cursor, GitHub Copilot, Devin, Replit, Lovable, Cline, Aider и OpenCode чаще корректнее писать Auto, managed routing, model picker или BYOK.

Колонка «Тип»

Type показывает основные поверхности продукта, а не единственную категорию: Codex и Claude Code идут как CLI / App / Extension, Cursor как IDE / CLI / Cloud, GitHub Copilot Coding Agent как GitHub / Cloud / PR. Серый subtitle под названием агента показывает провайдера, чтобы строка быстрее читалась как «продукт + компания», а surface-классификация жила только в колонке «Тип».

Колонка «Цена»

Для AI-агентов цена в главной таблице означает вход в продукт или модель оплаты: подписка, credits, BYOK, Google AI plan или usage-based billing. В ячейке показывается основная публичная ladder для индивидуального пользователя или small-team входа, а подробности про credits, team seats, enterprise и API остаются в hover/карточке. API output price underlying LLM больше не используется как публичная цена агента.

Codex	Free limited trial, Plus $20, Pro $100/$200; Business Codex может быть usage-based.
Claude Code	Claude Pro $20, Max 5x/20x $100/$200; Team/Enterprise/API отдельно.
Cursor	Hobby Free, Pro $20, Pro+ $60, Ultra $200; Teams $40/user.
Devin / Windsurf	Free, Pro $20, Max $200; Teams $80/мес + $40 за full dev seat.
GitHub Copilot	Free, Pro $10, Pro+ $39, Max $100; Business $19/user и Enterprise $39/user.
Google Jules / Antigravity	Free baseline, Google AI Pro $19.99, AI Ultra $99.99/$199.99.
Replit Agent	Free daily credits; Core $25, Pro $100; effort-based credits.
Lovable	Free credits; Pro $25, Business $50; отдельно Cloud + AI usage.
Bolt	Free, Pro $25, Teams $30/member; лимиты считаются в tokens.
Augment Code	Indie $20, Standard $60, Max $200; Enterprise Custom.
JetBrains Junie	AI Free, AI Pro $100/year, AI Ultimate $300/year.
Aider / OpenCode / Cline	BYOK, local или credits: цена зависит от выбранного provider/model.

Колонка «Тир»

Публичная колонка «Тир» рядом с названием агента - отдельная S/A/B-пометка из личного тир-листа Евгения; она не участвует в benchmark-оценке.

Что не входит в score: цена, время выполнения и RU/CIS availability не двигают Benchmark Score. Позже для этого может появиться отдельный Agent Value Score.

Что дальше

Следующие шаги: квантификация market tier (GitHub stars, упоминаемость, включение в независимые прогоны), отдельный pricing/model adapter с проверкой официальных pricing-страниц и stale-флагами, и собственный прогон агентов на русскоязычных задачах как уникальный источник vibecoding.ru.

Открыть рейтинг AI-агентов →

веса V1.1

35%Terminal-Bench 2.0 (официальный лидерборд)

30%SWE-Bench Pro (Hard) - прогон Artificial Analysis

25%SWE-Atlas-QnA - прогон Artificial Analysis

10%CursorBench

считается здесь

к рейтингу агентов →

Как считается рейтинг AI-агентов

Источники и веса V1.1

35%Terminal-Bench 2.0 (официальный лидерборд)

terminal autonomy; только whitelist продуктовых агентов, benchmark-special harness отфильтрованы

30%SWE-Bench Pro (Hard) - прогон Artificial Analysis

repo issue resolution в реальных продуктовых агентах, единый evaluator

25%SWE-Atlas-QnA - прогон Artificial Analysis

понимание и навигация по чужой кодовой базе

10%CursorBench

product-native editor signal; vendor-owned, поэтому вес небольшой

Если источника для агента нет, он не превращается в ноль - веса доступных источников нормализуются заново.

Оценка в таблице: сжатие к прайору

Оценка = (n / (n + 2)) × BenchmarkScore + (2 / (n + 2)) × TierPrior n - сколько benchmark-компонентов есть у агента (0..4) TierPrior - рыночный вес агента (market tier)

tier	prior	смысл
S	75	топ рынка: инструменты-стандарты
A	65	сильный заметный игрок
B	55	заметный продукт
C	45	нишевый / baseline

Обновление данных

раз в сутки

источники забираются автоматически: лидерборд Terminal-Bench 2.0, страница AA Coding Agents, редакционные метаданные

30 / 90 дней

данные старше 30 дней понижают confidence строки, старше 90 - до low; падение одного источника не блокирует остальные

история навсегда

все сырые наблюдения хранятся историей - рейтинг можно пересчитать на любую дату

Как читать колонки

Колонка «Модель»

Колонка «Тип»

Колонка «Цена»

Codex	Free limited trial, Plus $20, Pro $100/$200; Business Codex может быть usage-based.
Claude Code	Claude Pro $20, Max 5x/20x $100/$200; Team/Enterprise/API отдельно.
Cursor	Hobby Free, Pro $20, Pro+ $60, Ultra $200; Teams $40/user.
Devin / Windsurf	Free, Pro $20, Max $200; Teams $80/мес + $40 за full dev seat.
GitHub Copilot	Free, Pro $10, Pro+ $39, Max $100; Business $19/user и Enterprise $39/user.
Google Jules / Antigravity	Free baseline, Google AI Pro $19.99, AI Ultra $99.99/$199.99.
Replit Agent	Free daily credits; Core $25, Pro $100; effort-based credits.
Lovable	Free credits; Pro $25, Business $50; отдельно Cloud + AI usage.
Bolt	Free, Pro $25, Teams $30/member; лимиты считаются в tokens.
Augment Code	Indie $20, Standard $60, Max $200; Enterprise Custom.
JetBrains Junie	AI Free, AI Pro $100/year, AI Ultimate $300/year.
Aider / OpenCode / Cline	BYOK, local или credits: цена зависит от выбранного provider/model.

Колонка «Тир»

Что дальше