Методология / Code Agents V0 / 7 июня 2026
Как считается рейтинг код-агентов
Эта таблица отвечает не на вопрос “какая модель умнее”, а на вопрос: какой агент реально помогает довести задачу в репозитории до результата. Поэтому строка таблицы описывает продуктовый workflow, а не чистую LLM.
Что входит в score
Agent Score считается как weighted average по agent benchmark sources. Если источника для агента нет, он не превращается в ноль: веса доступных источников нормализуются, а confidence/coverage должны показывать, насколько строке можно доверять.
| Источник | Вес V0 | Роль |
|---|---|---|
| Artificial Analysis Coding Agents | 50% | публичный agent/composite score, cost/time telemetry |
| Terminal-Bench | 25% | terminal autonomy: shell, setup, debugging, command workflow |
| SWE-bench family | 15% | repo issue resolution и recognizable SWE-like baseline |
| CursorBench | 10% | product-native editor signal; vendor-owned, поэтому вес небольшой |
Что не входит в score
Цена, время выполнения, RU/CIS availability и редакционный опыт не двигают главный score. Они помогают выбрать продукт, но не должны маскировать качество выполнения задач. Позже для этого можно завести отдельный Agent Value Score.
Колонка “Модель”
Фиксированную пару показываем только там, где она реально объясняет продукт. Для Codex и Claude Code это уместно. Для Cursor, GitHub Copilot, Devin, Replit, Lovable, Cline, Aider и OpenCode чаще корректнее писать Auto, managed routing, model picker или BYOK.
Колонка “Тип”
Type показывает основные поверхности продукта, а не единственную категорию. Поэтому Codex и Claude Code идут как CLI / App / Extension, Cursor как IDE / CLI / Cloud, а GitHub Copilot Coding Agent как GitHub / Cloud / PR. Серый subtitle под названием агента берется из того же curated surface profile, чтобы в строке не было двух разных классификаций.
Колонка “Цена”
Для код-агентов цена в главной таблице означает вход в продукт или модель оплаты: подписка, credits, BYOK, Google AI plan или usage-based billing. В ячейке показывается основная публичная ladder для индивидуального пользователя или small-team входа, а подробности про credits, team seats, enterprise и API остаются в hover/карточке. API output price underlying LLM больше не используется как публичная цена агента.
| Codex | Free limited trial, Plus $20, Pro $100/$200; Business Codex может быть usage-based. |
| Claude Code | Claude Pro $20, Max 5x/20x $100/$200; Team/Enterprise/API отдельно. |
| Cursor | Hobby Free, Pro $20, Pro+ $60, Ultra $200; Teams $40/user. |
| Devin / Windsurf | Free, Pro $20, Max $200; Teams $80/мес + $40 за full dev seat. |
| GitHub Copilot | Free, Pro $10, Pro+ $39, Max $100; Business $19/user и Enterprise $39/user. |
| Google Jules / Antigravity | Free baseline, Google AI Pro $19.99, AI Ultra $99.99/$199.99. |
| Replit Agent | Free daily credits; Core $25, Pro $100; effort-based credits. |
| Lovable | Free credits; Pro $25, Business $50; отдельно Cloud + AI usage. |
| Bolt | Free, Pro $25, Teams $30/member; лимиты считаются в tokens. |
| Augment Code | Indie $20, Standard $60, Max $200; Enterprise Custom. |
| JetBrains Junie | AI Free, AI Pro $100/year, AI Ultimate $300/year. |
| Aider / OpenCode / Cline | BYOK, local или credits: цена зависит от выбранного provider/model. |
Как автоматизировать дальше
Следующий шаг — вынести model routing и access pricing в отдельный curated metadata layer Convex. Benchmark adapters должны обновлять scores, а отдельный pricing/model adapter должен регулярно проверять официальные pricing/docs страницы, сохранять observation history и помечать stale данные.
Практический контракт: таблица читает latest snapshot; snapshot берет Agent Score из benchmark observations, а цену и model display из свежей metadata observation. Если pricing-source устарел, строка не должна исчезать, но в карточке агента нужен stale flag и дата последней проверки.