База·LLM-модели·GPT 5.5 xhigh·обновлено 4 июня 2026

Ранг: #1·Оценка: 67.9/100·Расчет: llm-deepswe-anchor-v1

VC ИНДЕКСОБЪЕКТ GPT-5-5-EXTRA-HIGHКЛАСС МОДЕЛИРАНГ #1ОЦЕНКА 67.9/100УВЕР. ВЫСОКАЯРАСЧЕТ CONVEX LLM

Провайдер

OpenAI

LLM-модель, не код-агентРедакционный V2: 2026-06-07

GPT 5.5 xhigh

GPT 5.5 xhigh - тяжелая артиллерия OpenAI для кода: включать, когда нужен принятый diff, а не экономия на копейках.

Первым ставим на тяжелые задачи. Дешевые режимы подключаем потом, когда есть эталон качества и понятно, где можно не переплачивать.

Оценка Vibecoding.ru

67.9/100

главная оценка для задач по коду

Эффективность в коде

DeepSWE 70.0% pass@1 / 88.3% pass@4

качество решения задач по бенчмарк-сигналам

Средняя цена

$6.61/task DeepSWE

стоимость результата, когда источник ее раскрывает

Провайдер

OpenAI

кто выпускает модель

Веса

закрытые

открытые, закрытые или смешанные веса

Контекст

922K токенов

размер контекстного окна модели

Дата релиза

23 апреля 2026

дата релиза конкретной версии

Решение

Когда это модель по умолчанию

Брать для

сложные изменения в репозитории, архитектура, миграции и отладка
Codex workflow, где модель должна читать код, править файлы и проходить проверки
задачи с высокой ценой ошибки: прод, платежи, данные, безопасность

Не брать для

массовые дешевые правки, где достаточно mini/flash уровня
эксперименты без тестов и без человека, который читает diff
локальный запуск, open-weight требования и жесткий контроль инфраструктуры

Расчет

Почему такая оценка

Convex latest snapshot: Artificial Analysis, DeepSWE и SWE-Rebench. Score берется из llm-deepswe-anchor-v1; редакционный verdict показан отдельно и не подменяет benchmark.

Публичный консенсус

67.9/100

бенчмарк-сигналы

Ручная поправка

редакционный слой

Покрытие

3 источн.

высокая

Сигналы

Сила и риски

Сильные сигналы

текущий лидер LLM-индекса vibecoding.ru
сильный публичный сигнал в agentic coding и repo-level benchmark источниках
лучше всего раскрывается не в чате, а внутри Codex-процесса

Риски

дорого на длинных задачах и больших diff
закрытая модель: нельзя развернуть локально и нельзя проверить веса
без хорошего задания и тестов все равно может уверенно сделать лишнее

Источники

Факты из источников

Метрика	Значение	Источник	Комментарий
AA Coding Index	65.3	Artificial Analysis	Composite coding signal из Artificial Analysis
AA agent reward	60.7	Artificial Analysis	Средний reward в agentic coding срезе
DeepSWE pass@1	70.0%	DeepSWE	Независимый repo-level benchmark
DeepSWE pass@4	88.3%	DeepSWE	Best-of-4 срез DeepSWE
SWE-Rebench resolved	62.7%	SWE-Rebench	Resolved rate из SWE-Rebench
DeepSWE cost	$6.61USD/task	DeepSWE	Средняя стоимость задачи в DeepSWE
AA cost	$4.33USD/task	Artificial Analysis	Средняя стоимость задачи в Artificial Analysis
Output price	$301M output tokens	Artificial Analysis	Цена output-токенов из pricing-среза
Контекст	922Kтокенов	Artificial Analysis	Контекстное окно из model metadata

Профиль

Оценка по источникам

GPT 5.5 xhigh

GPT 5.5 xhigh - тяжелая артиллерия OpenAI для кода: включать, когда нужен принятый diff, а не экономия на копейках.

Метрика

Значение

Источник

Комментарий

AA Coding Index

65.3

Artificial Analysis

Composite coding signal из Artificial Analysis

AA agent reward

60.7

Artificial Analysis

Средний reward в agentic coding срезе

DeepSWE pass@1

70.0%

DeepSWE

Независимый repo-level benchmark

DeepSWE pass@4

88.3%

DeepSWE

Best-of-4 срез DeepSWE

SWE-Rebench resolved

62.7%

SWE-Rebench

Resolved rate из SWE-Rebench

DeepSWE cost

$6.61USD/task

DeepSWE

Средняя стоимость задачи в DeepSWE

AA cost

$4.33USD/task

Artificial Analysis

Средняя стоимость задачи в Artificial Analysis

Output price

$301M output tokens

Artificial Analysis

Цена output-токенов из pricing-среза

Контекст

922Kтокенов

Artificial Analysis

Контекстное окно из model metadata