NeuralWatt: нейросети по тарифу электросчётчика — сколько стоит ИИ в киловатт-часах

поделиться

Стартап NeuralWatt продаёт доступ к языковым моделям — Qwen, Kimi, GLM, MiniMax, Mistral — но считает оплату не в токенах, а в киловатт-часах. Базовая подписка — $20 в месяц за 6 кВт·ч, единый тариф $5/кВт·ч для всех 14 моделей. Идея в том, что счёт отражает реальную энергию, потраченную GPU, а не абстрактные надбавки за токены. Разбираем, как это устроено, где экономия и при чём тут зелёная энергетика.

Почему киловатт-часы, а не токены

Стандартная модель ценообразования ИИ-сервисов — оплата за миллион токенов, отдельно за ввод и вывод, с разными ставками для каждой модели. Проблема в том, что «дешёвая» модель может потреблять больше ресурсов GPU на каждый токен, чем дорогая, и пользователь этого не видит. NeuralWatt переворачивает схему: измеряется реальная электрическая энергия, которую GPU тратит на обработку запроса, и выставляется счёт по единой ставке $5,00/кВт·ч.

Логика простая. Вычисления на GPU в конечном счёте ограничены мощностью. Дата-центр платит за электричество, охлаждение и амортизацию оборудования — всё это масштабируется пропорционально ваттам, а не токенам. Привязка цены к кВт·ч выравнивает затраты клиента с реальным потреблением ресурсов провайдера. Каждый ответ API содержит метрику энергии в милливатт-часах — можно точно увидеть, во сколько обходится каждый запрос в физических величинах.

Тарифные планы: от $20 до $100 в месяц

NeuralWatt предлагает три подписки с ежемесячным лимитом кВт·ч и скидкой относительно pay-as-you-go тарифа $5/кВт·ч:

План Цена Включено Эффективная $/кВт·ч Особенность
Basic $20/мес 6 кВт·ч ~$3,33 Все модели, дашборд энергии
Standard $50/мес 16 кВт·ч ~$3,13 Приоритет, аналитика
Pro $100/мес 33 кВт·ч ~$3,03 Максимальный приоритет, доплата $5/кВт·ч

Базовый план даёт скидку ~33% от pay-as-you-go. Новые аккаунты получают $1 бесплатных кредитов для тестирования API без обязательств. Когда лимит исчерпан, запросы либо останавливаются, либо переключаются на overage-тариф $5/кВт·ч — никаких скрытых списаний.

Где энергетический тариф реально выгоднее

Главное преимущество кВт·ч-биллинга проявляется на MoE-моделях (Mixture of Experts). Архитектуры вроде Qwen3.5 397B и Kimi K2.5 активируют только часть параметров на каждый запрос — Qwen3.5 397B использует примерно 17 млрд активных параметров из 397 млрд общих. GPU делает значительно меньше работы на токен по сравнению с «плотной» моделью сопоставимого размера.

При токенном ценообразовании MoE-модели часто стоят примерно столько же, сколько плотные модели с тем же числом параметров — провайдеры берут за «размер» модели. При энергетическом — MoE-модели обходятся радикально дешевле, потому что физически потребляют меньше. NeuralWatt заявляет о скидке до 95% на MoE-модели по сравнению с токенными ставками. Kimi K2.5 потребляет 1,23 Вт·ч на запрос — при тарифе $5/кВт·ч это примерно $0,006 за инференс.

Доступные модели и расход энергии на запрос

Платформа сейчас хостит 14 моделей от семи провайдеров. Энергопотребление на запрос сильно различается в зависимости от архитектуры:

Модель Провайдер Энергия/запрос Контекст
GPT-OSS 20B OpenAI 52,78 мВт·ч 16K
Qwen3.6 35B Qwen 191,93 мВт·ч 131K
MiniMax M2.5 MiniMax 296,02 мВт·ч 196K
Devstral Small 2 24B Mistral 331,63 мВт·ч 262K
Qwen3.5 397B Qwen 336,69 мВт·ч 262K
GLM-5.1 Fast ZhipuAI 712,39 мВт·ч 200K
GLM-5.1 ZhipuAI 922,83 мВт·ч 200K
Kimi K2.5 MoonshotAI 1,23 Вт·ч 262K
Kimi K2.6 Fast MoonshotAI 1,42 Вт·ч 262K

Самая экономичная модель — GPT-OSS 20B при 52,78 мВт·ч на запрос. Это примерно 19 000 запросов на 1 кВт·ч. По эффективному тарифу Basic ($3,33/кВт·ч) один инференс стоит около $0,00018. Самая прожорливая в таблице, GLM-5.1 (922,83 мВт·ч), всё равно выдаёт более 1 000 запросов на кВт·ч — вполне практично при таких ценах.

Как NeuralWatt считает энергию

Каждый ответ API включает значение потреблённой энергии в милливатт-часах. NeuralWatt применяет attribution cap — максимальный лимит энергии на один запрос, что означает: при параллельной нагрузке реальное потребление на запрос ниже заявленной цифры. Измерение покрывает вычисления GPU: электричество, которое GPU потребляет во время инференса, плюс пропорциональные доли охлаждения и накладных расходов.

Платформа также поддерживает prefix caching: когда один и тот же системный промпт или префикс контекста переиспользуется между запросами, кэшированные токены не пересчитываются и тарифицируются по 25% от обычной ставки ввода. Для чат-бота с системным промптом на 10 000 токенов это означает, что префикс не обрабатывается заново каждый раз — прямая экономия энергии.

Neuralwatt Optimize: технология за ценой

Энергетическое ценообразование — не просто трюк с биллингом. За ним стоит движок оптимизации GPU Neuralwatt Optimize, который в реальном времени адаптирует энергопотребление видеокарт NVIDIA (архитектуры Ada, Hopper, Blackwell), динамически подстраивая лимиты мощности под характеристики нагрузки.

По заявлению NeuralWatt, оптимизация даёт примерно 33% больше инференс-вывода при том же энерголимите — фактически 8 GPU на электричестве от 6. Система также поддерживает grid-aware demand response — гибкое управление потреблением в зависимости от нагрузки на электросеть, снижение нагрузки на охлаждение и углеродного следа в часы пик. Технология протестирована в дата-центрах мощностью 100+ МВт и доступна как on-premise решение (Neuralwatt Deploy) для организаций, которые хотят запускать оптимизацию на собственном оборудовании.

При чём тут зелёная энергетика

NeuralWatt позиционирует себя как компанию, ориентированную на энергоэффективность ИИ. Концепция резонирует с трендом на ESG-отчётность: компании всё чаще обязаны отслеживать углеродный след своих ИИ-нагрузок. NeuralWatt встраивает энергетическую отчётность прямо в API — каждый запрос содержит метрику потребления, дашборд показывает тренды и сравнение эффективности моделей. Для компании, которая считает свой углеродный след от ИИ, эти данные иначе пришлось бы собирать сторонними инструментами или оценивать вручную.

Идея продавать ИИ в кВт·ч — это по сути попытка сделать вычислительные ресурсы таким же «физическим» товаром, как электричество. Как и с солнечными панелями на балконе, здесь работает тот же принцип: чем лучше понимаешь реальное потребление, тем эффективнее его контролируешь. Только вместо амперметра — дашборд с милливатт-часами на каждый API-запрос.

Кому это выгодно

Модель лучше всего подходит для трёх категорий пользователей. Разработчики с большими объёмами MoE-моделей получают максимум выгоды — скидка до 95% на Qwen3.5 и Kimi K2.5 ощутима на масштабе. Пакетная обработка 100 000 запросов через Qwen3.5 397B потребит ~33,7 кВт·ч — это ~$112 по pay-as-you-go или полностью покрывается одной подпиской Pro.

Команды с фиксированным бюджетом ценят предсказуемость — никаких сюрпризов от зацикленного промпта, потому что лимит кВт·ч жёсткий. После исчерпания аллокации запросы останавливаются или переключаются на overage по $5/кВт·ч.

Организации с ESG-требованиями получают встроенный энергомониторинг без доплаты. Для компаний, отслеживающих углеродный след ИИ-инфраструктуры, это закрывает вопрос с отчётностью «из коробки».

Итог

NeuralWatt — маленький игрок на рынке, где доминируют OpenAI, Anthropic и Google, — но модель ценообразования у них действительно новая. Для нагрузок на MoE-моделях энергетический подход даёт реальную и верифицируемую экономию: каждый запрос приходит с показаниями «ваттметра». Подписка за $20/мес — низкий порог входа для индивидуального разработчика, а $1 бесплатных кредитов снимает барьер для тестирования. Станет ли энергетическое ценообразование стандартом индустрии — вопрос открытый, но NeuralWatt доказывает, что это технически возможно и коммерчески работоспособно уже сейчас.

Добавить комментарий