ACE-Step 1.5: открытая нейросеть для генерации музыки, которая работает локально и обходит Suno v4.5
Коммерческие сервисы генерации музыки — Suno, Udio, Mureka — работают по подписке, ограничивают количество треков и не дают запустить модель на своём железе. ACE-Step 1.5, выпущенный в 2026 году командой ACE Studio и StepFun, меняет расклад: это open-source модель с лицензией MIT, которая по качеству звука превосходит Suno v4.5 и приближается к Suno v5, при этом генерирует полную песню за 2 секунды на A100 и работает менее чем с 4 ГБ видеопамяти. Разбор архитектуры, реальных характеристик и сравнение с коммерческими аналогами.
Гибридная архитектура: языковая модель плюс диффузионный трансформер
В основе ACE-Step 1.5 лежит нестандартное решение: языковая модель (LM) работает как планировщик композиции, а Diffusion Transformer (DiT) отвечает за генерацию аудио. LM превращает текстовый запрос пользователя в подробную «синюю карту» песни — метаданные, текст, описание стиля — и направляет DiT через Chain-of-Thought.
Обучение выравнивания между LM и DiT выполнено через intrinsic reinforcement learning — внутреннее обучение с подкреплением без внешних reward-моделей. Это устраняет смещения, которые возникают при использовании человеческих оценок или внешних наградных функций.
На практике это означает: пользователь описывает музыку на естественном языке — «грустное фортепиано в стиле синти-поп 80-х, женский вокал, темп 90 BPM» — и модель сама определяет жанр, темп, тональность, инструменты и структуру композиции.
50+ языков и 1000+ инструментов
ACE-Step 1.5 поддерживает тексты на 50+ языках, включая русский, английский, китайский, японский, испанский, португальский и арабский. Модель обучена распознавать и генерировать более 1000 инструментов с точным описанием тембра — от акустической гитары до синтезатора Moog и японского сямисэна.
Встроенный механизм Query Rewriting автоматически разворачивает короткие промпты в детальные спецификации. Фраза «весёлая песня про кота» превращается в полноценное описание аранжировки с жанром, темпом, инструментовкой и структурой — пользователю не нужно быть музыкальным продюсером, чтобы получить качественный результат.
Скорость генерации: 2 секунды на песню
Производительность — сильная сторона ACE-Step 1.5. Полная песня длительностью 3–4 минуты генерируется за менее 2 секунд на NVIDIA A100 и менее 10 секунд на RTX 3090. Для сравнения: большинство конкурентных моделей тратят на аналогичную задачу от 20 секунд до нескольких минут.
В режиме turbo (8 шагов диффузии) скорость ещё выше, хотя с некоторой потерей качества. Стандартный режим sft (50 шагов) даёт лучшее качество, но требует больше времени. Базовая 2B-модель генерирует до 8 песен одновременно в пакетном режиме.
Требования к железу: от 4 ГБ видеопамяти
Минимальные требования — 4 ГБ VRAM для базовой 2B-модели с INT8-квантизацией и полным offload на CPU. Это уровень NVIDIA RTX 3050 или даже интегрированных решений. Модель XL-серии с 4 миллиардами параметров в DiT-декодере требует от 12 ГБ VRAM (с offload) или от 20 ГБ (без offload).
Поддерживаются NVIDIA CUDA, AMD ROCm, Apple Silicon (MLX) и Intel XPU. На маках с M1/M2/M3 модель работает через бэкенд MLX — без CUDA, нативно для архитектуры Apple. Есть готовые portable-пакеты для Windows и macOS, а также Docker-образы для облачных GPU-серверов.
Качество: бенчмарки и сравнение с Suno v5
По результатам тестирования, ACE-Step 1.5-XL (4B DiT) превосходит Suno v4.5 по большинству метрик и находится на уровне Suno v5 по отдельным показателям. Оценки по шкале 1–5: музыкальность (4.79 против 4.72 у Suno v5), естественность вокала (4.65 против 4.56), соответствие стилю (4.78 против 4.71), соответствие тексту (4.72 против 4.63).
Стандартная 2B-модель ACE-Step 1.5 показывает качество между Suno v4.5 и Suno v5 — этого достаточно для большинства практических задач. XL-версия по ряду параметров превосходит обе модели Suno. При этом Suno v5.5 — последняя коммерческая модель — остаётся ориентиром, до которого open-source пока не полностью дотягивает.
| Модель | Музыкальность | Вокал | Стиль | Текст | Цена |
|---|---|---|---|---|---|
| ACE-Step 1.5-XL | 4.79 | 4.65 | 4.78 | 4.72 | Бесплатно (MIT) |
| Suno v5 | 4.72 | 4.56 | 4.71 | 4.63 | $8–24/мес |
| Suno v4.5 | 4.64 | 4.49 | 4.63 | 4.53 | $8–24/мес |
| ACE-Step 1.5 (2B) | 4.67 | 4.59 | 4.72 | 4.66 | Бесплатно (MIT) |
| Mureka V8 | 4.46 | 4.41 | 4.52 | 4.48 | Подписка |
LoRA-персонализация: собственный стиль за час
Одна из ключевых возможностей ACE-Step 1.5 — LoRA-обучение на собственных треках. Достаточно 8 песен и примерно 1 часа на RTX 3090 (12 ГБ VRAM), чтобы модель адаптировалась под конкретный стиль вокала, жанр или манеру исполнения. В Gradio-интерфейсе есть встроенная вкладка для разметки данных и запуска обучения в один клик.
Это открывает сценарии, недоступные в облачных сервисах: обучение на собственном вокале, стилизация под конкретного исполнителя, создание уникального звучания для музыкального проекта. Suno и Udio не предоставляют доступа к тонкой настройке модели на пользовательских данных.
Режимы работы: каверы, ремиксы и разделение треков
ACE-Step 1.5 поддерживает несколько режимов помимо стандартной генерации из текста. Cover Generation — создание кавер-версий с изменением стиля или вокала. Repaint — перерисовка отдельных участков аудио с сохранением остальной части. Vocal2BGM — автоматическая генерация аккомпанемента для вокальной дорожки. Track Separation — разделение микса на отдельные стемы (вокал, ударные, бас, остальные инструменты).
Режим Multi-Track позволяет добавлять слои к существующей композиции — аналог функции Add Layer в Suno Studio. Режим Extract извлекает отдельные элементы из аудио, а Complete достраивает незавершённые композиции. Все эти функции доступны локально, без ограничений по количеству генераций.
Экосистема: VST3-плагин, ComfyUI и альтернативные интерфейсы
Вокруг ACE-Step сформировалась экосистема проектов. acestep.vst3 — официальный VST3-плагин на C++17/GGML для интеграции с DAW (Ableton, FL Studio, Logic Pro). acestep.cpp — портативная C++-реализация для CPU, CUDA, Metal и Vulkan. Альтернативные UI — ace-step-ui в стиле Spotify, ace-step-studio в стиле Suno, Tadpole Studio с функциями AI-диджея и плейлистов.
Для ComfyUI существуют несколько наборов нод с поддержкой генерации, каверов, LoRA-обучения и потокового вещания. Проект Generative Radio создаёт непрерывный AI-радиопоток, где Qwen3 генерирует промпты, а ACE-Step — музыку. Для тех, кто не хочет запускать модель локально, доступен бесплатный сервис acemusic.ai — без GPU, прямо в браузере.
Telegram-бот для генерации песен без установки
Для практического применения генерации музыки не обязательно запускать модель локально. Telegram-бот @singingcard2025_bot создаёт персональные музыкальные композиции прямо в мессенджере. Пользователь описывает повод, получателя и настроение — бот генерирует полноценную песню с текстом, мелодией и вокалом за 1–3 минуты.
Бот поддерживает 10 языков интерфейса: русский, украинский, английский, испанский, португальский, хинди, индонезийский, вьетнамский, французский и итальянский. Типичный сценарий — песня в подарок на день рождения, юбилей, свадьбу или годовщину. При первом запуске бот даёт 20 бесплатных кредитов, далее — пакет через Telegram Stars от 50 Stars (~$1). Подробнее о боте: «Я сделал бота, который поёт поздравления».
ACE-Step 1.5 против Suno: что выбрать
Suno — облачный сервис по подписке ($0–$24/мес) с моделями до v5.5. Бесплатный план даёт 10 песен в день на v4.5, Pro — 500 песен в месяц, Premier — 2000 песен с доступом к Suno Studio. Коммерческие права — только на платных планах. Персонализации модели нет.
ACE-Step 1.5 — полностью локальный, MIT-лицензия, без подписок и ограничений на генерации. Коммерческое использование разрешено. LoRA-персонализация, интеграция с DAW, работа без интернета. Требует GPU от 4 ГБ VRAM.
Если нужна одна песня в месяц — Suno удобнее: открыл браузер, описал, скачал. Если музыка нужна регулярно, важна приватность, кастомизация или коммерческое использование без привязки к подписке — ACE-Step 1.5 рациональнее. Для быстрого результата без установки железа — Telegram-бот @singingcard2025_bot или acemusic.ai.
Выводы
ACE-Step 1.5 — первый по-настоящему конкурентоспособный open-source проект в области генерации музыки. Модель с гибридной архитектурой LM + DiT генерирует песни коммерческого качества за секунды, работает на потребительском железе от 4 ГБ VRAM и поддерживает персонализацию через LoRA на 8 треках.
Для музыкального продакшна, контента, экспериментов или просто интереса — open-source модель на собственном компьютере теперь даёт результат, сопоставимый с Suno v5. Репозиторий: github.com/ace-step/ACE-Step-1.5. Экосистема проектов: awesome-ace-step.