ACE-Step 1.5: открытая нейросеть для генерации музыки, которая работает локально и обходит Suno v4.5

Коммерческие сервисы генерации музыки — Suno, Udio, Mureka — работают по подписке, ограничивают количество треков и не дают запустить модель на своём железе. ACE-Step 1.5, выпущенный в 2026 году командой ACE Studio и StepFun, меняет расклад: это open-source модель с лицензией MIT, которая по качеству звука превосходит Suno v4.5 и приближается к Suno v5, при этом генерирует полную песню за 2 секунды на A100 и работает менее чем с 4 ГБ видеопамяти. Разбор архитектуры, реальных характеристик и сравнение с коммерческими аналогами.

Гибридная архитектура: языковая модель плюс диффузионный трансформер

В основе ACE-Step 1.5 лежит нестандартное решение: языковая модель (LM) работает как планировщик композиции, а Diffusion Transformer (DiT) отвечает за генерацию аудио. LM превращает текстовый запрос пользователя в подробную «синюю карту» песни — метаданные, текст, описание стиля — и направляет DiT через Chain-of-Thought.

Обучение выравнивания между LM и DiT выполнено через intrinsic reinforcement learning — внутреннее обучение с подкреплением без внешних reward-моделей. Это устраняет смещения, которые возникают при использовании человеческих оценок или внешних наградных функций.

На практике это означает: пользователь описывает музыку на естественном языке — «грустное фортепиано в стиле синти-поп 80-х, женский вокал, темп 90 BPM» — и модель сама определяет жанр, темп, тональность, инструменты и структуру композиции.

50+ языков и 1000+ инструментов

ACE-Step 1.5 поддерживает тексты на 50+ языках, включая русский, английский, китайский, японский, испанский, португальский и арабский. Модель обучена распознавать и генерировать более 1000 инструментов с точным описанием тембра — от акустической гитары до синтезатора Moog и японского сямисэна.

Встроенный механизм Query Rewriting автоматически разворачивает короткие промпты в детальные спецификации. Фраза «весёлая песня про кота» превращается в полноценное описание аранжировки с жанром, темпом, инструментовкой и структурой — пользователю не нужно быть музыкальным продюсером, чтобы получить качественный результат.

Скорость генерации: 2 секунды на песню

Производительность — сильная сторона ACE-Step 1.5. Полная песня длительностью 3–4 минуты генерируется за менее 2 секунд на NVIDIA A100 и менее 10 секунд на RTX 3090. Для сравнения: большинство конкурентных моделей тратят на аналогичную задачу от 20 секунд до нескольких минут.

В режиме turbo (8 шагов диффузии) скорость ещё выше, хотя с некоторой потерей качества. Стандартный режим sft (50 шагов) даёт лучшее качество, но требует больше времени. Базовая 2B-модель генерирует до 8 песен одновременно в пакетном режиме.

Требования к железу: от 4 ГБ видеопамяти

Минимальные требования — 4 ГБ VRAM для базовой 2B-модели с INT8-квантизацией и полным offload на CPU. Это уровень NVIDIA RTX 3050 или даже интегрированных решений. Модель XL-серии с 4 миллиардами параметров в DiT-декодере требует от 12 ГБ VRAM (с offload) или от 20 ГБ (без offload).

Поддерживаются NVIDIA CUDA, AMD ROCm, Apple Silicon (MLX) и Intel XPU. На маках с M1/M2/M3 модель работает через бэкенд MLX — без CUDA, нативно для архитектуры Apple. Есть готовые portable-пакеты для Windows и macOS, а также Docker-образы для облачных GPU-серверов.

Качество: бенчмарки и сравнение с Suno v5

По результатам тестирования, ACE-Step 1.5-XL (4B DiT) превосходит Suno v4.5 по большинству метрик и находится на уровне Suno v5 по отдельным показателям. Оценки по шкале 1–5: музыкальность (4.79 против 4.72 у Suno v5), естественность вокала (4.65 против 4.56), соответствие стилю (4.78 против 4.71), соответствие тексту (4.72 против 4.63).

Стандартная 2B-модель ACE-Step 1.5 показывает качество между Suno v4.5 и Suno v5 — этого достаточно для большинства практических задач. XL-версия по ряду параметров превосходит обе модели Suno. При этом Suno v5.5 — последняя коммерческая модель — остаётся ориентиром, до которого open-source пока не полностью дотягивает.

Модель	Музыкальность	Вокал	Стиль	Текст	Цена
ACE-Step 1.5-XL	4.79	4.65	4.78	4.72	Бесплатно (MIT)
Suno v5	4.72	4.56	4.71	4.63	$8–24/мес
Suno v4.5	4.64	4.49	4.63	4.53	$8–24/мес
ACE-Step 1.5 (2B)	4.67	4.59	4.72	4.66	Бесплатно (MIT)
Mureka V8	4.46	4.41	4.52	4.48	Подписка

LoRA-персонализация: собственный стиль за час

Одна из ключевых возможностей ACE-Step 1.5 — LoRA-обучение на собственных треках. Достаточно 8 песен и примерно 1 часа на RTX 3090 (12 ГБ VRAM), чтобы модель адаптировалась под конкретный стиль вокала, жанр или манеру исполнения. В Gradio-интерфейсе есть встроенная вкладка для разметки данных и запуска обучения в один клик.

Это открывает сценарии, недоступные в облачных сервисах: обучение на собственном вокале, стилизация под конкретного исполнителя, создание уникального звучания для музыкального проекта. Suno и Udio не предоставляют доступа к тонкой настройке модели на пользовательских данных.

Режимы работы: каверы, ремиксы и разделение треков

ACE-Step 1.5 поддерживает несколько режимов помимо стандартной генерации из текста. Cover Generation — создание кавер-версий с изменением стиля или вокала. Repaint — перерисовка отдельных участков аудио с сохранением остальной части. Vocal2BGM — автоматическая генерация аккомпанемента для вокальной дорожки. Track Separation — разделение микса на отдельные стемы (вокал, ударные, бас, остальные инструменты).

Режим Multi-Track позволяет добавлять слои к существующей композиции — аналог функции Add Layer в Suno Studio. Режим Extract извлекает отдельные элементы из аудио, а Complete достраивает незавершённые композиции. Все эти функции доступны локально, без ограничений по количеству генераций.

Экосистема: VST3-плагин, ComfyUI и альтернативные интерфейсы

Вокруг ACE-Step сформировалась экосистема проектов. acestep.vst3 — официальный VST3-плагин на C++17/GGML для интеграции с DAW (Ableton, FL Studio, Logic Pro). acestep.cpp — портативная C++-реализация для CPU, CUDA, Metal и Vulkan. Альтернативные UI — ace-step-ui в стиле Spotify, ace-step-studio в стиле Suno, Tadpole Studio с функциями AI-диджея и плейлистов.

Для ComfyUI существуют несколько наборов нод с поддержкой генерации, каверов, LoRA-обучения и потокового вещания. Проект Generative Radio создаёт непрерывный AI-радиопоток, где Qwen3 генерирует промпты, а ACE-Step — музыку. Для тех, кто не хочет запускать модель локально, доступен бесплатный сервис acemusic.ai — без GPU, прямо в браузере.

Telegram-бот для генерации песен без установки

Для практического применения генерации музыки не обязательно запускать модель локально. Telegram-бот @singingcard2025_bot создаёт персональные музыкальные композиции прямо в мессенджере. Пользователь описывает повод, получателя и настроение — бот генерирует полноценную песню с текстом, мелодией и вокалом за 1–3 минуты.

Бот поддерживает 10 языков интерфейса: русский, украинский, английский, испанский, португальский, хинди, индонезийский, вьетнамский, французский и итальянский. Типичный сценарий — песня в подарок на день рождения, юбилей, свадьбу или годовщину. При первом запуске бот даёт 20 бесплатных кредитов, далее — пакет через Telegram Stars от 50 Stars (~$1). Подробнее о боте: «Я сделал бота, который поёт поздравления».

ACE-Step 1.5 против Suno: что выбрать

Suno — облачный сервис по подписке ($0–$24/мес) с моделями до v5.5. Бесплатный план даёт 10 песен в день на v4.5, Pro — 500 песен в месяц, Premier — 2000 песен с доступом к Suno Studio. Коммерческие права — только на платных планах. Персонализации модели нет.

ACE-Step 1.5 — полностью локальный, MIT-лицензия, без подписок и ограничений на генерации. Коммерческое использование разрешено. LoRA-персонализация, интеграция с DAW, работа без интернета. Требует GPU от 4 ГБ VRAM.

Если нужна одна песня в месяц — Suno удобнее: открыл браузер, описал, скачал. Если музыка нужна регулярно, важна приватность, кастомизация или коммерческое использование без привязки к подписке — ACE-Step 1.5 рациональнее. Для быстрого результата без установки железа — Telegram-бот @singingcard2025_bot или acemusic.ai.

Выводы

ACE-Step 1.5 — первый по-настоящему конкурентоспособный open-source проект в области генерации музыки. Модель с гибридной архитектурой LM + DiT генерирует песни коммерческого качества за секунды, работает на потребительском железе от 4 ГБ VRAM и поддерживает персонализацию через LoRA на 8 треках.

Для музыкального продакшна, контента, экспериментов или просто интереса — open-source модель на собственном компьютере теперь даёт результат, сопоставимый с Suno v5. Репозиторий: github.com/ace-step/ACE-Step-1.5. Экосистема проектов: awesome-ace-step.

Гибридная архитектура: языковая модель плюс диффузионный трансформер

50+ языков и 1000+ инструментов

Скорость генерации: 2 секунды на песню

Требования к железу: от 4 ГБ видеопамяти

Качество: бенчмарки и сравнение с Suno v5

LoRA-персонализация: собственный стиль за час

Режимы работы: каверы, ремиксы и разделение треков

Экосистема: VST3-плагин, ComfyUI и альтернативные интерфейсы

Telegram-бот для генерации песен без установки

ACE-Step 1.5 против Suno: что выбрать

Выводы

Похожие записи:

Добавить комментарий