Research / Article 08Статья 08
Implementation Реализация

Project Plan & Experiment Design

План проекта и дизайн экспериментов

A detailed implementation blueprint: system components, commissioning protocol, models, step-by-step cycle descriptions, and the full experiment matrix.

Детальный план реализации: компоненты системы, протокол ввода в эксплуатацию, модели, пошаговое описание циклов и полная матрица экспериментов.

February 2026 · Version 1.0
Февраль 2026 · Версия 1.0
25 min read
25 мин чтения

I. Project Overview

I. Обзор проекта

The objective is to construct an autonomous generative system that produces visually diverse, aesthetically significant images transcending ordinary perception. The system employs impossible materials, paradoxical visual solutions, and sensory overwhelm as primary instruments.

Цель — построить автономную генеративную систему, производящую визуально разнообразные, эстетически значимые изображения, выходящие за пределы обыденного восприятия. Система использует невозможные материалы, парадоксальные визуальные решения и сенсорную перегрузку как основные инструменты.

Fig. 1. Project Structure
Рис. 1. Структура проекта
Stage 0 Build & Commission Сборка и ввод Phase 1 Arch. Tournament Арх. турнир Phase 2 Tuning Настройка Phase 3 Exploration Исследование Phase 4 ∞ Continuous Service ∞ Непрерывный сервис creation · calibration · evolution творчество · калибровка · эволюция

II. Stage 0: Construction & Commissioning

II. Stage 0: строительство и ввод в эксплуатацию

Stage 0 is not an experiment. It encompasses the construction of the entire test stand: agents, generation environment, evaluation pipeline, storage system, metrics, dashboard, and operational controls. Experiments commence only upon full commissioning.

Stage 0 — не эксперимент. Он охватывает строительство всего стенда: агенты, среда генерации, пайплайн оценки, система хранения, метрики, дашборд и средства управления. Эксперименты начинаются только после полного ввода в эксплуатацию.

System Components

Компоненты системы

🖼
A. Image Generation
A. Генерация изображений
Text prompt → 1024×1024 image via GPT Image 1.5. Retry logic with exponential backoff.
Текстовый промпт → изображение 1024×1024 через GPT Image 1.5. Логика повторов с экспоненциальным откатом.
gpt-image-1.5
🧠
B. LLM Agent Service
B. LLM-агентный сервис
Three top-tier models wrapped in a unified interface with full logging.
Три модели высшего уровня, обёрнутые в единый интерфейс с полным логированием.
Claude 4.6 · GPT-5.2 · Gemini 3.1 Pro
🚪
C. T5-GATE Pipeline
C. Пайплайн T5-GATE
Sequential fail-fast: NIMA → CLIP → DreamSim → VLM Checklist. Rejected images logged with gate and score.
Последовательный fail-fast: NIMA → CLIP → DreamSim → VLM-чеклист. Отклонённые изображения логируются с указанием гейта и балла.
4 gates · fail-fast
🗺
D. QD-Map Engine
D. Движок QD-карты
MAP-Elites grid: 3 axes × 10 bins = 1,000 cells. NIMA score as tiebreaker within cells.
Сетка MAP-Elites: 3 оси × 10 бинов = 1 000 ячеек. Балл NIMA как тай-брейкер внутри ячеек.
10×10×10 = 1,000 cells
📦
E. Archive & Embeddings
E. Архив и эмбеддинги
Accepted images + metadata + cached DreamSim/CLIP embeddings. FAISS index at archive > 500.
Принятые изображения + метаданные + кэшированные эмбеддинги DreamSim/CLIP. FAISS-индекс при архиве > 500.
S3 / local FS · FAISS
🎛
F. Constraint Engine
F. Движок ограничений
Seed library of 100+ JSON constraint sets. Selection mode: random, QD-gap, or adversarial.
Библиотека из 100+ JSON-наборов ограничений. Режим выбора: случайный, QD-gap или состязательный.
JSON · 100+ seeds
G. Orchestrator
G. Оркестратор
Central cycle runner, YAML config, checkpoint/resume every 10 cycles, Martingale stagnation monitor.
Центральный запуск циклов, конфигурация YAML, чекпоинт/resume каждые 10 циклов, монитор стагнации Мартингейл.
YAML · checkpoint
📊
H. Dashboard
H. Дашборд
Real-time monitoring: coverage curves, gate diagnostics, cost tracking, image inspector, QD-map visualization.
Мониторинг в реальном времени: кривые покрытия, диагностика гейтов, отслеживание расходов, инспектор изображений, визуализация QD-карты.
Streamlit MVP

Five-Level Commissioning Protocol

Пятиуровневый протокол ввода в эксплуатацию

Each level is a go/no-go gate. The next level begins only after the previous one is passed.

Каждый уровень — точка принятия решения go/no-go. Следующий уровень начинается только после прохождения предыдущего.

Level 1: Infrastructure (everything connects)

Уровень 1: Инфраструктура (всё подключается)

TestТестPass CriterionКритерий прохождения
L1.1 GPT Image 1.5 APIImage generated, saved, size > 0Изображение сгенерировано, сохранено, размер > 0
L1.2–L1.4 LLM APIsResponse received, parsed, latency < 30sОтвет получен, распарсен, задержка < 30с
L1.5 NIMAScore returned, float ∈ [1, 10]Балл возвращён, float ∈ [1, 10]
L1.6 CLIPCosine similarity, float ∈ [0, 1]Косинусное сходство, float ∈ [0, 1]
L1.7 DreamSimDistance returned, float > 0Расстояние возвращено, float > 0
L1.8 StorageImage saves to correct path, metadata JSON validИзображение сохраняется по верному пути, метаданные JSON валидны
L1.9 DashboardStreamlit starts, shows placeholderStreamlit запускается, показывает заглушку

Level 2: Pipeline (each stage works)

Уровень 2: Пайплайн (каждый этап работает)

TestТестPass CriterionКритерий прохождения
L2.1 Constraint genLLM generates constraints in specified JSON formatLLM генерирует ограничения в заданном JSON-формате
L2.2 Prompt genLLM generates image prompt from constraints, ≤ 1000 charsLLM генерирует промпт из ограничений, ≤ 1000 символов
L2.3 Image genGPT Image 1.5 generates image from promptGPT Image 1.5 генерирует изображение из промпта
L2.4–L2.7 Gates 1–4Score computed, accept/reject decision correctБалл вычислен, решение принять/отклонить корректно
L2.8 QD-map updateAccepted → descriptor computed → cell updatedПринято → дескриптор вычислен → ячейка обновлена
L2.9 Archive updateImage + metadata stored, embedding cachedИзображение + метаданные сохранены, эмбеддинг кэширован

Level 3: Loop (full cycle closes)

Уровень 3: Цикл (полный цикл замыкается)

TestТестPass CriterionКритерий прохождения
L3.15 consecutive cycles complete without errors5 последовательных циклов завершаются без ошибок
L3.2Cycle N+1 sees results of cycle NЦикл N+1 видит результаты цикла N
L3.3Gate 3 uses real archive for nearest-neighborGate 3 использует реальный архив для ближайшего соседа
L3.4Martingale score computed, no crash on monotonic rejectionMartingale score вычислен, нет крашей при монотонном отклонении
L3.5Stop after cycle 3, resume — cycle 4 continues correctlyОстановка после цикла 3, resume — цикл 4 продолжается корректно
L3.6Accumulated cost matches expected (±10%)Накопленная стоимость соответствует ожидаемой (±10%)

Level 4: Metrics (everything is measured correctly)

Уровень 4: Метрики (всё измеряется корректно)

TestТестPass CriterionКритерий прохождения
L4.1Per-image metrics JSON log contains all required fieldsJSON-лог метрик изображения содержит все обязательные поля
L4.2Series aggregates computed (coverage, mean_dreamsim, gate_pass_rate)Агрегаты серий вычислены (coverage, mean_dreamsim, gate_pass_rate)
L4.3Coverage curve monotonically non-decreasingКривая покрытия монотонно неубывающая
L4.4DreamSim trajectory not NaN, reasonable rangeТраектория DreamSim не NaN, разумный диапазон
L4.5Mann-Whitney U test works on synthetic dataТест Манна-Уитни работает на синтетических данных
L4.6Dashboard shows real metrics from 5-cycle testДашборд показывает реальные метрики 5-циклового теста

Level 5: Calibration (results are adequate)

Уровень 5: Калибровка (результаты адекватны)

50-cycle run of branch α with full pipeline. This is a smoke test of the entire system. Level 5 is iterative: up to 3 iterations if thresholds need adjustment.

50-цикловый прогон ветки α с полным пайплайном. Это smoke test всей системы. Уровень 5 итеративный: до 3 итераций при необходимости корректировки порогов.

TestТестCriterionКритерийIf failsПри провале
L5.1 Gate pass rate20–80%<20% → loosen thresholds; >80% → tighten<20% → ослабить пороги; >80% → ужесточить
L5.2 No gate dominance< 60% per gateCheck threshold of dominant gateПроверить порог доминирующего гейта
L5.3 QD coverage> 3% at 50 cyclesCheck descriptor computationПроверить вычисление дескрипторов
L5.4 Visual diversity10 accepted visually distinct10 принятых визуально различныConstraint or DreamSim issueПроблема ограничений или DreamSim
L5.5 Rejection quality10 rejected truly poor10 отклонённых действительно плохиеGates mislabeling → recalibrateГейты ошибаются → перекалибровка
L5.6 Cost sanity< $15 for 50 cycles (α)Check API call countПроверить количество API-вызовов

III. QD-Map: Three Axes of the Quality-Diversity Space

III. QD-карта: три оси пространства качества-разнообразия

The axes reflect the aesthetic philosophy of the project: impossible materials, paradoxicality, and transcendence of ordinary perception. Each image's position on all three axes is computed automatically via CLIP-Anchor method.

Оси отражают эстетическую философию проекта: невозможные материалы, парадоксальность и выход за обыденное восприятие. Позиция каждого изображения по всем трём осям вычисляется автоматически методом CLIP-Anchor.

Fig. 2. Three QD-Map Axes
Рис. 2. Три оси QD-карты
Axis 1: Material Impossibility Ось 1: Невозможность материала Familiar, physically possible ◄─────────────────────► Physically impossible, contradictory Знакомое, физически возможное ◄─────────────────────► Физически невозможное, противоречивое Axis 2: Perceptual Paradox Ось 2: Перцептуальный парадокс Coherent, expected ◄─────────────────────────────────► Paradoxical, impossible logic Целостное, ожидаемое ◄───────────────────────────────► Парадоксальное, невозможная логика Axis 3: Sensory Intensity Ось 3: Сенсорная интенсивность Minimal, restrained ◄─────────────────────────────────► Dense, overwhelming, saturated Минимальное, сдержанное ◄──────────────────────────────► Плотное, подавляющее, насыщенное
10 bins per axis → 10 × 10 × 10 = 1,000 cells. CLIP-Anchor method computes position from text anchor similarities.
10 бинов на ось → 10 × 10 × 10 = 1 000 ячеек. Метод CLIP-Anchor вычисляет позицию по сходству с текстовыми якорями.
axis_position(image) = sim_high / (sim_low + sim_high) ∈ [0, 1] axis_position(image) = sim_high / (sim_low + sim_high) ∈ [0, 1]
CLIP-Anchor normalization formula
Формула нормализации CLIP-Anchor

IV. Models & Roles

IV. Модели и роли

The principle is to use the strongest available models; cost is secondary. Model assignment is driven by each model's comparative advantage.

Принцип: использовать наиболее мощные из доступных моделей; стоимость вторична. Распределение моделей определяется сравнительным преимуществом каждой модели.

RoleРоль Primary ModelОсновная модель RationaleОбоснование Used InИспользуется в
ProposerClaude Opus 4.6Strongest reasoning → creative strategy + gap analysisНаиболее мощное рассуждение → творческая стратегия + анализ пробеловα, ε, η, θ
GeneratorGPT-5.2Top instruction following + native GPT Image ecosystemЛучшее следование инструкциям + нативная экосистема GPT Imageα, ε, η
JudgeGemini 3.1 ProLatest multimodal, doubled ARC-AGI-2 scoreНовейшая мультимодальная, удвоенный балл ARC-AGI-2ε, η, θ
Image GenGPT Image 1.5State-of-the-art image generationState-of-the-art генерация изображенийAll branchesВсе ветки

Cost per Cycle

Стоимость за цикл

BranchВеткаImage GenГен. изобр.LLMGatesTotal/cycleИтого/цикл
α (single-agent)~$0.04~$0.03~$0.03~$0.10
ε (MAE triplet)~$0.04~$0.09~$0.03~$0.16
η (ensemble)~$0.12~$0.12~$0.03~$0.27
θ (HACN)~$0.08~$0.15~$0.06~$0.29

V. Cycle: Step-by-Step

V. Цикл: шаг за шагом

The following describes the exact sequence of operations within a single generation cycle for each architectural variant.

Ниже описана точная последовательность операций в пределах одного цикла генерации для каждого архитектурного варианта.

1. CONTEXT → Load compass, last 3 accepted fingerprints, QD-map gaps, archive size, stagnation 2. CONSTRAINTS → Select/generate constraint set (T4a/T4b/T4e) 3. PROMPT → LLM crafts image prompt from context + constraints (≤ 1000 chars) 4. RENDER → GPT Image 1.5 generates image → save 5. GATE → T5-GATE sequential fail-fast: 5a. NIMA score → accept if > threshold 5b. CLIP(image, prompt) → accept if > threshold 5c. DreamSim(image, archive) → accept if novel 5d. VLM checklist → accept if ≤ 2 flags Any gate fails → REJECTED (log which gate, what score) 6. ARCHIVE → If accepted: store + cache embeddings + compute QD descriptor + update map 7. LOG → Structured JSON: all metrics, costs, timing → push to dashboard 8. STAGNATION → Update Martingale score, check consecutive rejections, DreamSim trajectory 9. → Cycle N+1
1. CONTEXT → Same as α 2. PROPOSE → Claude Opus (Proposer) analyzes context, QD-gaps, history → generates constraint set + strategic intent 3. GENERATE → GPT-5.2 (Generator) receives constraints → crafts prompt → GPT Image 1.5 renders 4. JUDGE → Gemini 3.1 Pro (Judge) runs T5-GATE on image → binary: accept/reject → if reject: feedback added to Proposer context 5. ARCHIVE + LOG + STAGNATION → Same as α 6. → Cycle N+1 Key difference: three decorrelated models in three roles. Proposer sees rejection history and adapts strategy.
1. CONTEXT → Same as α 2. PROPOSE → Claude Opus generates ONE constraint set 3. GENERATE×3 → Parallel: Generator A (GPT-5.2): prompt → GPT Image 1.5 → image_A Generator B (Claude Opus): prompt → GPT Image 1.5 → image_B Generator C (Gemini 3.1 Pro): prompt → GPT Image 1.5 → image_C 4. JUDGE → Gemini 3.1 Pro runs T5-GATE on all 3 images → accepts all that pass gates → multiple images per cycle → faster coverage 5. ARCHIVE + LOG + STAGNATION → Same as α 6. → Cycle N+1 Key difference: 3 images per cycle, higher cost but faster coverage.
1. SUPEREGO → Claude Opus reviews all clusters, identifies global gaps → assigns direction to each cluster 2. CLUSTER 1 → Proposer: GPT-5.2 (follows Superego direction) Generator: GPT Image 1.5 Judge: Gemini 3.1 Pro → T5-GATE 3. CLUSTER 2 → Proposer: Gemini 3.1 Pro (follows Superego direction) Generator: GPT Image 1.5 Judge: Claude Opus → T5-GATE 4. CROSS-CLUSTER → Best images shared via shared archive 5. ARCHIVE + LOG + STAGNATION → Per cluster + global 6. → Cycle N+1 Key difference: hierarchical coordination, decorrelated clusters.

VI. Full Experiment Matrix

VI. Полная матрица экспериментов

Phase 1: Architecture Tournament

Фаза 1: Архитектурный турнир

IDBranchВеткаArchitectureАрхитектураSeedsCyclesЦикловEst. CostСтоимость
LinearSingle-agent + T5-GATEОднозагентный + T5-GATE3200~$60
MAE Triplet3 roles, 3 models3 роли, 3 модели3200~$96
Ensemble3 generators, 1 proposer, 1 judge3 генератора, 1 предложитель, 1 судья3200~$162
Islands3 independent streams, shared archive3 независимых потока, общий архив3200~$90
HACN2 clusters + Superego2 кластера + Superego3200~$174

Grand Total

Общий итог

PhaseФазаRunsПрогоновCyclesЦикловEst. CostСтоимостьDurationДлительность
Stage 01–350–150~$15–452–3 weeks2–3 недели
Phase 1153,000~$5803–5 days3–5 дней
Phase 2~30~6,000~$1,0005–7 days5–7 дней
Phase 3~9~2,400~$5003–4 days3–4 дня
Phases 0–3 TotalИтого Фазы 0–3~55~11,400~$2,100~5–6 weeks~5–6 недель
Phase 4∞ (500–1000+/run)∞ (500–1000+/прогон)~$200–400/mo~$200–400/мес

VII. Timeline

VII. Таймлайн

Weeks 1–2: Stage 0 — Building
Недели 1–2: Stage 0 — Строительство
Codebase: orchestrator, agents, gates, QD-map engine. Seed constraint library (Stage A: 20 hand-crafted). Infrastructure tests (L1). Pipeline tests (L2).
Кодовая база: оркестратор, агенты, гейты, движок QD-карты. Библиотека начальных ограничений (Этап A: 20 ручных). Тесты инфраструктуры (L1). Тесты пайплайна (L2).
Week 3: Stage 0 — Integration & Commissioning
Неделя 3: Stage 0 — Интеграция и ввод
Loop tests (L3), Metrics tests (L4), Seed library completion (Stages B+C: 100 total), Dashboard MVP, Calibration run (L5): 50 cycles × 3 iterations max. GO/NO-GO for Phase 1.
Тесты цикла (L3), Тесты метрик (L4), Завершение библиотеки (Этапы B+C: 100 всего), MVP дашборда, Калибровочный прогон (L5): 50 циклов × макс. 3 итерации. GO/NO-GO для Фазы 1.
Week 4: Phase 1 — Architecture Tournament
Неделя 4: Фаза 1 — Архитектурный турнир
Launch all 15 runs in parallel. Monitor via dashboard. Daily: stagnation, cost, gate diagnostics. Auto-decision + 48h human override window.
Запуск всех 15 прогонов параллельно. Мониторинг через дашборд. Ежедневно: стагнация, расходы, диагностика гейтов. Авто-решение + 48ч окно ручной коррекции.
Week 5: Phase 2 — Tuning
Неделя 5: Фаза 2 — Настройка
Configure experiments based on Phase 1 winner. Launch Exp 3–6 in parallel. Mid-week: review intermediate results. Auto-decision on best configuration.
Конфигурация экспериментов на основе победителя Фазы 1. Запуск Эксп. 3–6 параллельно. Середина недели: обзор промежуточных результатов. Авто-решение о лучшей конфигурации.
Week 6: Phase 3 — Long Runs
Неделя 6: Фаза 3 — Длинные прогоны
Launch Exp 7–8. Monitor for "second wind" and sustained diversity. Final analysis.
Запуск Эксп. 7–8. Мониторинг «второго дыхания» и устойчивого разнообразия. Финальный анализ.
Week 7: Analysis & Documentation
Неделя 7: Анализ и документация
Statistical analysis across all phases. Final architecture specification. Visual review: gallery of best results. Lessons learned, next steps.
Статистический анализ по всем фазам. Финальная спецификация архитектуры. Визуальный обзор: галерея лучших результатов. Извлечённые уроки, следующие шаги.
Week 8 → ∞: Phase 4 — Continuous Autonomous Service
Неделя 8 → ∞: Фаза 4 — Непрерывный автономный сервис
Transition to long-term production mode. Continuous creative generation with extended cycles (500–1000+). Periodic recalibration every 200 cycles. Monthly mission rotation. Quarterly full-system review, QD-map audit, and gate threshold adjustment. Open-ended operation — no defined termination.
Переход к долгосрочному продуктивному режиму. Непрерывная творческая генерация с расширенными циклами (500–1000+). Периодическая рекалибровка каждые 200 циклов. Ежемесячная ротация миссий. Ежеквартальный полный обзор системы, аудит QD-карты и корректировка порогов гейтов. Бессрочная работа — без определённого завершения.

VIII. Phase 4: Long-Term Autonomous Service

VIII. Фаза 4: Долгосрочный автономный сервис

Upon completion of the experimental programme (Phases 1–3), the system transitions from research mode to a permanent, open-ended creative service. The objective shifts from finding the optimal architecture to operating it at scale — producing a continuous stream of aesthetically significant, visually diverse generative art while maintaining and evolving system quality over months and years.

По завершении экспериментальной программы (Фазы 1–3) система переходит из исследовательского режима в постоянный, бессрочный творческий сервис. Цель смещается от поиска оптимальной архитектуры к её эксплуатации в масштабе — непрерывное производство эстетически значимого, визуально разнообразного генеративного искусства с поддержанием и эволюцией качества системы на протяжении месяцев и лет.

Fig. 8. Phase 4 — Continuous Operation Cycle
Рис. 8. Фаза 4 — Цикл непрерывной работы
∞ Continuous Creative Generation ∞ Непрерывная творческая генерация 500–1000+ cycles per run 500–1000+ циклов за прогон Periodic Recalibration (every 200 cycles) Периодическая рекалибровка (каждые 200 циклов) T5-GATE thresholds · CLIP anchors · DreamSim baseline · VLM checklist Пороги T5-GATE · якоря CLIP · базис DreamSim · чеклист VLM Monthly Mission Rotation Ежемесячная ротация миссий D → C → E → A → B → … D → C → E → A → B → … Quarterly System Review Ежеквартальный обзор системы QD-map audit · archive analysis Аудит QD-карты · анализ архива Adaptive Evolution Адаптивная эволюция new models · new missions · seed refresh новые модели · новые миссии · обновление seed ↻ Next production cycle ↻ Следующий продуктивный цикл

8.1 Operating Rhythm

8.1 Операционный ритм

The long-term service operates on three nested temporal scales:

Долгосрочный сервис функционирует на трёх вложенных временных масштабах:

ScaleМасштабPeriodПериодActionsДействия
Micro-cycleМикро-циклEvery cycleКаждый циклStandard generation loop: constraint → prompt → generate → T5-GATE → archive/reject → QD-map update. Fully autonomous, no human involvement.Стандартный цикл генерации: ограничение → промпт → генерация → T5-GATE → архив/отклонение → обновление QD-карты. Полностью автономный, без участия человека.
Meso-cycleМезо-циклEvery 200 cyclesКаждые 200 цикловAutomated recalibration checkpoint: gate threshold adjustment based on recent acceptance rates, CLIP anchor drift detection, DreamSim novelty-baseline recalculation, Martingale stagnation check, optional pairwise-comparison session (Perceptual Calibration Service).Автоматическая контрольная точка рекалибровки: корректировка порогов гейтов по свежим acceptance-rate, детекция дрейфа CLIP-якорей, перерасчёт базиса новизны DreamSim, проверка стагнации по Martingale, опциональная сессия парных сравнений (Сервис перцептуальной калибровки).
Macro-cycleМакро-циклMonthly / QuarterlyЕжемесячно / ЕжеквартальноFull system review: QD-map coverage audit, archive gallery curation, mission rotation (monthly), seed library expansion with new constraint families, model updates (new API versions), gate model fine-tuning if pairwise data accumulated, exploration strategy evolution. Human-in-the-loop for strategic decisions.Полный обзор системы: аудит покрытия QD-карты, курирование галереи архива, ротация миссий (ежемесячно), расширение seed-библиотеки новыми семействами ограничений, обновление моделей (новые версии API), дотюнинг гейт-моделей при накоплении pairwise-данных, эволюция стратегии исследования. Человек-в-контуре для стратегических решений.

8.2 Transition Criteria: Phase 3 → Phase 4

8.2 Критерии перехода: Фаза 3 → Фаза 4

The system transitions to continuous production when the following conditions are satisfied:

Система переходит к непрерывному производству при выполнении следующих условий:

1
Architecture lockedАрхитектура зафиксирована

Phase 1–2 winner confirmed with statistical significance. Configuration frozen as ARCHITECTURE_FINAL.

Победитель Фаз 1–2 подтверждён со статистической значимостью. Конфигурация заморожена как ARCHITECTURE_FINAL.

2
Long-horizon viability demonstratedДемонстрация долгосрочной жизнеспособности

Phase 3 runs show coverage growth beyond 200 cycles. At least one "second wind" event observed — proof that the system can break through stagnation plateaus.

Прогоны Фазы 3 демонстрируют рост покрытия за пределами 200 циклов. Наблюдено хотя бы одно событие «второго дыхания» — доказательство способности системы преодолевать плато стагнации.

3
Mission generalization confirmedОбобщение по миссиям подтверждено

Coverage under Mission C ≥ 70% of coverage under Mission D → architecture is not overfit to a single creative objective.

Покрытие при Миссии C ≥ 70% от покрытия при Миссии D → архитектура не переобучена под одну творческую задачу.

4
Calibration pipeline operationalКалибровочный конвейер запущен

Perceptual Calibration Service integrated and tested. At least one full meso-cycle recalibration completed successfully.

Сервис перцептуальной калибровки интегрирован и протестирован. Хотя бы одна полная мезо-цикловая рекалибровка завершена успешно.

8.3 Long-Term Evolution Strategy

8.3 Стратегия долгосрочной эволюции

Unlike the experimental phases, Phase 4 has no pre-defined endpoint. The system is designed to evolve indefinitely through several mechanisms:

В отличие от экспериментальных фаз, Фаза 4 не имеет заранее определённой конечной точки. Система спроектирована для бессрочной эволюции через несколько механизмов:

🎯
Mission RotationРотация миссий

Creative missions cycle on a monthly basis: D → C → E → A → B → new missions. Each rotation resets the aesthetic terrain and prevents long-term aesthetic stagnation. New missions are authored based on discoveries from previous cycles.

Творческие миссии ротируются ежемесячно: D → C → E → A → B → новые миссии. Каждая ротация обновляет эстетическое пространство и предотвращает долгосрочную эстетическую стагнацию. Новые миссии создаются на основе открытий предыдущих циклов.

🔧
Gate EvolutionЭволюция гейтов

As pairwise-comparison data accumulates via the Perceptual Calibration Service, gate thresholds and weights are continuously refined. Over thousands of comparisons, the system's quality function becomes increasingly aligned with human aesthetic judgment while maintaining objective diversity metrics.

По мере накопления данных парных сравнений через Сервис перцептуальной калибровки пороги и веса гейтов непрерывно уточняются. После тысяч сравнений функция качества системы всё более согласуется с человеческим эстетическим суждением, сохраняя при этом объективные метрики разнообразия.

🧬
Model UpgradesОбновления моделей

As new model versions become available (GPT-6, Claude 4.5, Gemini 3.5, etc.), they are introduced into the pipeline with a brief A/B comparison against the incumbent. Significant improvements trigger an architecture micro-update. The system absorbs new capabilities without full retraining.

По мере выхода новых версий моделей (GPT-6, Claude 4.5, Gemini 3.5 и т.д.) они вводятся в пайплайн с кратким A/B-сравнением против текущего варианта. Значительные улучшения запускают микро-обновление архитектуры. Система впитывает новые возможности без полной переподготовки.

📈
Archive-Driven ExplorationИсследование через архив

The accumulated archive itself becomes a resource. As the archive grows (10k, 50k, 100k+ images), the system can learn from its own history: identifying under-explored QD-map regions, detecting long-term aesthetic drift, discovering emergent stylistic clusters that were not anticipated at design time.

Накопленный архив сам становится ресурсом. По мере роста архива (10к, 50к, 100к+ изображений) система может обучаться на собственной истории: выявлять недоисследованные регионы QD-карты, обнаруживать долгосрочный эстетический дрейф, находить эмерджентные стилистические кластеры, не предвиденные при проектировании.

8.4 Monitoring & Health Metrics

8.4 Мониторинг и метрики здоровья

In long-term production, the dashboard monitors additional metrics beyond those used in the experimental phases:

В долгосрочном продуктивном режиме дашборд отслеживает дополнительные метрики, помимо используемых в экспериментальных фазах:

MetricМетрикаTargetЦелевое значениеAction if violatedДействие при нарушении
Rolling 200-cycle coverage velocityСкользящая скорость покрытия (200 циклов)> 0Trigger seed library refresh + mission rotationЗапуск обновления seed-библиотеки + ротация миссий
Gate acceptance rateAcceptance rate гейта20–80%Recalibrate thresholds (too strict or too loose)Рекалибровка порогов (слишком строгие или слабые)
DreamSim mean novelty (50-cycle window)Средняя новизна DreamSim (окно 50 циклов)Within 1σ of historical meanВ пределах 1σ от исторического среднего
Monthly aesthetic drift (CLIP centroid shift)Ежемесячный эстетический дрейф (сдвиг CLIP-центроида)Logged, not cappedЛогируется, не ограничиваетсяAlert if > 2σ — review if intentionalАлерт при > 2σ — проверить, намеренно ли
Cost per accepted imageСтоимость за принятое изображениеStable or decreasingСтабильная или снижающаясяInvestigate efficiency regressionИсследовать снижение эффективности
Stagnation events per 500 cyclesСобытий стагнации на 500 циклов< 3Exploration strategy upgradeУлучшение стратегии исследования

IX. Risk Register

IX. Реестр рисков

RiskРискImpactВоздействиеMitigationМитигация
API rate limitsЛимиты APISlows experimentsЗамедляет экспериментыBatch scheduling, staggered seedsПакетное планирование, разнесённые seed
NIMA rejects interesting artNIMA отклоняет интересное искусствоFalse negativesЛожноотрицательныеL5 calibration, manual reviewL5 калибровка, ручной обзор
CLIP anchors don't differentiateЯкоря CLIP не дифференцируютQD-map collapsesQD-карта коллапсируетAnchor recalibrationПерекалибровка якорей
All branches convergeВсе ветки конвергируютNo winnerНет победителяEarly stopping if CI overlap >80% at 100 cyclesРанняя остановка при CI-перекрытии >80% на 100 циклах
Cost overrunПерерасход бюджетаBudget exhaustionИсчерпание бюджетаCost caps, auto-pauseОграничения расходов, авто-пауза
DreamSim NN slow at scaleDreamSim NN медленный при масштабеCycles slowЦиклы замедляютсяFAISS index at archive >500FAISS-индекс при архиве >500

X. File Structure

X. Файловая структура

📁 gen-emerge/ — Project Root📁 gen-emerge/ — Корень проекта
gen-emerge/ ├── config/ │ ├── experiment_1.yaml │ ├── experiment_2.yaml │ └── ... ├── src/ │ ├── orchestrator.py │ ├── agents/ │ │ ├── base_agent.py │ │ ├── claude_agent.py │ │ ├── gpt_agent.py │ │ └── gemini_agent.py │ ├── gates/ │ │ ├── nima.py │ │ ├── clip_gate.py │ │ ├── dreamsim_gate.py │ │ └── vlm_checklist.py │ ├── qd_map/ │ │ ├── map_elites.py │ │ └── clip_anchors.py │ ├── constraints/ │ │ ├── library.py │ │ └── seed_library.json │ ├── archive/ │ │ └── archive.py │ └── dashboard/ │ └── app.py ├── data/ │ ├── experiments/ │ │ ├── exp1_alpha_seed1/ │ │ ├── exp1_alpha_seed2/ │ │ └── ... │ ├── production/ # Phase 4 │ │ ├── runs/ │ │ ├── recalibration_logs/ │ │ └── mission_history/ │ ├── archives/ │ └── qd_maps/ ├── models/ │ ├── nima/ │ ├── clip/ │ └── dreamsim/ ├── calibration/ # Perceptual Calibration Service │ ├── pairwise_data/ │ └── bt_model/ └── docs/ ├── gen_emerge_experiments_v5.md └── project_plan.md

XI. Definitions of Success

XI. Определения успеха

0
Stage 0

L1–L5 passed. 50-cycle calibration run: gates in healthy range, images visually diverse.

L1–L5 пройдены. 50-цикловый калибровочный прогон: гейты в здоровом диапазоне, изображения визуально разнообразны.

1
Phase 1

At least one comparison yields p < 0.05, Cohen's d > 0.5. If no significant difference → branch with best coverage_per_dollar.

Хотя бы одно сравнение даёт p < 0.05, Cohen's d > 0.5. При отсутствии значимых различий → ветка с лучшим покрытием_на_доллар.

2
Phase 2

At least one configuration yields significant improvement in coverage or DreamSim trajectory.

Хотя бы одна конфигурация даёт значимое улучшение покрытия или траектории DreamSim.

3
Phase 3

Coverage continues to grow after 200 cycles (no permanent stagnation). At least one "second wind" event observed.

Покрытие продолжает расти после 200 циклов (нет постоянной стагнации). Наблюдается хотя бы одно событие «второго дыхания».

4
Phase 4 — Continuous ServiceФаза 4 — Непрерывный сервис

System operates autonomously for > 3 months without critical intervention. QD-map coverage grows monotonically across mission rotations. Gate acceptance rate stays within 20–80% without manual adjustment. At least 3 missions completed successfully. Archive exceeds 10,000 accepted images. Cost per accepted image stable or decreasing over time.

Система работает автономно более 3 месяцев без критического вмешательства. Покрытие QD-карты монотонно растёт при ротации миссий. Acceptance rate гейтов остаётся в пределах 20–80% без ручной корректировки. Успешно завершены не менее 3 миссий. Архив превышает 10 000 принятых изображений. Стоимость за принятое изображение стабильна или снижается со временем.

Overall ProjectПроект в целом

QD-map coverage > 15% at 300 cycles. Manual review: > 50% accepted images pass the "I'd hang this on a wall" test. System discovers aesthetic territory that the author did not anticipate. Long-term: system operates as a self-sustaining creative service, evolving its aesthetic vocabulary without human direction, producing a continuous stream of original generative art.

Покрытие QD-карты > 15% за 300 циклов. Ручной обзор: > 50% принятых изображений проходят тест «я бы повесил это на стену». Система обнаруживает эстетическую территорию, которую автор не предвидел. Долгосрочно: система функционирует как самоподдерживающийся творческий сервис, эволюционирующий свой эстетический словарь без человеческого руководства, производящий непрерывный поток оригинального генеративного искусства.

PreviousПредыдущая 07 · Creative Missions & Goals07 · Творческие миссии и цели NextСледующая 09 · Perceptual Calibration09 · Перцептуальная калибровка