Project Plan & Experiment Design

I. Project Overview

I. Обзор проекта

The objective is to construct an autonomous generative system that produces visually diverse, aesthetically significant images transcending ordinary perception. The system employs impossible materials, paradoxical visual solutions, and sensory overwhelm as primary instruments.

Цель — построить автономную генеративную систему, производящую визуально разнообразные, эстетически значимые изображения, выходящие за пределы обыденного восприятия. Система использует невозможные материалы, парадоксальные визуальные решения и сенсорную перегрузку как основные инструменты.

Fig. 1. Project Structure

Рис. 1. Структура проекта

II. Stage 0: Construction & Commissioning

II. Stage 0: строительство и ввод в эксплуатацию

Stage 0 is not an experiment. It encompasses the construction of the entire test stand: agents, generation environment, evaluation pipeline, storage system, metrics, dashboard, and operational controls. Experiments commence only upon full commissioning.

Stage 0 — не эксперимент. Он охватывает строительство всего стенда: агенты, среда генерации, пайплайн оценки, система хранения, метрики, дашборд и средства управления. Эксперименты начинаются только после полного ввода в эксплуатацию.

System Components

Компоненты системы

🖼

A. Image Generation

A. Генерация изображений

Text prompt → 1024×1024 image via GPT Image 1.5. Retry logic with exponential backoff.

Текстовый промпт → изображение 1024×1024 через GPT Image 1.5. Логика повторов с экспоненциальным откатом.

gpt-image-1.5

🧠

B. LLM Agent Service

B. LLM-агентный сервис

Three top-tier models wrapped in a unified interface with full logging.

Три модели высшего уровня, обёрнутые в единый интерфейс с полным логированием.

Claude 4.6 · GPT-5.2 · Gemini 3.1 Pro

🚪

C. T5-GATE Pipeline

C. Пайплайн T5-GATE

Sequential fail-fast: NIMA → CLIP → DreamSim → VLM Checklist. Rejected images logged with gate and score.

Последовательный fail-fast: NIMA → CLIP → DreamSim → VLM-чеклист. Отклонённые изображения логируются с указанием гейта и балла.

4 gates · fail-fast

🗺

D. QD-Map Engine

D. Движок QD-карты

MAP-Elites grid: 3 axes × 10 bins = 1,000 cells. NIMA score as tiebreaker within cells.

Сетка MAP-Elites: 3 оси × 10 бинов = 1 000 ячеек. Балл NIMA как тай-брейкер внутри ячеек.

10×10×10 = 1,000 cells

📦

E. Archive & Embeddings

E. Архив и эмбеддинги

Accepted images + metadata + cached DreamSim/CLIP embeddings. FAISS index at archive > 500.

Принятые изображения + метаданные + кэшированные эмбеддинги DreamSim/CLIP. FAISS-индекс при архиве > 500.

S3 / local FS · FAISS

🎛

F. Constraint Engine

F. Движок ограничений

Seed library of 100+ JSON constraint sets. Selection mode: random, QD-gap, or adversarial.

Библиотека из 100+ JSON-наборов ограничений. Режим выбора: случайный, QD-gap или состязательный.

JSON · 100+ seeds

⚙

G. Orchestrator

G. Оркестратор

Central cycle runner, YAML config, checkpoint/resume every 10 cycles, Martingale stagnation monitor.

Центральный запуск циклов, конфигурация YAML, чекпоинт/resume каждые 10 циклов, монитор стагнации Мартингейл.

YAML · checkpoint

📊

H. Dashboard

H. Дашборд

Real-time monitoring: coverage curves, gate diagnostics, cost tracking, image inspector, QD-map visualization.

Мониторинг в реальном времени: кривые покрытия, диагностика гейтов, отслеживание расходов, инспектор изображений, визуализация QD-карты.

Streamlit MVP

Five-Level Commissioning Protocol

Пятиуровневый протокол ввода в эксплуатацию

Each level is a go/no-go gate. The next level begins only after the previous one is passed.

Каждый уровень — точка принятия решения go/no-go. Следующий уровень начинается только после прохождения предыдущего.

Level 1: Infrastructure (everything connects)

Уровень 1: Инфраструктура (всё подключается)

TestТест	Pass CriterionКритерий прохождения
L1.1 GPT Image 1.5 API	Image generated, saved, size > 0Изображение сгенерировано, сохранено, размер > 0
L1.2–L1.4 LLM APIs	Response received, parsed, latency < 30sОтвет получен, распарсен, задержка < 30с
L1.5 NIMA	Score returned, float ∈ [1, 10]Балл возвращён, float ∈ [1, 10]
L1.6 CLIP	Cosine similarity, float ∈ [0, 1]Косинусное сходство, float ∈ [0, 1]
L1.7 DreamSim	Distance returned, float > 0Расстояние возвращено, float > 0
L1.8 Storage	Image saves to correct path, metadata JSON validИзображение сохраняется по верному пути, метаданные JSON валидны
L1.9 Dashboard	Streamlit starts, shows placeholderStreamlit запускается, показывает заглушку

Level 2: Pipeline (each stage works)

Уровень 2: Пайплайн (каждый этап работает)

TestТест	Pass CriterionКритерий прохождения
L2.1 Constraint gen	LLM generates constraints in specified JSON formatLLM генерирует ограничения в заданном JSON-формате
L2.2 Prompt gen	LLM generates image prompt from constraints, ≤ 1000 charsLLM генерирует промпт из ограничений, ≤ 1000 символов
L2.3 Image gen	GPT Image 1.5 generates image from promptGPT Image 1.5 генерирует изображение из промпта
L2.4–L2.7 Gates 1–4	Score computed, accept/reject decision correctБалл вычислен, решение принять/отклонить корректно
L2.8 QD-map update	Accepted → descriptor computed → cell updatedПринято → дескриптор вычислен → ячейка обновлена
L2.9 Archive update	Image + metadata stored, embedding cachedИзображение + метаданные сохранены, эмбеддинг кэширован

Level 3: Loop (full cycle closes)

Уровень 3: Цикл (полный цикл замыкается)

TestТест	Pass CriterionКритерий прохождения
L3.1	5 consecutive cycles complete without errors5 последовательных циклов завершаются без ошибок
L3.2	Cycle N+1 sees results of cycle NЦикл N+1 видит результаты цикла N
L3.3	Gate 3 uses real archive for nearest-neighborGate 3 использует реальный архив для ближайшего соседа
L3.4	Martingale score computed, no crash on monotonic rejectionMartingale score вычислен, нет крашей при монотонном отклонении
L3.5	Stop after cycle 3, resume — cycle 4 continues correctlyОстановка после цикла 3, resume — цикл 4 продолжается корректно
L3.6	Accumulated cost matches expected (±10%)Накопленная стоимость соответствует ожидаемой (±10%)

Level 4: Metrics (everything is measured correctly)

Уровень 4: Метрики (всё измеряется корректно)

TestТест	Pass CriterionКритерий прохождения
L4.1	Per-image metrics JSON log contains all required fieldsJSON-лог метрик изображения содержит все обязательные поля
L4.2	Series aggregates computed (coverage, mean_dreamsim, gate_pass_rate)Агрегаты серий вычислены (coverage, mean_dreamsim, gate_pass_rate)
L4.3	Coverage curve monotonically non-decreasingКривая покрытия монотонно неубывающая
L4.4	DreamSim trajectory not NaN, reasonable rangeТраектория DreamSim не NaN, разумный диапазон
L4.5	Mann-Whitney U test works on synthetic dataТест Манна-Уитни работает на синтетических данных
L4.6	Dashboard shows real metrics from 5-cycle testДашборд показывает реальные метрики 5-циклового теста

Level 5: Calibration (results are adequate)

Уровень 5: Калибровка (результаты адекватны)

50-cycle run of branch α with full pipeline. This is a smoke test of the entire system. Level 5 is iterative: up to 3 iterations if thresholds need adjustment.

50-цикловый прогон ветки α с полным пайплайном. Это smoke test всей системы. Уровень 5 итеративный: до 3 итераций при необходимости корректировки порогов.

TestТест	CriterionКритерий	If failsПри провале
L5.1 Gate pass rate	20–80%	<20% → loosen thresholds; >80% → tighten<20% → ослабить пороги; >80% → ужесточить
L5.2 No gate dominance	< 60% per gate	Check threshold of dominant gateПроверить порог доминирующего гейта
L5.3 QD coverage	> 3% at 50 cycles	Check descriptor computationПроверить вычисление дескрипторов
L5.4 Visual diversity	10 accepted visually distinct10 принятых визуально различны	Constraint or DreamSim issueПроблема ограничений или DreamSim
L5.5 Rejection quality	10 rejected truly poor10 отклонённых действительно плохие	Gates mislabeling → recalibrateГейты ошибаются → перекалибровка
L5.6 Cost sanity	< $15 for 50 cycles (α)	Check API call countПроверить количество API-вызовов

III. QD-Map: Three Axes of the Quality-Diversity Space

III. QD-карта: три оси пространства качества-разнообразия

The axes reflect the aesthetic philosophy of the project: impossible materials, paradoxicality, and transcendence of ordinary perception. Each image's position on all three axes is computed automatically via CLIP-Anchor method.

Оси отражают эстетическую философию проекта: невозможные материалы, парадоксальность и выход за обыденное восприятие. Позиция каждого изображения по всем трём осям вычисляется автоматически методом CLIP-Anchor.

Fig. 2. Three QD-Map Axes

Рис. 2. Три оси QD-карты

10 bins per axis → 10 × 10 × 10 = 1,000 cells. CLIP-Anchor method computes position from text anchor similarities.

10 бинов на ось → 10 × 10 × 10 = 1 000 ячеек. Метод CLIP-Anchor вычисляет позицию по сходству с текстовыми якорями.

axis_position(image) = sim_high / (sim_low + sim_high) ∈ [0, 1] axis_position(image) = sim_high / (sim_low + sim_high) ∈ [0, 1]

CLIP-Anchor normalization formula

Формула нормализации CLIP-Anchor

IV. Models & Roles

IV. Модели и роли

The principle is to use the strongest available models; cost is secondary. Model assignment is driven by each model's comparative advantage.

Принцип: использовать наиболее мощные из доступных моделей; стоимость вторична. Распределение моделей определяется сравнительным преимуществом каждой модели.

RoleРоль	Primary ModelОсновная модель	RationaleОбоснование	Used InИспользуется в
Proposer	Claude Opus 4.6	Strongest reasoning → creative strategy + gap analysisНаиболее мощное рассуждение → творческая стратегия + анализ пробелов	α, ε, η, θ
Generator	GPT-5.2	Top instruction following + native GPT Image ecosystemЛучшее следование инструкциям + нативная экосистема GPT Image	α, ε, η
Judge	Gemini 3.1 Pro	Latest multimodal, doubled ARC-AGI-2 scoreНовейшая мультимодальная, удвоенный балл ARC-AGI-2	ε, η, θ
Image Gen	GPT Image 1.5	State-of-the-art image generationState-of-the-art генерация изображений	All branchesВсе ветки

Cost per Cycle

Стоимость за цикл

BranchВетка	Image GenГен. изобр.	LLM	Gates	Total/cycleИтого/цикл
α (single-agent)	~$0.04	~$0.03	~$0.03	~$0.10
ε (MAE triplet)	~$0.04	~$0.09	~$0.03	~$0.16
η (ensemble)	~$0.12	~$0.12	~$0.03	~$0.27
θ (HACN)	~$0.08	~$0.15	~$0.06	~$0.29

V. Cycle: Step-by-Step

V. Цикл: шаг за шагом

The following describes the exact sequence of operations within a single generation cycle for each architectural variant.

Ниже описана точная последовательность операций в пределах одного цикла генерации для каждого архитектурного варианта.

1. CONTEXT → Load compass, last 3 accepted fingerprints, QD-map gaps, archive size, stagnation 2. CONSTRAINTS → Select/generate constraint set (T4a/T4b/T4e) 3. PROMPT → LLM crafts image prompt from context + constraints (≤ 1000 chars) 4. RENDER → GPT Image 1.5 generates image → save 5. GATE → T5-GATE sequential fail-fast: 5a. NIMA score → accept if > threshold 5b. CLIP(image, prompt) → accept if > threshold 5c. DreamSim(image, archive) → accept if novel 5d. VLM checklist → accept if ≤ 2 flags Any gate fails → REJECTED (log which gate, what score) 6. ARCHIVE → If accepted: store + cache embeddings + compute QD descriptor + update map 7. LOG → Structured JSON: all metrics, costs, timing → push to dashboard 8. STAGNATION → Update Martingale score, check consecutive rejections, DreamSim trajectory 9. → Cycle N+1

1. CONTEXT → Same as α 2. PROPOSE → Claude Opus (Proposer) analyzes context, QD-gaps, history → generates constraint set + strategic intent 3. GENERATE → GPT-5.2 (Generator) receives constraints → crafts prompt → GPT Image 1.5 renders 4. JUDGE → Gemini 3.1 Pro (Judge) runs T5-GATE on image → binary: accept/reject → if reject: feedback added to Proposer context 5. ARCHIVE + LOG + STAGNATION → Same as α 6. → Cycle N+1 Key difference: three decorrelated models in three roles. Proposer sees rejection history and adapts strategy.

1. CONTEXT → Same as α 2. PROPOSE → Claude Opus generates ONE constraint set 3. GENERATE×3 → Parallel: Generator A (GPT-5.2): prompt → GPT Image 1.5 → image_A Generator B (Claude Opus): prompt → GPT Image 1.5 → image_B Generator C (Gemini 3.1 Pro): prompt → GPT Image 1.5 → image_C 4. JUDGE → Gemini 3.1 Pro runs T5-GATE on all 3 images → accepts all that pass gates → multiple images per cycle → faster coverage 5. ARCHIVE + LOG + STAGNATION → Same as α 6. → Cycle N+1 Key difference: 3 images per cycle, higher cost but faster coverage.

1. SUPEREGO → Claude Opus reviews all clusters, identifies global gaps → assigns direction to each cluster 2. CLUSTER 1 → Proposer: GPT-5.2 (follows Superego direction) Generator: GPT Image 1.5 Judge: Gemini 3.1 Pro → T5-GATE 3. CLUSTER 2 → Proposer: Gemini 3.1 Pro (follows Superego direction) Generator: GPT Image 1.5 Judge: Claude Opus → T5-GATE 4. CROSS-CLUSTER → Best images shared via shared archive 5. ARCHIVE + LOG + STAGNATION → Per cluster + global 6. → Cycle N+1 Key difference: hierarchical coordination, decorrelated clusters.

VI. Full Experiment Matrix

VI. Полная матрица экспериментов

Phase 1: Architecture Tournament

Фаза 1: Архитектурный турнир

ID	BranchВетка	ArchitectureАрхитектура	Seeds	CyclesЦиклов	Est. CostСтоимость
1α	Linear	Single-agent + T5-GATEОднозагентный + T5-GATE	3	200	~$60
1ε	MAE Triplet	3 roles, 3 models3 роли, 3 модели	3	200	~$96
1η	Ensemble	3 generators, 1 proposer, 1 judge3 генератора, 1 предложитель, 1 судья	3	200	~$162
2γ	Islands	3 independent streams, shared archive3 независимых потока, общий архив	3	200	~$90
2θ	HACN	2 clusters + Superego2 кластера + Superego	3	200	~$174

Grand Total

Общий итог

PhaseФаза	RunsПрогонов	CyclesЦиклов	Est. CostСтоимость	DurationДлительность
Stage 0	1–3	50–150	~$15–45	2–3 weeks2–3 недели
Phase 1	15	3,000	~$580	3–5 days3–5 дней
Phase 2	~30	~6,000	~$1,000	5–7 days5–7 дней
Phase 3	~9	~2,400	~$500	3–4 days3–4 дня
Phases 0–3 TotalИтого Фазы 0–3	~55	~11,400	~$2,100	~5–6 weeks~5–6 недель
Phase 4	∞	∞ (500–1000+/run)∞ (500–1000+/прогон)	~$200–400/mo~$200–400/мес	∞

VII. Timeline

VII. Таймлайн

Weeks 1–2: Stage 0 — Building

Недели 1–2: Stage 0 — Строительство

Codebase: orchestrator, agents, gates, QD-map engine. Seed constraint library (Stage A: 20 hand-crafted). Infrastructure tests (L1). Pipeline tests (L2).

Кодовая база: оркестратор, агенты, гейты, движок QD-карты. Библиотека начальных ограничений (Этап A: 20 ручных). Тесты инфраструктуры (L1). Тесты пайплайна (L2).

Week 3: Stage 0 — Integration & Commissioning

Неделя 3: Stage 0 — Интеграция и ввод

Loop tests (L3), Metrics tests (L4), Seed library completion (Stages B+C: 100 total), Dashboard MVP, Calibration run (L5): 50 cycles × 3 iterations max. GO/NO-GO for Phase 1.

Тесты цикла (L3), Тесты метрик (L4), Завершение библиотеки (Этапы B+C: 100 всего), MVP дашборда, Калибровочный прогон (L5): 50 циклов × макс. 3 итерации. GO/NO-GO для Фазы 1.

Week 4: Phase 1 — Architecture Tournament

Неделя 4: Фаза 1 — Архитектурный турнир

Launch all 15 runs in parallel. Monitor via dashboard. Daily: stagnation, cost, gate diagnostics. Auto-decision + 48h human override window.

Запуск всех 15 прогонов параллельно. Мониторинг через дашборд. Ежедневно: стагнация, расходы, диагностика гейтов. Авто-решение + 48ч окно ручной коррекции.

Week 5: Phase 2 — Tuning

Неделя 5: Фаза 2 — Настройка

Configure experiments based on Phase 1 winner. Launch Exp 3–6 in parallel. Mid-week: review intermediate results. Auto-decision on best configuration.

Конфигурация экспериментов на основе победителя Фазы 1. Запуск Эксп. 3–6 параллельно. Середина недели: обзор промежуточных результатов. Авто-решение о лучшей конфигурации.

Week 6: Phase 3 — Long Runs

Неделя 6: Фаза 3 — Длинные прогоны

Launch Exp 7–8. Monitor for "second wind" and sustained diversity. Final analysis.

Запуск Эксп. 7–8. Мониторинг «второго дыхания» и устойчивого разнообразия. Финальный анализ.

Week 7: Analysis & Documentation

Неделя 7: Анализ и документация

Statistical analysis across all phases. Final architecture specification. Visual review: gallery of best results. Lessons learned, next steps.

Статистический анализ по всем фазам. Финальная спецификация архитектуры. Визуальный обзор: галерея лучших результатов. Извлечённые уроки, следующие шаги.

Week 8 → ∞: Phase 4 — Continuous Autonomous Service

Неделя 8 → ∞: Фаза 4 — Непрерывный автономный сервис

Transition to long-term production mode. Continuous creative generation with extended cycles (500–1000+). Periodic recalibration every 200 cycles. Monthly mission rotation. Quarterly full-system review, QD-map audit, and gate threshold adjustment. Open-ended operation — no defined termination.

Переход к долгосрочному продуктивному режиму. Непрерывная творческая генерация с расширенными циклами (500–1000+). Периодическая рекалибровка каждые 200 циклов. Ежемесячная ротация миссий. Ежеквартальный полный обзор системы, аудит QD-карты и корректировка порогов гейтов. Бессрочная работа — без определённого завершения.

VIII. Phase 4: Long-Term Autonomous Service

VIII. Фаза 4: Долгосрочный автономный сервис

Upon completion of the experimental programme (Phases 1–3), the system transitions from research mode to a permanent, open-ended creative service. The objective shifts from finding the optimal architecture to operating it at scale — producing a continuous stream of aesthetically significant, visually diverse generative art while maintaining and evolving system quality over months and years.

По завершении экспериментальной программы (Фазы 1–3) система переходит из исследовательского режима в постоянный, бессрочный творческий сервис. Цель смещается от поиска оптимальной архитектуры к её эксплуатации в масштабе — непрерывное производство эстетически значимого, визуально разнообразного генеративного искусства с поддержанием и эволюцией качества системы на протяжении месяцев и лет.

Fig. 8. Phase 4 — Continuous Operation Cycle

Рис. 8. Фаза 4 — Цикл непрерывной работы

8.1 Operating Rhythm

8.1 Операционный ритм

The long-term service operates on three nested temporal scales:

Долгосрочный сервис функционирует на трёх вложенных временных масштабах:

ScaleМасштаб	PeriodПериод	ActionsДействия
Micro-cycleМикро-цикл	Every cycleКаждый цикл	Standard generation loop: constraint → prompt → generate → T5-GATE → archive/reject → QD-map update. Fully autonomous, no human involvement.Стандартный цикл генерации: ограничение → промпт → генерация → T5-GATE → архив/отклонение → обновление QD-карты. Полностью автономный, без участия человека.
Meso-cycleМезо-цикл	Every 200 cyclesКаждые 200 циклов	Automated recalibration checkpoint: gate threshold adjustment based on recent acceptance rates, CLIP anchor drift detection, DreamSim novelty-baseline recalculation, Martingale stagnation check, optional pairwise-comparison session (Perceptual Calibration Service).Автоматическая контрольная точка рекалибровки: корректировка порогов гейтов по свежим acceptance-rate, детекция дрейфа CLIP-якорей, перерасчёт базиса новизны DreamSim, проверка стагнации по Martingale, опциональная сессия парных сравнений (Сервис перцептуальной калибровки).
Macro-cycleМакро-цикл	Monthly / QuarterlyЕжемесячно / Ежеквартально	Full system review: QD-map coverage audit, archive gallery curation, mission rotation (monthly), seed library expansion with new constraint families, model updates (new API versions), gate model fine-tuning if pairwise data accumulated, exploration strategy evolution. Human-in-the-loop for strategic decisions.Полный обзор системы: аудит покрытия QD-карты, курирование галереи архива, ротация миссий (ежемесячно), расширение seed-библиотеки новыми семействами ограничений, обновление моделей (новые версии API), дотюнинг гейт-моделей при накоплении pairwise-данных, эволюция стратегии исследования. Человек-в-контуре для стратегических решений.

8.2 Transition Criteria: Phase 3 → Phase 4

8.2 Критерии перехода: Фаза 3 → Фаза 4

The system transitions to continuous production when the following conditions are satisfied:

Система переходит к непрерывному производству при выполнении следующих условий:

Architecture lockedАрхитектура зафиксирована

Phase 1–2 winner confirmed with statistical significance. Configuration frozen as ARCHITECTURE_FINAL.

Победитель Фаз 1–2 подтверждён со статистической значимостью. Конфигурация заморожена как ARCHITECTURE_FINAL.

Long-horizon viability demonstratedДемонстрация долгосрочной жизнеспособности

Phase 3 runs show coverage growth beyond 200 cycles. At least one "second wind" event observed — proof that the system can break through stagnation plateaus.

Прогоны Фазы 3 демонстрируют рост покрытия за пределами 200 циклов. Наблюдено хотя бы одно событие «второго дыхания» — доказательство способности системы преодолевать плато стагнации.

Mission generalization confirmedОбобщение по миссиям подтверждено

Coverage under Mission C ≥ 70% of coverage under Mission D → architecture is not overfit to a single creative objective.

Покрытие при Миссии C ≥ 70% от покрытия при Миссии D → архитектура не переобучена под одну творческую задачу.

Calibration pipeline operationalКалибровочный конвейер запущен

Perceptual Calibration Service integrated and tested. At least one full meso-cycle recalibration completed successfully.

Сервис перцептуальной калибровки интегрирован и протестирован. Хотя бы одна полная мезо-цикловая рекалибровка завершена успешно.

8.3 Long-Term Evolution Strategy

8.3 Стратегия долгосрочной эволюции

Unlike the experimental phases, Phase 4 has no pre-defined endpoint. The system is designed to evolve indefinitely through several mechanisms:

В отличие от экспериментальных фаз, Фаза 4 не имеет заранее определённой конечной точки. Система спроектирована для бессрочной эволюции через несколько механизмов:

🎯

Mission RotationРотация миссий

Creative missions cycle on a monthly basis: D → C → E → A → B → new missions. Each rotation resets the aesthetic terrain and prevents long-term aesthetic stagnation. New missions are authored based on discoveries from previous cycles.

Творческие миссии ротируются ежемесячно: D → C → E → A → B → новые миссии. Каждая ротация обновляет эстетическое пространство и предотвращает долгосрочную эстетическую стагнацию. Новые миссии создаются на основе открытий предыдущих циклов.

🔧

Gate EvolutionЭволюция гейтов

As pairwise-comparison data accumulates via the Perceptual Calibration Service, gate thresholds and weights are continuously refined. Over thousands of comparisons, the system's quality function becomes increasingly aligned with human aesthetic judgment while maintaining objective diversity metrics.

По мере накопления данных парных сравнений через Сервис перцептуальной калибровки пороги и веса гейтов непрерывно уточняются. После тысяч сравнений функция качества системы всё более согласуется с человеческим эстетическим суждением, сохраняя при этом объективные метрики разнообразия.

🧬

Model UpgradesОбновления моделей

As new model versions become available (GPT-6, Claude 4.5, Gemini 3.5, etc.), they are introduced into the pipeline with a brief A/B comparison against the incumbent. Significant improvements trigger an architecture micro-update. The system absorbs new capabilities without full retraining.

По мере выхода новых версий моделей (GPT-6, Claude 4.5, Gemini 3.5 и т.д.) они вводятся в пайплайн с кратким A/B-сравнением против текущего варианта. Значительные улучшения запускают микро-обновление архитектуры. Система впитывает новые возможности без полной переподготовки.

📈

Archive-Driven ExplorationИсследование через архив

The accumulated archive itself becomes a resource. As the archive grows (10k, 50k, 100k+ images), the system can learn from its own history: identifying under-explored QD-map regions, detecting long-term aesthetic drift, discovering emergent stylistic clusters that were not anticipated at design time.

Накопленный архив сам становится ресурсом. По мере роста архива (10к, 50к, 100к+ изображений) система может обучаться на собственной истории: выявлять недоисследованные регионы QD-карты, обнаруживать долгосрочный эстетический дрейф, находить эмерджентные стилистические кластеры, не предвиденные при проектировании.

8.4 Monitoring & Health Metrics

8.4 Мониторинг и метрики здоровья

In long-term production, the dashboard monitors additional metrics beyond those used in the experimental phases:

В долгосрочном продуктивном режиме дашборд отслеживает дополнительные метрики, помимо используемых в экспериментальных фазах:

MetricМетрика	TargetЦелевое значение	Action if violatedДействие при нарушении
Rolling 200-cycle coverage velocityСкользящая скорость покрытия (200 циклов)	> 0	Trigger seed library refresh + mission rotationЗапуск обновления seed-библиотеки + ротация миссий
Gate acceptance rateAcceptance rate гейта	20–80%	Recalibrate thresholds (too strict or too loose)Рекалибровка порогов (слишком строгие или слабые)
DreamSim mean novelty (50-cycle window)Средняя новизна DreamSim (окно 50 циклов)	Within 1σ of historical meanВ пределах 1σ от исторического среднего
Monthly aesthetic drift (CLIP centroid shift)Ежемесячный эстетический дрейф (сдвиг CLIP-центроида)	Logged, not cappedЛогируется, не ограничивается	Alert if > 2σ — review if intentionalАлерт при > 2σ — проверить, намеренно ли
Cost per accepted imageСтоимость за принятое изображение	Stable or decreasingСтабильная или снижающаяся	Investigate efficiency regressionИсследовать снижение эффективности
Stagnation events per 500 cyclesСобытий стагнации на 500 циклов	< 3	Exploration strategy upgradeУлучшение стратегии исследования

IX. Risk Register

IX. Реестр рисков

RiskРиск	ImpactВоздействие	MitigationМитигация
API rate limitsЛимиты API	Slows experimentsЗамедляет эксперименты	Batch scheduling, staggered seedsПакетное планирование, разнесённые seed
NIMA rejects interesting artNIMA отклоняет интересное искусство	False negativesЛожноотрицательные	L5 calibration, manual reviewL5 калибровка, ручной обзор
CLIP anchors don't differentiateЯкоря CLIP не дифференцируют	QD-map collapsesQD-карта коллапсирует	Anchor recalibrationПерекалибровка якорей
All branches convergeВсе ветки конвергируют	No winnerНет победителя	Early stopping if CI overlap >80% at 100 cyclesРанняя остановка при CI-перекрытии >80% на 100 циклах
Cost overrunПерерасход бюджета	Budget exhaustionИсчерпание бюджета	Cost caps, auto-pauseОграничения расходов, авто-пауза
DreamSim NN slow at scaleDreamSim NN медленный при масштабе	Cycles slowЦиклы замедляются	FAISS index at archive >500FAISS-индекс при архиве >500

X. File Structure

X. Файловая структура

📁 gen-emerge/ — Project Root📁 gen-emerge/ — Корень проекта

gen-emerge/ ├── config/ │ ├── experiment_1.yaml │ ├── experiment_2.yaml │ └── ... ├── src/ │ ├── orchestrator.py │ ├── agents/ │ │ ├── base_agent.py │ │ ├── claude_agent.py │ │ ├── gpt_agent.py │ │ └── gemini_agent.py │ ├── gates/ │ │ ├── nima.py │ │ ├── clip_gate.py │ │ ├── dreamsim_gate.py │ │ └── vlm_checklist.py │ ├── qd_map/ │ │ ├── map_elites.py │ │ └── clip_anchors.py │ ├── constraints/ │ │ ├── library.py │ │ └── seed_library.json │ ├── archive/ │ │ └── archive.py │ └── dashboard/ │ └── app.py ├── data/ │ ├── experiments/ │ │ ├── exp1_alpha_seed1/ │ │ ├── exp1_alpha_seed2/ │ │ └── ... │ ├── production/ # Phase 4 │ │ ├── runs/ │ │ ├── recalibration_logs/ │ │ └── mission_history/ │ ├── archives/ │ └── qd_maps/ ├── models/ │ ├── nima/ │ ├── clip/ │ └── dreamsim/ ├── calibration/ # Perceptual Calibration Service │ ├── pairwise_data/ │ └── bt_model/ └── docs/ ├── gen_emerge_experiments_v5.md └── project_plan.md

XI. Definitions of Success

XI. Определения успеха

Stage 0

L1–L5 passed. 50-cycle calibration run: gates in healthy range, images visually diverse.

L1–L5 пройдены. 50-цикловый калибровочный прогон: гейты в здоровом диапазоне, изображения визуально разнообразны.

Phase 1

At least one comparison yields p < 0.05, Cohen's d > 0.5. If no significant difference → branch with best coverage_per_dollar.

Хотя бы одно сравнение даёт p < 0.05, Cohen's d > 0.5. При отсутствии значимых различий → ветка с лучшим покрытием_на_доллар.

Phase 2

At least one configuration yields significant improvement in coverage or DreamSim trajectory.

Хотя бы одна конфигурация даёт значимое улучшение покрытия или траектории DreamSim.

Phase 3

Coverage continues to grow after 200 cycles (no permanent stagnation). At least one "second wind" event observed.

Покрытие продолжает расти после 200 циклов (нет постоянной стагнации). Наблюдается хотя бы одно событие «второго дыхания».

Phase 4 — Continuous ServiceФаза 4 — Непрерывный сервис

System operates autonomously for > 3 months without critical intervention. QD-map coverage grows monotonically across mission rotations. Gate acceptance rate stays within 20–80% without manual adjustment. At least 3 missions completed successfully. Archive exceeds 10,000 accepted images. Cost per accepted image stable or decreasing over time.

Система работает автономно более 3 месяцев без критического вмешательства. Покрытие QD-карты монотонно растёт при ротации миссий. Acceptance rate гейтов остаётся в пределах 20–80% без ручной корректировки. Успешно завершены не менее 3 миссий. Архив превышает 10 000 принятых изображений. Стоимость за принятое изображение стабильна или снижается со временем.

✦

Overall ProjectПроект в целом

QD-map coverage > 15% at 300 cycles. Manual review: > 50% accepted images pass the "I'd hang this on a wall" test. System discovers aesthetic territory that the author did not anticipate. Long-term: system operates as a self-sustaining creative service, evolving its aesthetic vocabulary without human direction, producing a continuous stream of original generative art.

Покрытие QD-карты > 15% за 300 циклов. Ручной обзор: > 50% принятых изображений проходят тест «я бы повесил это на стену». Система обнаруживает эстетическую территорию, которую автор не предвидел. Долгосрочно: система функционирует как самоподдерживающийся творческий сервис, эволюционирующий свой эстетический словарь без человеческого руководства, производящий непрерывный поток оригинального генеративного искусства.

← PreviousПредыдущая 07 · Creative Missions & Goals07 · Творческие миссии и цели → NextСледующая 09 · Perceptual Calibration09 · Перцептуальная калибровка

Problem Brief

Постановка задачи

The Convergence Problem

Проблема конвергенции

Why autonomous art systems collapse into local optima after ~2000 generations.

Почему автономные арт-системы коллапсируют в локальный оптимум после ~2000 поколений.

Research Synthesis

Синтез исследований

Convergence & Anchoring: Research

Конвергенция и залипание: исследование