Research / Experiment PlanПлан экспериментов
Experiment Plan План экспериментов
February 2026
Февраль 2026

Architecture × Techniques × Experiments

Архитектура × Техники × Эксперименты

v5 — Fully automated evaluation + measurement methodology. Multi-signal gating replaces LLM scoring. Seven architectural variants, 30+ composable techniques, measurement protocol, and a structured 10-week experimental program.
v5 — Полностью автоматизированная оценка + методология измерения. Многосигнальный гейтинг вместо LLM-скоринга. Семь архитектурных вариантов, 30+ комбинируемых техник, протокол измерений и структурированная 10-недельная экспериментальная программа.
30 min read
30 мин
Key Change in v5

v4 premise: Evaluation = LLM assigns numeric scores. Human-in-the-loop = async steering (compass, veto, pairwise).

Reality: LLM numeric scoring = hallucination. Language models lack a calibrated aesthetic perception pipeline — they produce plausible-sounding numbers that do not systematically correlate with perception (MLLM-as-a-Judge, 2024: agreement in scoring tasks ~42%, in pairwise ~79%). Numeric scores from LLMs represent the worst-case scenario for a feedback loop.

Solution: Replace LLM scoring with an ensemble of calibrated automated metrics. Each metric operates as a gate (pass/fail), not a scorer. The pipeline is fully autonomous. Human participation is removed from all cycles — metric calibration is delegated to a separate subproject.

v4 → v5 Changelog

T5: LLM numeric scoring → T5-GATE (4 calibrated gates: NIMA + CLIP + DreamSim + VLM binary checklist). Binary decisions only.

T7: Human steering → fully non-blocking optional async. Pipeline operates identically with or without human input.

B14–B18: Five new base decisions codifying the evaluation philosophy.

Section V (NEW): Measurement methodology — three metric levels, comparison protocol, per-experiment success criteria, statistical significance requirements.

Section VII (NEW): Integration with Perceptual Calibration Service subproject.

Root Cause #8 (NEW): "LLM scoring = hallucination" → addressed by T5-GATE.

I. Technique Catalog

T1. Diversity Mechanisms

IDTechniqueDescriptionNew in v4
T1aHard GateProgrammatic block by similarity threshold. JSON constitution of diversity rules.
T1bBatch + DPPK candidates → DPP selection by quality × diversity.
T1cNovelty Pressurefinal_score = α·quality + (1−α)·novelty
T1dEmbedding RepulsionCLIP text-embedding vs archive → mutate constraints before generation.
T1eMulti-model EnsembleDifferent models generate from same constraints → natural divergence. DPP selection from multi-model pool.NEW
T1fAdversarial ConstraintsAntagonist model analyzes generator patterns and generates pattern-breaking constraints.NEW

T2. Descriptor Spaces

IDTechniqueDescription
T2aManualHand-designed dimensions (material, palette, composition type).
T2bCLIP-basedCLIP embeddings as behavioral descriptors.
T2cAURORA / VQ-ElitesLearned descriptors via autoencoder / VQ-VAE. Problem-agnostic.
T2dDual-layerManual + CLIP combined. Best of both worlds.
T2eQDHF-calibratedContrastive learning aligned with human similarity judgments.

T3. Archive & Memory

IDTechniqueDescriptionNew
T3aMuseumImmutable archive of achievements.
T3bCompassDirection-only, max 1 sentence in prompt.
T3c-flatMap (flat)Flat vector DB for coverage tracking.
T3c-graphMap (SYNAPSE)Directed graph with temporal, abstract, associative edges.
T3dFadeMem AgingEbbinghaus curve with adaptive decay rates.
T3eTaboo PressureRecently explored regions receive temporary repulsion.
T3fStepping StonesArchive of procedural skills, even at low scores.
T3gPer-agent MemoryEach agent has isolated local memory + shared global Map. Information firewall.NEW

T4. Constraint Sources

IDTechniqueDescriptionNew
T4aRandom ExternalRandom constraints from predefined space.
T4bTeacher-agentMAE-style, separate model as teacher.
T4cMulti-EmitterBank of programmatic emitters, UCB-bandit selection.
T4dCurriculumExternal data (news, weather, events) as constraint source.
T4eAdversarial ProposerSeparate model analyzes generator behavior profile and attacks specific preferences.NEW
T4fCross-model ChallengeModel A's output shown to Model B as "do the opposite." Minibatch discrimination via multi-modality.NEW

T5. Evaluation [REWORKED v5]

Removed in v5

T5a (Static Critic + Novelty) — removed. LLM numeric scoring replaced by T5-GATE. Novelty bonus absorbed by Gate 3 (DreamSim).

T5d (Minimal Criteria) — absorbed into T5-GATE. T5-GATE is effectively T5d expanded to 4 gates.

IDTechniqueDescriptionv5
T5-GATEMulti-Signal Automated Gating4 calibrated gates (NIMA + CLIP + DreamSim + VLM binary checklist). Binary pass/fail only. No numeric scores.NEW
T5bLens RotationAdapted: rotate VLM checklist composition (Gate 4), not LLM lens. Structural / expressive / adversarial focus.UPD
T5cSplit CriticsAdapted: quality critic (Model A) runs Gates 1-2 + quality VLM checklist; diversity critic (Model B) runs Gate 3 + diversity VLM checklist.UPD
T5eMulti-Judge PanelAdapted: 3 models (GPT-5.2, Claude, Gemini) answer same binary checklist. Per-question majority vote. High cross-model disagreement = novelty signal.UPD
T5fAdversarial JudgeAdapted: adversarial VLM checklist targeting predictability, similarity to recent outputs, clichés. Advisory signal, does not block acceptance.UPD

T5-GATE: Four-Gate Pipeline

T5-GATE: MULTI-SIGNAL AUTOMATED GATING Image Gate 1 NIMA score > 4.5 ~10ms technical floor reject Gate 2 CLIP Score score > 0.25 ~20ms prompt adherence reject Gate 3 DreamSim dist > μ−0.5σ ~50ms × N perceptual novelty reject Gate 4 VLM Checklist ≤2 flags ~$0.01-0.03 structured quality reject ACCEPT → Archive Total cost: ~$0.02-0.04/image + ~200ms inference (excl. VLM call)

VLM binary checklist (Gate 4) replaces numeric scoring with 10–15 yes/no questions across four dimensions: structural integrity (artifacts, coherence), constraint adherence (material, palette, composition), expressive quality (emotion, tension, surprise), and anti-patterns (stock look, AI look). Passing rule: 0 rejects + ≤2 flags.

Caveat: T5-GATE v1 = hypothesis

Specific models (NIMA, CLIP, DreamSim) and thresholds (NIMA > 4.5, CLIP > 0.25) are assumptions, not facts. NIMA was trained on photo contests, not generative art. CLIP distance ≠ perceptual distance. After the first 50–100 cycles, mandatory diagnostics: which gate rejects the most? Manual review of rejected images. Iterative refinement: v1 → diagnostics → v2 → ...

T6. Exploration Driver

IDTechniqueDescriptionNew
T6aCoverage-drivenCompass points toward largest coverage gaps.
T6bCuriosity (ICM)Intrinsic reward = prediction error in learned feature space.
T6cGo-ExploreRemember → return to promising → explore from there.
T6dLévy FlightsPower-law mutation distances. Periodic large jumps.
T6eMulti-agent ExplorationEach agent explores different coverage gaps simultaneously.NEW

T7. Human Steering [REWORKED v5]

Human participation is fully optional and non-blocking. The pipeline operates identically with or without human input. All interactions are async via dashboard.

ActionEffectBlocking?
Compass updateOne-sentence direction. Updates compass for subsequent cycles.No
Tag / favoriteMark result as interesting. Affects visualization and stepping stones only, not gating.No
Model preferenceIn multi-agent architectures — mark a specific model's output as preferred.No
Cluster interventionProvide direction to a specific cluster (θ).No
PairwiseSystem shows a pair; human clicks "which is more interesting." If not clicked — nothing happens.No
VetoMark result as "definitely not." Binary, instant.No

Data routing: Pairwise/veto data flows to (1) the main pipeline as a lightweight early warning signal — if judgments systematically diverge from automated ranking, this signals metric drift; and (2) the Perceptual Calibration Service subproject as additional pairwise judgments for the Bradley-Terry model.

T8. Stagnation Detection

IDTechniqueDescriptionNew
T8aMartingale ScoreIf trajectory is predictable from initial state → stagnation.
T8bDiversity TrajectoryMonitor mean pairwise distance over sliding window.
T8cCoverage PlateauIf coverage gain < θ for N cycles → intervention.
T8dInter-agent ConvergenceIf different models produce similar outputs → systemic stagnation. Shuffle + rotate.NEW

II. Architecture Variants

α Linear Pipeline with Gate

Single model, single stream. Diversity is enforced via post-hoc hard gate rejection. Simplest baseline.

Architecture α
Model GPT-4.1 Generate prompt → image Gate CLIP dist < τ ? Deterministic ✓ pass ✗ reject Archive Museum

β Batch Selection

Single model generates K candidates per cycle. DPP (Determinantal Point Process) selects the most diverse and highest-quality subset.

Architecture β
Model GPT-4.1 Cand. 1 Cand. 2 Cand. K ×K calls DPP Selection quality × diversity 1–2 Archive Museum

γ Islands with Migration

N parallel streams with fixed constraints per island. Periodic technique migration between islands. Structural isolation ensures decorrelated exploration.

Architecture γ
Island 1 GPT-4.1 · warm palette Isolated memory Island 2 GPT-4.1 · geometry Isolated memory Island N GPT-4.1 · organic Isolated memory ← technique migration (every M cycles) → Shared Archive (Museum) · Global Coverage Map

δ POET-like Coevolution

Co-evolution of "worlds" (constraint environments) and generation. Worlds mutate, are eliminated upon stagnation, and cross-test agents.

Architecture δ
WORLD POPULATION World W₁ constraints set A World W₂ constraints set B World W₃ ✗ stagnant → dies AGENT POPULATION Agent A₁ GPT-4.1 Agent A₂ GPT-4.1 cross-test world mutation W → mutate constraints stagnation → elimination agent evolution best in Wᵢ → tried in Wⱼ

ε MAE Triplet — Full Multi-Agent

Three roles, three models with information barriers. Proposer sees coverage map and generator profile. Generator sees only minimal context. Judge evaluates independently.

Architecture ε — information barriers
Proposer (Claude / Gemini) Sees: Map · coverage gaps · generator profile · Martingale Score Generates: Challenge (constraints + MC) · Reward: novelty gain challenge BARRIER Generator (GPT-4.1) Sees: Snapshot + Ontology + Challenge + Compass (1 sentence) DOES NOT see: Museum · history · scores · Proposer reasoning result BARRIER Judge (third model) Sees: result + constraints + last 5 fingerprints → evaluates metrics → strategy

Why different models are critical: if one model both proposes challenges and solves them, it subconsciously proposes challenges it's comfortable solving. Different models break this correlated bias loop.

η Multi-Generator Ensemble

One Proposer formulates a challenge, which is simultaneously sent to N different generators. DPP selects 1–2 best from the pool by quality × diversity.

Architecture η — generator ensemble
Proposer (Model A) single challenge Generator 1 GPT-4.1 Generator 2 Claude Generator 3 Gemini DPP Selection 1–2 of 3 · quality × diversity Judge → Archive Different models × same constraints = natural bias divergence

θ HACN-Inspired Clusters

Clusters with different models, isolated local memory, full internal sharing and partial external exchange (fingerprint + score only). Superego — separate model with JSON constitution.

Architecture θ — triple diversity barrier
Cluster 1 (Warm / Organic) Gen A (GPT-4.1) Gen B (Gemini) Local Judge X Local Memory (isolated) Cluster 2 (Cold / Geometric) Gen C (Claude) Gen D (Llama) Local Judge Y Local Memory (isolated) partial fingerprint + score Superego (Model Z) JSON constitution · Martingale Score · GaaS Not susceptible to generator model biases Global Museum · Global Map · Human Async Feedback Triple barrier: different models × different constraints × partial isolation

III. Architecture Comparison

Propertyα Linearβ Batchγ Islandsδ Coevolε MAEη Ensembleθ HACN
Generator models111×N1×N1NN×M
Critic models0–10–10–1/isl0–1/world1 Judge11/cluster + Superego
Proposer models0000110
Cost multiplier~1.5×~K×~N×~N×~3×~N×~(NM+2)×
Diversity sourceGateDPPIsolationEmergentAdversarialModel biasArchitecture
Info barriersNoNoIslandWorldRoleNoHACN partial
Correlated bias riskHighHighMediumMediumLowLowMinimal

IV. New Multi-Agent Techniques × Architectures

Techniqueαβγδεηθ
T1e Multi-model ensemblePossiblePossibleCorePer cluster
T1f Adversarial constraintsCoreUsefulPer cluster
T3g Per-agent memoryPer islandPer worldPer rolePer modelCore
T4e Adversarial ProposerCoreUseful
T4f Cross-model challengeCorePer cluster
T5c Split critics (models)CoreUsefulPer cluster
T5e Multi-judge panelUsefulCore
T8d Inter-agent convergencePer islandNeededCore

V. Base Solutions (Updated for v4)

#Solutionv4 Update
B1Score semantics: museum + taboo
B2Compass-only in LLM contextPer-agent compass for each generator
B3Provenance: Snapshot ≠ creative state
B4FadeMem agingPer-agent memory also ages
B5Museum / MapGlobal + per-agent local memory
B6QD-score + coverage+ inter-agent diversity metric
B7Dual fingerprint
B8Human asyncDashboard shows per-agent + global
B9Martingale detectionPer-agent + global + inter-agent (T8d)
B10Diversity gate as sidecarIn θ: Superego as separate model
B11Stepping stonesShared archive, per-agent discovery
B12Role-model separationNEW — different models per role
B13Information barriersNEW — agents don't see each other's reasoning

VI. Experimental Program

Phase 0 · Week 1
Implement B1–B18 + T5-GATE Pipeline
All base solutions (B1–B18). Deploy T5-GATE: NIMA, CLIP, DreamSim, VLM binary checklist. Logging infrastructure (JSON per cycle). Comparison infrastructure (coverage curves, statistical tests, dashboard).
Phase 1 · Weeks 2–4
Architectural Tournament
Two parallel experiments comparing architectural paradigms.

Experiment 1: Single-Agent vs Multi-Agent Baseline

BranchArchitectureModelsCost
Linear + Gate1 (GPT-4.1)~1.5×
MAE Triplet3 (Claude → Proposer, GPT-4.1 → Gen, Gemini → Judge)~3×
Ensemble3 gen + 1 proposer + 1 judge~5×

200 cycles per branch. Key metric: coverage per dollar.

Experiment 2: Multi-Agent vs Island Model

BranchArchitectureQuestion
3 Islands (1 model each)At equal budget: parallel single-model streams vs multi-model single stream vs multi-model clusters?
MAE Triplet (3 models, 1 stream)
HACN (2 clusters × 2 gen + Superego)

200 cycles per branch.

Phase 2 · Weeks 5–7
Configuration Tuning
Experiments 3–6 run in parallel on the winning architecture from Phase 1.

Experiments 3–6: Tuning Dimensions

Exp 3: Constraint Source
Random vs Multi-Emitter+UCB vs Adversarial Proposer vs External Data vs Cross-model Challenge
Exp 4: Diversity Mechanism
Gate vs Batch DPP vs Multi-model Ensemble vs Gate+Adversarial
Exp 5: Memory Architecture
Flat vector DB (shared) vs SYNAPSE graph (shared) vs Per-agent isolated + global Map
Exp 6: Descriptor Space
Dual-layer (manual+CLIP) vs QDHF-calibrated vs Learned (AURORA/VQ-Elites)
Phase 3 · Weeks 8–10
Exploration Driver + Outer Loop
Extended 300-cycle runs. Final architecture selection.

Experiments 7–8: Final Configuration

Exp 7: Exploration Driver
Coverage vs Curiosity (ICM) vs Multi-agent Exploration vs All Combined
Exp 8: Outer Loop (300 cycles)
Single-loop best inner vs POET Coevolution vs HACN (if not chosen in Phase 1)

Experiment Flow

10-Week Experimental Program
Phase 0 B1–B18+GATE 1 week Phase 1: Tournament Exp 1 + Exp 2 α vs ε vs η vs γ vs θ 3 weeks · 200 cycles Pick Phase 2: Tuning Exp 3, 4, 5, 6 constraints, diversity, 3 weeks · parallel Pick Phase 3 Exp 7, 8 3 weeks ARCH_V3 KEY METRICS ACROSS ALL EXPERIMENTS QD-Score Quality × Diversity Coverage % of space filled $/Coverage Cost efficiency Martingale Stagnation score

VII. Closing the 7 Root Causes

#Root Causev4 Solution
1Optimization kills creativityQD + MAE adversarial tension (Proposer → novelty, Generator → quality)
2Feedback channels suppress explorationPer-agent compass + information barriers (B13)
3"DO NOT REPEAT" paradoxGate + embedding repulsion + adversarial constraints from DIFFERENT model
4Signal laundering via SnapshotProvenance isolation (B3)
5Thesis anchors paletteAdversarial Proposer targets palette bias specifically
6No diversity gateDeterministic sidecar (B10) / Superego model (θ)
7Accumulation without forgettingFadeMem (B4) + per-agent isolated memory (T3g) + stepping stones (B11)

V. Measurement Methodology [NEW v5]

5.1 Three Levels of Metrics

LevelScopeKey Metrics
Level 1: Per-imageEvery cycleNIMA score, CLIP score, DreamSim NN distance, VLM checklist result, gate pass/fail, generation cost ($)
Level 2: Per-series50–200 cyclesCoverage: QD-score, coverage %, coverage velocity. Diversity: mean pairwise DreamSim distance, DreamSim trajectory, HDBSCAN cluster count. Quality: gate pass rate, mean NIMA/CLIP of accepted. Efficiency: coverage per dollar, novelty yield. Stagnation: Martingale score, cycles to plateau, recovery events.
Level 3: Cross-experimentBranch comparisonPrimary: AUC of coverage curve, final coverage, time to X% coverage — all cost-normalized. Diversity: cross-branch DreamSim overlap, unique cells per branch. Statistics: 3 seeds, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5 for practical significance).

5.2 Comparison Protocol

All branches start from identical initial state (same archive, QD-map, VLM checklist, gate thresholds). Only random seeds differ (3 replications per branch). Per-image data is logged as structured JSON. Series metrics are computed at 50-cycle checkpoints. Cross-experiment comparison uses cost-normalized coverage curves with confidence bands.

Decision Rule

Automatic (default): if one branch dominates by coverage_per_dollar with p < 0.05 and d > 0.5, it wins. If no clear winner — the cheapest among statistically indistinguishable branches is selected.

Human override (optional): human may select a branch with lower coverage_per_dollar if its visual results are qualitatively different (not captured by metrics). Async, non-blocking. If no override within 48 hours — the automatic rule applies.

5.3 Per-Experiment Success Criteria

ExperimentQuestionMetricThreshold
Exp 1Multi-agent gives more diversity?Final coverage (ε, η) > coverage (α)p < 0.05
Worth the extra cost?Coverage_per_dollar (ε) > coverage_per_dollar (α)d > 0.5
Multi-agent stagnates later?Cycles_to_plateau (ε) > cycles_to_plateau (α)p < 0.05
Exp 2MAE beats parallel streams?AUC(ε) > AUC(γ) at equal costp < 0.05
HACN beats both?AUC(θ) > max(AUC(ε), AUC(γ))p < 0.05, d > 0.5
Exp 7Curiosity beats coverage-based?Final_coverage(7b) > final_coverage(7a)p < 0.05
Exp 8Sustained diversity over 300 cycles?DreamSim pairwise distance not dropped >20% from peakdescriptive
"Second wind" events?After first plateau, coverage resumed growth >2% per 20 cyclescount

VII. Integration with Perceptual Calibration Service [NEW v5]

The pipeline operates on default metric weights and thresholds. In parallel, a dedicated subproject develops the Perceptual Calibration Service (see Article 07).

Integration point: when calibration data becomes available (estimated 2–3 months), it enters the pipeline as:

  1. Updated gate thresholds — NIMA threshold may rise from 4.5 to 5.0, DreamSim threshold may change
  2. Updated VLM checklist weights — which questions actually correlate with panel perception, which do not
  3. New VLM checklist questions — the panel may reveal dimensions not originally anticipated
  4. DreamSim calibration — if a "far by DreamSim" pair is rated "similar" by the panel, diversity measurement must be revised

Format: JSON with weights + thresholds. The pipeline loads the new file at series start. No human-in-the-loop, no blocking.

Base Decisions B14–B18 [NEW v5]

#DecisionDescription
B14Multi-signal gatingNo numeric scores from LLMs. Four calibrated gates: NIMA (quality floor) + CLIP (prompt adherence) + DreamSim (novelty) + VLM binary checklist (structured quality). Binary decisions only.
B15DreamSim as diversity backboneCLIP distance is uncalibrated with perception. DreamSim distance (96% agreement with humans) serves as the primary metric for diversity gate, fingerprint comparison, convergence detection, and QD-map distance.
B16Metric ensemble, not optimization targetMetrics are for gating and diagnosis. The system optimizes coverage (QD-score), not individual metric scores. This is the defense against Goodhart's Law.
B17Non-blocking humanHuman input is an optional signal. Pipeline operates identically with or without it. Pairwise/veto are available but do not block. Data flows to both the pipeline (early warning) and the subproject (calibration).
B18Calibration via sub-projectMetric weights and thresholds are calibrated through a separate subproject (Perceptual Calibration Service). When calibration data is available — weights update. When not — the system runs on defaults.

Root Cause Closure [UPDATED v5]

#Root Causev5 Solution
1Optimization kills creativityQD coverage as objective (not score). Metric ensemble for gating, not optimization.
2Feedback channels suppress explorationPer-agent compass + information barriers (B13). T5-GATE does not suppress — binary pass/fail.
3DO NOT REPEAT paradoxDreamSim distance gate (calibrated perceptual novelty, 96% agreement).
4Signal laundering via SnapshotProvenance isolation (B3).
5Thesis anchors paletteAdversarial Proposer targets palette bias specifically.
6No diversity gateDreamSim-based diversity gate (B15). Deterministic, calibrated.
7Accumulation without forgettingFadeMem (B4) + per-agent memory (T3g) + stepping stones (B11).
8LLM scoring = hallucinationT5-GATE: 4 calibrated gates replacing numeric scores (B14).

Central Hypothesis [UPDATED v5]

v4 Hypothesis (retained)

A multi-agent architecture with different models in different roles (ε/η/θ) will deliver better coverage per dollar than any single-agent architecture (α/β) and better coverage per dollar than parallel single-model streams (γ).

v5 Hypothesis (added)

A system with T5-GATE (multi-signal gating), given an identical architecture, will exhibit higher sustained diversity (DreamSim trajectory does not decline) and fewer stagnation events than a system with LLM numeric scoring, because:

  1. The DreamSim gate catches near-duplicates that LLMs "cannot see" (LLMs evaluate descriptions, not images).
  2. A binary checklist prevents "averaging out" a score across dimensions.
  3. There is no incentive for reward hacking — no scalar reward to optimize.
  4. Coverage as objective + gating = exploration pressure without a convergence trap.
Ключевое изменение в v5

Посылка v4: оценка = LLM ставит числовые баллы. Human-in-the-loop = асинхронное управление (compass, veto, pairwise).

Реальность: числовой скоринг LLM = галлюцинация. У языковой модели нет калиброванного пайплайна эстетического восприятия — она выдаёт правдоподобно звучащие числа, не коррелирующие с восприятием систематически (MLLM-as-a-Judge, 2024: согласие в скоринге ~42%, в парном сравнении ~79%).

Решение: замена LLM-скоринга на ансамбль калиброванных автоматических метрик. Каждая метрика — фильтр (pass/fail), не скорер. Конвейер полностью автономен. Калибровка метрик вынесена в отдельный подпроект.

Журнал изменений v4 → v5

T5: LLM-скоринг → T5-GATE (4 калиброванных фильтра: NIMA + CLIP + DreamSim + бинарный VLM-чеклист).

T7: Участие человека → полностью неблокирующий опциональный режим.

B14–B18: Пять новых базовых решений, кодифицирующих философию оценки.

Раздел V (НОВЫЙ): Методология измерения — три уровня метрик, протокол сравнения, критерии успешности по экспериментам.

Раздел VII (НОВЫЙ): Интеграция с подпроектом перцептуальной калибровки.

Корневая причина #8 (НОВАЯ): «LLM-скоринг = галлюцинация» → адресована T5-GATE.

I. Каталог техник

Техники сгруппированы по категориям. Записи с пометкой NEW или UPG — новые или обновлённые в v4, где мультиагентность является ключевым элементом.

T1. Механизмы разнообразия

T1a Hard Gate — программная блокировка по порогу сходства, JSON-конституция правил разнообразия. T1b Batch + DPP — K кандидатов → DPP-отбор по качеству × разнообразию. T1c Novelty Pressurefinal_score = α·quality + (1−α)·novelty. T1d Embedding Repulsion — CLIP text-embedding vs архив → мутация ограничений до генерации. T1e Multi-model Ensemble (NEW) — разные модели генерируют из одних ограничений → естественная дивергенция, DPP-отбор из мультимодельного пула. T1f Adversarial Constraints (NEW) — модель-антагонист анализирует паттерны генератора и генерирует ломающие паттерн ограничения.

T2. Пространства дескрипторов

T2a Manual — ручное проектирование измерений. T2b CLIP-based — CLIP-эмбеддинги как поведенческие дескрипторы. T2c AURORA / VQ-Elites — обучаемые дескрипторы. T2d Dual-layer — Manual + CLIP комбинированные. T2e QDHF-calibrated — контрастивное обучение, выровненное по человеческим суждениям сходства.

T3. Архив и память

T3a Museum — неизменяемый архив достижений. T3b Compass — только направление, макс. 1 предложение в промпте. T3c Map — плоская vector DB или SYNAPSE-граф для отслеживания покрытия. T3d FadeMem Aging — кривая Эббингауза с адаптивными скоростями затухания. T3e Taboo Pressure — недавно исследованные регионы получают временное отталкивание. T3f Stepping Stones — архив процедурных навыков, даже при низких оценках. T3g Per-agent Memory (NEW) — каждый агент имеет изолированную локальную память + общая глобальная Map.

T4: Источники ограничений

T4e Adversarial Proposer (NEW) — отдельная модель анализирует профиль поведения генератора и атакует конкретные предпочтения. T4f Cross-model Challenge (NEW) — выход модели A показывается модели B как «сделай наоборот».

T5: Оценка [ПЕРЕРАБОТКА v5]

T5-GATE Multi-Signal Gating (NEW v5) — замена LLM-скоринга. 4 калиброванных фильтра: (1) NIMA > 4.5 — технический порог качества, ~10ms; (2) CLIP Score > 0.25 — соответствие промпту, ~20ms; (3) DreamSim distance > μ−0.5σ — перцептуальная новизна, ~50ms×N; (4) VLM бинарный чеклист ≤2 флагов — структурированная оценка по 10–15 yes/no вопросам, ~$0.01-0.03. Только бинарные решения (pass/fail). T5a и T5d удалены (поглощены T5-GATE).

T5b Ротация линз (UPD) — ротируется не линза LLM-критика, а состав VLM-чеклиста (Gate 4): структурный / экспрессивный / adversarial фокус. T5c Split Critics (UPD) — критик качества (модель A) запускает Gates 1-2 + quality-VLM, критик разнообразия (модель B) — Gate 3 + diversity-VLM. T5e Multi-Judge Panel (UPD) — 3 модели отвечают на одни и те же бинарные вопросы; majority vote; высокое расхождение = сигнал новизны. T5f Adversarial Judge (UPD) — адверсариальный VLM-чеклист, нацеленный на предсказуемость, сходство с недавними выходами, клише; advisory-сигнал, не блокирует.

T7: Управление человеком [ПЕРЕРАБОТКА v5]

Человек может (но не обязан) взаимодействовать с системой через дашборд. Всё async, ничто не блокирует конвейер. Доступные действия: обновление compass (1 предложение), пометка фаворита (не влияет на гейтинг), предпочтение модели (в мультиагентных архитектурах), интервенция в кластер (θ), pairwise (необязательное), veto (необязательное). Данные pairwise/veto идут в (1) основной конвейер как early warning и (2) подпроект перцептуальной калибровки.

T6, T8: Exploration и детекция стагнации

T6e Multi-agent Exploration (NEW) — каждый агент исследует разные пробелы покрытия одновременно. T8d Inter-agent Convergence (NEW) — если разные модели производят похожие выходы → системная стагнация, перетасовка + ротация.

II. Архитектурные варианты

α Линейный конвейер со шлюзом

Одна модель, один поток. Разнообразие обеспечивается постфактум посредством жёсткого отклонения шлюзом. Простейший базовый вариант.

Архитектура α
Модель GPT-4.1 Генерация prompt → image Шлюз (Gate) CLIP dist < τ ? Детерминированный ✓ pass ✗ reject Архив Museum

β Пакетный отбор

Одна модель генерирует K кандидатов за цикл. DPP (Determinantal Point Process) отбирает наиболее разнообразное и качественное подмножество.

Архитектура β
Модель GPT-4.1 Канд. 1 Канд. 2 Канд. K ×K вызовов DPP Selection quality × diversity 1–2 Архив Museum

γ Острова с миграцией

N параллельных потоков с фиксированными ограничениями на каждый остров. Периодическая миграция техник между островами. Структурная изоляция обеспечивает декоррелированное исследование.

Архитектура γ
Остров 1 GPT-4.1 · тёплая палитра Изолированная память Остров 2 GPT-4.1 · геометрия Изолированная память Остров N GPT-4.1 · органика Изолированная память ← миграция техник (каждые M циклов) → Общий архив (Museum) · Глобальная карта покрытия

δ POET-подобная коэволюция

Коэволюция «миров» (сред ограничений) и генерации. Миры мутируют, элиминируются при стагнации, используются для кросс-тестирования агентов.

Архитектура δ
ПОПУЛЯЦИЯ МИРОВ Мир W₁ constraints set A Мир W₂ constraints set B Мир W₃ ✗ стагнация → смерть ПОПУЛЯЦИЯ АГЕНТОВ Агент A₁ GPT-4.1 Агент A₂ GPT-4.1 кросс-тест мутация миров W → мутация constraints стагнация → элиминация эволюция агентов лучшие в Wᵢ → пробуются в Wⱼ

ε MAE Triplet — полноценный мультиагент

Три роли, три модели с информационными барьерами. Proposer видит карту покрытия и профиль генератора. Generator видит только минимальный контекст. Judge оценивает независимо.

Архитектура ε — информационные барьеры
Proposer (Claude / Gemini) Видит: Map · пробелы покрытия · профиль генератора · Martingale Score Генерирует: Challenge (constraints + MC) · Reward: novelty gain challenge БАРЬЕР Generator (GPT-4.1) Видит: Snapshot + Ontology + Challenge + Compass (1 строка) НЕ видит: Museum · историю · оценки · рассуждения Proposer result БАРЬЕР Judge (третья модель) Видит: результат + constraints + последние 5 отпечатков → оценка metrics → стратегия

Почему разные модели критичны: если одна модель предлагает вызовы и решает их, она подсознательно предлагает вызовы, которые ей удобно решать. Разные модели разрывают коррелированную петлю смещения.

η Multi-Generator Ensemble

Один Proposer формулирует вызов, который одновременно направляется N разным генераторам. DPP отбирает 1–2 лучших из пула по качеству × разнообразию.

Архитектура η — ансамбль генераторов
Proposer (Model A) один challenge Generator 1 GPT-4.1 Generator 2 Claude Generator 3 Gemini DPP Selection 1–2 из 3 · quality × diversity Judge → Архив Разные модели × одни constraints = естественная дивергенция смещений

θ HACN-инспирированные кластеры

Кластеры с разными моделями, изолированной локальной памятью, полным внутренним обменом и частичным внешним (только отпечаток + оценка). Superego — отдельная модель с JSON-конституцией.

Архитектура θ — тройной барьер разнообразия
Кластер 1 (Warm / Organic) Gen A (GPT-4.1) Gen B (Gemini) Local Judge X Локальная память (изол.) Кластер 2 (Cold / Geometric) Gen C (Claude) Gen D (Llama) Local Judge Y Локальная память (изол.) частичный отпечаток + оценка Superego (Model Z) JSON-конституция · Martingale Score · GaaS Не подвержен смещениям моделей-генераторов Global Museum · Global Map · Human Async Feedback Тройной барьер: разные модели × разные constraints × частичная изоляция

III. Сравнение архитектур

Свойствоαβγδεηθ
Модели-генераторы111×N1×N1NN×M
Модели-критики0–10–10–1/остр.0–1/мир1 Judge11/кластер + Superego
Множитель стоимости~1.5×~K×~N×~N×~3×~N×~(NM+2)×
Источник разнообразияШлюзDPPИзоляцияЭмерджентныйАдверсар.Смещение моделейАрхитектура
Риск коррелированного смещенияВысокийВысокийСреднийСреднийНизкийНизкийМинимальный

IV–V. Матрица совместимости и базовые решения

Новые мультиагентные техники (T1e, T1f, T3g, T4e, T4f, T5c, T5e, T8d) имеют разную совместимость с архитектурами. Ключевой паттерн: техники, требующие нескольких моделей, являются Core для ε/η/θ и недоступны для α/β.

Базовые решения B1–B13 обновлены для v4: B2 — per-agent compass для каждого генератора, B4 — per-agent память тоже стареет, B5 — глобальная + per-agent локальная память, B6 — + межагентная метрика разнообразия, B10 — в θ Superego как отдельная модель, B12 (NEW) — разные модели на разные роли, B13 (NEW) — агенты не видят рассуждений друг друга.

VI. Экспериментальная программа

Фаза 0 · Неделя 1
Реализация B1–B18 + конвейер T5-GATE
Все базовые решения (B1–B18). Развёртывание T5-GATE: NIMA, CLIP, DreamSim, бинарный VLM-чеклист. Инфраструктура логирования (JSON на цикл). Инфраструктура сравнения (кривые покрытия, статистические тесты, дашборд).
Фаза 1 · Недели 2–4
Архитектурный турнир
Эксперимент 1: α Linear+Gate vs ε MAE Triplet vs η Ensemble (200 циклов на ветку). Эксперимент 2: γ Islands vs ε MAE vs θ HACN. Ключевая метрика: покрытие на доллар.
Фаза 2 · Недели 5–7
Настройка конфигурации
Эксп. 3: Источник ограничений. Эксп. 4: Механизм разнообразия. Эксп. 5: Архитектура памяти. Эксп. 6: Пространство дескрипторов. Параллельно на победившей архитектуре из фазы 1.
Фаза 3 · Недели 8–10
Exploration Driver + внешний цикл
Эксп. 7: Coverage vs Curiosity (ICM) vs Multi-agent Exploration. Эксп. 8: Расширенные прогоны на 300 циклов. Финальная архитектура → ARCHITECTURE_V3.

VII. Закрытие 7 корневых причин

#Корневая причинаРешение v4
1Оптимизация убивает креативностьQD + MAE адверсариальное напряжение (Proposer → новизна, Generator → качество)
2Каналы ОС подавляют исследованиеPer-agent compass + информационные барьеры (B13)
3Парадокс «НЕ ПОВТОРЯЙ»Шлюз + embedding repulsion + адверсариальные ограничения от ДРУГОЙ модели
4Отмывание сигнала через SnapshotИзоляция провенанса (B3)
5Тезис якорит палитруAdversarial Proposer целенаправленно атакует смещение палитры
6Нет шлюза разнообразияДетерминированный sidecar (B10) / Superego-модель (θ)
7Накопление без забыванияFadeMem (B4) + per-agent изолированная память (T3g) + stepping stones (B11)

V. Методология измерения [НОВОЕ v5]

5.1 Три уровня метрик

УровеньМасштабКлючевые метрики
Уровень 1: На изображениеКаждый циклNIMA score, CLIP score, DreamSim NN distance, результат VLM-чеклиста, pass/fail гейта, стоимость генерации ($)
Уровень 2: На серию50–200 цикловПокрытие: QD-score, % покрытия, скорость покрытия. Разнообразие: среднее парное DreamSim, траектория DreamSim, кол-во кластеров HDBSCAN. Качество: % прохождения гейтов, средний NIMA/CLIP принятых. Эффективность: покрытие на доллар, выход новизны. Стагнация: Martingale score, циклы до плато, события восстановления.
Уровень 3: Кросс-экспериментСравнение ветокОсновные: AUC кривой покрытия, финальное покрытие, время до X% — всё нормализовано по стоимости. Статистика: 3 seed'а, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5).

5.2 Протокол сравнения

Все ветки стартуют из идентичного начального состояния. Различаются только random seed'ы (3 реплики на ветку). Автоматическое правило: если ветка доминирует по покрытие_на_доллар с p < 0.05 и d > 0.5 — она побеждает. Если явного победителя нет — выбирается самая дешёвая из неразличимых. Человек может переопределить решение в течение 48 часов.

VII. Интеграция с сервисом перцептуальной калибровки [НОВОЕ v5]

Конвейер работает на значениях по умолчанию. Параллельно разрабатывается подпроект — сервис перцептуальной калибровки (см. Статья 07). Когда данные калибровки станут доступны (предположительно через 2–3 месяца), они поступят как: обновлённые пороги фильтров, обновлённые веса VLM-чеклиста, новые вопросы чеклиста, калибровка DreamSim. Формат: JSON с весами + порогами. Никакого человека в цикле, никакой блокировки.

Базовые решения B14–B18 [НОВОЕ v5]

#РешениеОписание
B14Многосигнальный гейтингНикаких числовых оценок от LLM. Четыре калиброванных фильтра: NIMA (технический порог) + CLIP (соответствие промпту) + DreamSim (новизна) + бинарный VLM-чеклист (структурированное качество). Только бинарные решения.
B15DreamSim как основа разнообразияCLIP distance не калиброван по восприятию. DreamSim distance (96% согласие с людьми) — основная метрика для фильтра разнообразия, сравнения отпечатков, детекции конвергенции и расстояния QD-карты.
B16Ансамбль метрик, не цель оптимизацииМетрики — для фильтрации и диагностики. Система оптимизирует покрытие (QD-score), не индивидуальные оценки метрик. Защита от закона Гудхарта.
B17Неблокирующий человекЧеловеческий ввод — опциональный сигнал. Конвейер работает идентично с ним и без. Pairwise/veto доступны, но не блокируют.
B18Калибровка через подпроектВеса метрик и пороги калибруются через отдельный подпроект. Когда данные доступны — веса обновляются. Когда нет — система работает на значениях по умолчанию.

Закрытие корневых причин [ОБНОВЛЕНО v5]

#Корневая причинаРешение v5
1Оптимизация убивает креативностьQD-покрытие как цель (не балл). Ансамбль метрик для фильтрации, не оптимизации.
2Каналы обратной связи подавляют исследованиеPer-agent compass + информационные барьеры (B13). T5-GATE не подавляет — бинарный pass/fail.
3Парадокс «не повторяй»Фильтр DreamSim distance (калиброванная перцептуальная новизна, 96% согласие).
4Отмывание сигнала через SnapshotИзоляция провенанса (B3).
5Тезис якорит палитруAdversarial Proposer целенаправленно атакует палитровое смещение.
6Нет фильтра разнообразияФильтр на основе DreamSim (B15). Детерминистический, калиброванный.
7Накопление без забыванияFadeMem (B4) + per-agent memory (T3g) + stepping stones (B11).
8LLM-скоринг = галлюцинацияT5-GATE: 4 калиброванных фильтра вместо числовых оценок (B14).

Центральная гипотеза [ОБНОВЛЕНО v5]

Гипотеза v4 (сохранена)

Мультиагентная архитектура с разными моделями в разных ролях (ε/η/θ) обеспечит лучшее покрытие на доллар, чем любая одноагентная архитектура (α/β), и лучшее покрытие на доллар, чем параллельные одномодельные потоки (γ).

Гипотеза v5 (добавлена)

Система с T5-GATE (многосигнальный гейтинг) при идентичной архитектуре покажет более высокое устойчивое разнообразие (траектория DreamSim не падает) и меньше событий стагнации, чем система с числовым LLM-скорингом, поскольку:

  1. Фильтр DreamSim ловит near-duplicates, которые LLM «не видит» (LLM оценивает описание, не изображение).
  2. Бинарный чеклист не позволяет «вытянуть» средний балл за счёт одного измерения.
  3. Отсутствует стимул для reward hacking — нет скалярного вознаграждения для оптимизации.
  4. Покрытие как цель + фильтрация = давление к исследованию без ловушки конвергенции.
PreviousПредыдущая 05 · Autonomous Art Systems: Review05 · Автономные арт-системы: обзор NextСледующая 07 · Creative Missions & Goals07 · Творческие миссии и цели