Experiment Plan v4 — Gen-Emerge Research

Key Change in v5

v4 premise: Evaluation = LLM assigns numeric scores. Human-in-the-loop = async steering (compass, veto, pairwise).

Reality: LLM numeric scoring = hallucination. Language models lack a calibrated aesthetic perception pipeline — they produce plausible-sounding numbers that do not systematically correlate with perception (MLLM-as-a-Judge, 2024: agreement in scoring tasks ~42%, in pairwise ~79%). Numeric scores from LLMs represent the worst-case scenario for a feedback loop.

Solution: Replace LLM scoring with an ensemble of calibrated automated metrics. Each metric operates as a gate (pass/fail), not a scorer. The pipeline is fully autonomous. Human participation is removed from all cycles — metric calibration is delegated to a separate subproject.

v4 → v5 Changelog

T5: LLM numeric scoring → T5-GATE (4 calibrated gates: NIMA + CLIP + DreamSim + VLM binary checklist). Binary decisions only.

T7: Human steering → fully non-blocking optional async. Pipeline operates identically with or without human input.

B14–B18: Five new base decisions codifying the evaluation philosophy.

Section V (NEW): Measurement methodology — three metric levels, comparison protocol, per-experiment success criteria, statistical significance requirements.

Section VII (NEW): Integration with Perceptual Calibration Service subproject.

Root Cause #8 (NEW): "LLM scoring = hallucination" → addressed by T5-GATE.

I. Technique Catalog

T1. Diversity Mechanisms

ID	Technique	Description	New in v4
T1a	Hard Gate	Programmatic block by similarity threshold. JSON constitution of diversity rules.
T1b	Batch + DPP	K candidates → DPP selection by quality × diversity.
T1c	Novelty Pressure	`final_score = α·quality + (1−α)·novelty`
T1d	Embedding Repulsion	CLIP text-embedding vs archive → mutate constraints before generation.
T1e	Multi-model Ensemble	Different models generate from same constraints → natural divergence. DPP selection from multi-model pool.	NEW
T1f	Adversarial Constraints	Antagonist model analyzes generator patterns and generates pattern-breaking constraints.	NEW

T2. Descriptor Spaces

ID	Technique	Description
T2a	Manual	Hand-designed dimensions (material, palette, composition type).
T2b	CLIP-based	CLIP embeddings as behavioral descriptors.
T2c	AURORA / VQ-Elites	Learned descriptors via autoencoder / VQ-VAE. Problem-agnostic.
T2d	Dual-layer	Manual + CLIP combined. Best of both worlds.
T2e	QDHF-calibrated	Contrastive learning aligned with human similarity judgments.

T3. Archive & Memory

ID	Technique	Description	New
T3a	Museum	Immutable archive of achievements.
T3b	Compass	Direction-only, max 1 sentence in prompt.
T3c-flat	Map (flat)	Flat vector DB for coverage tracking.
T3c-graph	Map (SYNAPSE)	Directed graph with temporal, abstract, associative edges.
T3d	FadeMem Aging	Ebbinghaus curve with adaptive decay rates.
T3e	Taboo Pressure	Recently explored regions receive temporary repulsion.
T3f	Stepping Stones	Archive of procedural skills, even at low scores.
T3g	Per-agent Memory	Each agent has isolated local memory + shared global Map. Information firewall.	NEW

T4. Constraint Sources

ID	Technique	Description	New
T4a	Random External	Random constraints from predefined space.
T4b	Teacher-agent	MAE-style, separate model as teacher.
T4c	Multi-Emitter	Bank of programmatic emitters, UCB-bandit selection.
T4d	Curriculum	External data (news, weather, events) as constraint source.
T4e	Adversarial Proposer	Separate model analyzes generator behavior profile and attacks specific preferences.	NEW
T4f	Cross-model Challenge	Model A's output shown to Model B as "do the opposite." Minibatch discrimination via multi-modality.	NEW

T5. Evaluation [REWORKED v5]

Removed in v5

T5a (Static Critic + Novelty) — removed. LLM numeric scoring replaced by T5-GATE. Novelty bonus absorbed by Gate 3 (DreamSim).

T5d (Minimal Criteria) — absorbed into T5-GATE. T5-GATE is effectively T5d expanded to 4 gates.

ID	Technique	Description	v5
T5-GATE	Multi-Signal Automated Gating	4 calibrated gates (NIMA + CLIP + DreamSim + VLM binary checklist). Binary pass/fail only. No numeric scores.	NEW
T5b	Lens Rotation	Adapted: rotate VLM checklist composition (Gate 4), not LLM lens. Structural / expressive / adversarial focus.	UPD
T5c	Split Critics	Adapted: quality critic (Model A) runs Gates 1-2 + quality VLM checklist; diversity critic (Model B) runs Gate 3 + diversity VLM checklist.	UPD
T5e	Multi-Judge Panel	Adapted: 3 models (GPT-5.2, Claude, Gemini) answer same binary checklist. Per-question majority vote. High cross-model disagreement = novelty signal.	UPD
T5f	Adversarial Judge	Adapted: adversarial VLM checklist targeting predictability, similarity to recent outputs, clichés. Advisory signal, does not block acceptance.	UPD

T5-GATE: Four-Gate Pipeline

VLM binary checklist (Gate 4) replaces numeric scoring with 10–15 yes/no questions across four dimensions: structural integrity (artifacts, coherence), constraint adherence (material, palette, composition), expressive quality (emotion, tension, surprise), and anti-patterns (stock look, AI look). Passing rule: 0 rejects + ≤2 flags.

Caveat: T5-GATE v1 = hypothesis

Specific models (NIMA, CLIP, DreamSim) and thresholds (NIMA > 4.5, CLIP > 0.25) are assumptions, not facts. NIMA was trained on photo contests, not generative art. CLIP distance ≠ perceptual distance. After the first 50–100 cycles, mandatory diagnostics: which gate rejects the most? Manual review of rejected images. Iterative refinement: v1 → diagnostics → v2 → ...

T6. Exploration Driver

ID	Technique	Description	New
T6a	Coverage-driven	Compass points toward largest coverage gaps.
T6b	Curiosity (ICM)	Intrinsic reward = prediction error in learned feature space.
T6c	Go-Explore	Remember → return to promising → explore from there.
T6d	Lévy Flights	Power-law mutation distances. Periodic large jumps.
T6e	Multi-agent Exploration	Each agent explores different coverage gaps simultaneously.	NEW

T7. Human Steering [REWORKED v5]

Human participation is fully optional and non-blocking. The pipeline operates identically with or without human input. All interactions are async via dashboard.

Action	Effect	Blocking?
Compass update	One-sentence direction. Updates compass for subsequent cycles.	No
Tag / favorite	Mark result as interesting. Affects visualization and stepping stones only, not gating.	No
Model preference	In multi-agent architectures — mark a specific model's output as preferred.	No
Cluster intervention	Provide direction to a specific cluster (θ).	No
Pairwise	System shows a pair; human clicks "which is more interesting." If not clicked — nothing happens.	No
Veto	Mark result as "definitely not." Binary, instant.	No

Data routing: Pairwise/veto data flows to (1) the main pipeline as a lightweight early warning signal — if judgments systematically diverge from automated ranking, this signals metric drift; and (2) the Perceptual Calibration Service subproject as additional pairwise judgments for the Bradley-Terry model.

T8. Stagnation Detection

ID	Technique	Description	New
T8a	Martingale Score	If trajectory is predictable from initial state → stagnation.
T8b	Diversity Trajectory	Monitor mean pairwise distance over sliding window.
T8c	Coverage Plateau	If coverage gain < θ for N cycles → intervention.
T8d	Inter-agent Convergence	If different models produce similar outputs → systemic stagnation. Shuffle + rotate.	NEW

II. Architecture Variants

α Linear Pipeline with Gate

Single model, single stream. Diversity is enforced via post-hoc hard gate rejection. Simplest baseline.

Architecture α

β Batch Selection

Single model generates K candidates per cycle. DPP (Determinantal Point Process) selects the most diverse and highest-quality subset.

Architecture β

γ Islands with Migration

N parallel streams with fixed constraints per island. Periodic technique migration between islands. Structural isolation ensures decorrelated exploration.

Architecture γ

δ POET-like Coevolution

Co-evolution of "worlds" (constraint environments) and generation. Worlds mutate, are eliminated upon stagnation, and cross-test agents.

Architecture δ

ε MAE Triplet — Full Multi-Agent

Three roles, three models with information barriers. Proposer sees coverage map and generator profile. Generator sees only minimal context. Judge evaluates independently.

Architecture ε — information barriers

Why different models are critical: if one model both proposes challenges and solves them, it subconsciously proposes challenges it's comfortable solving. Different models break this correlated bias loop.

η Multi-Generator Ensemble

One Proposer formulates a challenge, which is simultaneously sent to N different generators. DPP selects 1–2 best from the pool by quality × diversity.

Architecture η — generator ensemble

θ HACN-Inspired Clusters

Clusters with different models, isolated local memory, full internal sharing and partial external exchange (fingerprint + score only). Superego — separate model with JSON constitution.

Architecture θ — triple diversity barrier

III. Architecture Comparison

Property	α Linear	β Batch	γ Islands	δ Coevol	ε MAE	η Ensemble	θ HACN
Generator models	1	1	1×N	1×N	1	N	N×M
Critic models	0–1	0–1	0–1/isl	0–1/world	1 Judge	1	1/cluster + Superego
Proposer models	0	0	0	0	1	1	0
Cost multiplier	~1.5×	~K×	~N×	~N×	~3×	~N×	~(NM+2)×
Diversity source	Gate	DPP	Isolation	Emergent	Adversarial	Model bias	Architecture
Info barriers	No	No	Island	World	Role	No	HACN partial
Correlated bias risk	High	High	Medium	Medium	Low	Low	Minimal

IV. New Multi-Agent Techniques × Architectures

Technique	α	β	γ	δ	ε	η	θ
T1e Multi-model ensemble	—	—	Possible	Possible	—	Core	Per cluster
T1f Adversarial constraints	—	—	—	—	Core	Useful	Per cluster
T3g Per-agent memory	—	—	Per island	Per world	Per role	Per model	Core
T4e Adversarial Proposer	—	—	—	—	Core	Useful	—
T4f Cross-model challenge	—	—	—	—	—	Core	Per cluster
T5c Split critics (models)	—	—	—	—	Core	Useful	Per cluster
T5e Multi-judge panel	—	—	—	—	—	Useful	Core
T8d Inter-agent convergence	—	—	Per island	—	—	Needed	Core

V. Base Solutions (Updated for v4)

#	Solution	v4 Update
B1	Score semantics: museum + taboo	—
B2	Compass-only in LLM context	Per-agent compass for each generator
B3	Provenance: Snapshot ≠ creative state	—
B4	FadeMem aging	Per-agent memory also ages
B5	Museum / Map	Global + per-agent local memory
B6	QD-score + coverage	+ inter-agent diversity metric
B7	Dual fingerprint	—
B8	Human async	Dashboard shows per-agent + global
B9	Martingale detection	Per-agent + global + inter-agent (T8d)
B10	Diversity gate as sidecar	In θ: Superego as separate model
B11	Stepping stones	Shared archive, per-agent discovery
B12	Role-model separation	NEW — different models per role
B13	Information barriers	NEW — agents don't see each other's reasoning

VI. Experimental Program

Phase 0 · Week 1

Implement B1–B18 + T5-GATE Pipeline

All base solutions (B1–B18). Deploy T5-GATE: NIMA, CLIP, DreamSim, VLM binary checklist. Logging infrastructure (JSON per cycle). Comparison infrastructure (coverage curves, statistical tests, dashboard).

Phase 1 · Weeks 2–4

Architectural Tournament

Two parallel experiments comparing architectural paradigms.

Experiment 1: Single-Agent vs Multi-Agent Baseline

Branch	Architecture	Models	Cost
1α	Linear + Gate	1 (GPT-4.1)	~1.5×
1ε	MAE Triplet	3 (Claude → Proposer, GPT-4.1 → Gen, Gemini → Judge)	~3×
1η	Ensemble	3 gen + 1 proposer + 1 judge	~5×

200 cycles per branch. Key metric: coverage per dollar.

Experiment 2: Multi-Agent vs Island Model

Branch	Architecture	Question
2γ	3 Islands (1 model each)	At equal budget: parallel single-model streams vs multi-model single stream vs multi-model clusters?
2ε	MAE Triplet (3 models, 1 stream)
2θ	HACN (2 clusters × 2 gen + Superego)

200 cycles per branch.

Phase 2 · Weeks 5–7

Configuration Tuning

Experiments 3–6 run in parallel on the winning architecture from Phase 1.

Experiments 3–6: Tuning Dimensions

Exp 3: Constraint Source

Random vs Multi-Emitter+UCB vs Adversarial Proposer vs External Data vs Cross-model Challenge

Exp 4: Diversity Mechanism

Gate vs Batch DPP vs Multi-model Ensemble vs Gate+Adversarial

Exp 5: Memory Architecture

Flat vector DB (shared) vs SYNAPSE graph (shared) vs Per-agent isolated + global Map

Exp 6: Descriptor Space

Dual-layer (manual+CLIP) vs QDHF-calibrated vs Learned (AURORA/VQ-Elites)

Phase 3 · Weeks 8–10

Exploration Driver + Outer Loop

Extended 300-cycle runs. Final architecture selection.

Experiments 7–8: Final Configuration

Exp 7: Exploration Driver

Coverage vs Curiosity (ICM) vs Multi-agent Exploration vs All Combined

Exp 8: Outer Loop (300 cycles)

Single-loop best inner vs POET Coevolution vs HACN (if not chosen in Phase 1)

Experiment Flow

10-Week Experimental Program

VII. Closing the 7 Root Causes

#	Root Cause	v4 Solution
1	Optimization kills creativity	QD + MAE adversarial tension (Proposer → novelty, Generator → quality)
2	Feedback channels suppress exploration	Per-agent compass + information barriers (B13)
3	"DO NOT REPEAT" paradox	Gate + embedding repulsion + adversarial constraints from DIFFERENT model
4	Signal laundering via Snapshot	Provenance isolation (B3)
5	Thesis anchors palette	Adversarial Proposer targets palette bias specifically
6	No diversity gate	Deterministic sidecar (B10) / Superego model (θ)
7	Accumulation without forgetting	FadeMem (B4) + per-agent isolated memory (T3g) + stepping stones (B11)

V. Measurement Methodology [NEW v5]

5.1 Three Levels of Metrics

Level	Scope	Key Metrics
Level 1: Per-image	Every cycle	NIMA score, CLIP score, DreamSim NN distance, VLM checklist result, gate pass/fail, generation cost ($)
Level 2: Per-series	50–200 cycles	Coverage: QD-score, coverage %, coverage velocity. Diversity: mean pairwise DreamSim distance, DreamSim trajectory, HDBSCAN cluster count. Quality: gate pass rate, mean NIMA/CLIP of accepted. Efficiency: coverage per dollar, novelty yield. Stagnation: Martingale score, cycles to plateau, recovery events.
Level 3: Cross-experiment	Branch comparison	Primary: AUC of coverage curve, final coverage, time to X% coverage — all cost-normalized. Diversity: cross-branch DreamSim overlap, unique cells per branch. Statistics: 3 seeds, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5 for practical significance).

5.2 Comparison Protocol

All branches start from identical initial state (same archive, QD-map, VLM checklist, gate thresholds). Only random seeds differ (3 replications per branch). Per-image data is logged as structured JSON. Series metrics are computed at 50-cycle checkpoints. Cross-experiment comparison uses cost-normalized coverage curves with confidence bands.

Decision Rule

Automatic (default): if one branch dominates by coverage_per_dollar with p < 0.05 and d > 0.5, it wins. If no clear winner — the cheapest among statistically indistinguishable branches is selected.

Human override (optional): human may select a branch with lower coverage_per_dollar if its visual results are qualitatively different (not captured by metrics). Async, non-blocking. If no override within 48 hours — the automatic rule applies.

5.3 Per-Experiment Success Criteria

Experiment	Question	Metric	Threshold
Exp 1	Multi-agent gives more diversity?	Final coverage (ε, η) > coverage (α)	p < 0.05
	Worth the extra cost?	Coverage_per_dollar (ε) > coverage_per_dollar (α)	d > 0.5
	Multi-agent stagnates later?	Cycles_to_plateau (ε) > cycles_to_plateau (α)	p < 0.05
Exp 2	MAE beats parallel streams?	AUC(ε) > AUC(γ) at equal cost	p < 0.05
Exp 2	HACN beats both?	AUC(θ) > max(AUC(ε), AUC(γ))	p < 0.05, d > 0.5
Exp 7	Curiosity beats coverage-based?	Final_coverage(7b) > final_coverage(7a)	p < 0.05
Exp 8	Sustained diversity over 300 cycles?	DreamSim pairwise distance not dropped >20% from peak	descriptive
Exp 8	"Second wind" events?	After first plateau, coverage resumed growth >2% per 20 cycles	count

VII. Integration with Perceptual Calibration Service [NEW v5]

The pipeline operates on default metric weights and thresholds. In parallel, a dedicated subproject develops the Perceptual Calibration Service (see Article 07).

Integration point: when calibration data becomes available (estimated 2–3 months), it enters the pipeline as:

Updated gate thresholds — NIMA threshold may rise from 4.5 to 5.0, DreamSim threshold may change
Updated VLM checklist weights — which questions actually correlate with panel perception, which do not
New VLM checklist questions — the panel may reveal dimensions not originally anticipated
DreamSim calibration — if a "far by DreamSim" pair is rated "similar" by the panel, diversity measurement must be revised

Format: JSON with weights + thresholds. The pipeline loads the new file at series start. No human-in-the-loop, no blocking.

Base Decisions B14–B18 [NEW v5]

#	Decision	Description
B14	Multi-signal gating	No numeric scores from LLMs. Four calibrated gates: NIMA (quality floor) + CLIP (prompt adherence) + DreamSim (novelty) + VLM binary checklist (structured quality). Binary decisions only.
B15	DreamSim as diversity backbone	CLIP distance is uncalibrated with perception. DreamSim distance (96% agreement with humans) serves as the primary metric for diversity gate, fingerprint comparison, convergence detection, and QD-map distance.
B16	Metric ensemble, not optimization target	Metrics are for gating and diagnosis. The system optimizes coverage (QD-score), not individual metric scores. This is the defense against Goodhart's Law.
B17	Non-blocking human	Human input is an optional signal. Pipeline operates identically with or without it. Pairwise/veto are available but do not block. Data flows to both the pipeline (early warning) and the subproject (calibration).
B18	Calibration via sub-project	Metric weights and thresholds are calibrated through a separate subproject (Perceptual Calibration Service). When calibration data is available — weights update. When not — the system runs on defaults.

Root Cause Closure [UPDATED v5]

#	Root Cause	v5 Solution
1	Optimization kills creativity	QD coverage as objective (not score). Metric ensemble for gating, not optimization.
2	Feedback channels suppress exploration	Per-agent compass + information barriers (B13). T5-GATE does not suppress — binary pass/fail.
3	DO NOT REPEAT paradox	DreamSim distance gate (calibrated perceptual novelty, 96% agreement).
4	Signal laundering via Snapshot	Provenance isolation (B3).
5	Thesis anchors palette	Adversarial Proposer targets palette bias specifically.
6	No diversity gate	DreamSim-based diversity gate (B15). Deterministic, calibrated.
7	Accumulation without forgetting	FadeMem (B4) + per-agent memory (T3g) + stepping stones (B11).
8	LLM scoring = hallucination	T5-GATE: 4 calibrated gates replacing numeric scores (B14).

Central Hypothesis [UPDATED v5]

v4 Hypothesis (retained)

A multi-agent architecture with different models in different roles (ε/η/θ) will deliver better coverage per dollar than any single-agent architecture (α/β) and better coverage per dollar than parallel single-model streams (γ).

v5 Hypothesis (added)

A system with T5-GATE (multi-signal gating), given an identical architecture, will exhibit higher sustained diversity (DreamSim trajectory does not decline) and fewer stagnation events than a system with LLM numeric scoring, because:

The DreamSim gate catches near-duplicates that LLMs "cannot see" (LLMs evaluate descriptions, not images).
A binary checklist prevents "averaging out" a score across dimensions.
There is no incentive for reward hacking — no scalar reward to optimize.
Coverage as objective + gating = exploration pressure without a convergence trap.

Ключевое изменение в v5

Посылка v4: оценка = LLM ставит числовые баллы. Human-in-the-loop = асинхронное управление (compass, veto, pairwise).

Реальность: числовой скоринг LLM = галлюцинация. У языковой модели нет калиброванного пайплайна эстетического восприятия — она выдаёт правдоподобно звучащие числа, не коррелирующие с восприятием систематически (MLLM-as-a-Judge, 2024: согласие в скоринге ~42%, в парном сравнении ~79%).

Решение: замена LLM-скоринга на ансамбль калиброванных автоматических метрик. Каждая метрика — фильтр (pass/fail), не скорер. Конвейер полностью автономен. Калибровка метрик вынесена в отдельный подпроект.

Журнал изменений v4 → v5

T5: LLM-скоринг → T5-GATE (4 калиброванных фильтра: NIMA + CLIP + DreamSim + бинарный VLM-чеклист).

T7: Участие человека → полностью неблокирующий опциональный режим.

B14–B18: Пять новых базовых решений, кодифицирующих философию оценки.

Раздел V (НОВЫЙ): Методология измерения — три уровня метрик, протокол сравнения, критерии успешности по экспериментам.

Раздел VII (НОВЫЙ): Интеграция с подпроектом перцептуальной калибровки.

Корневая причина #8 (НОВАЯ): «LLM-скоринг = галлюцинация» → адресована T5-GATE.

I. Каталог техник

Техники сгруппированы по категориям. Записи с пометкой NEW или UPG — новые или обновлённые в v4, где мультиагентность является ключевым элементом.

T1. Механизмы разнообразия

T1a Hard Gate — программная блокировка по порогу сходства, JSON-конституция правил разнообразия. T1b Batch + DPP — K кандидатов → DPP-отбор по качеству × разнообразию. T1c Novelty Pressure — final_score = α·quality + (1−α)·novelty. T1d Embedding Repulsion — CLIP text-embedding vs архив → мутация ограничений до генерации. T1e Multi-model Ensemble (NEW) — разные модели генерируют из одних ограничений → естественная дивергенция, DPP-отбор из мультимодельного пула. T1f Adversarial Constraints (NEW) — модель-антагонист анализирует паттерны генератора и генерирует ломающие паттерн ограничения.

T2. Пространства дескрипторов

T2a Manual — ручное проектирование измерений. T2b CLIP-based — CLIP-эмбеддинги как поведенческие дескрипторы. T2c AURORA / VQ-Elites — обучаемые дескрипторы. T2d Dual-layer — Manual + CLIP комбинированные. T2e QDHF-calibrated — контрастивное обучение, выровненное по человеческим суждениям сходства.

T3. Архив и память

T3a Museum — неизменяемый архив достижений. T3b Compass — только направление, макс. 1 предложение в промпте. T3c Map — плоская vector DB или SYNAPSE-граф для отслеживания покрытия. T3d FadeMem Aging — кривая Эббингауза с адаптивными скоростями затухания. T3e Taboo Pressure — недавно исследованные регионы получают временное отталкивание. T3f Stepping Stones — архив процедурных навыков, даже при низких оценках. T3g Per-agent Memory (NEW) — каждый агент имеет изолированную локальную память + общая глобальная Map.

T4: Источники ограничений

T4e Adversarial Proposer (NEW) — отдельная модель анализирует профиль поведения генератора и атакует конкретные предпочтения. T4f Cross-model Challenge (NEW) — выход модели A показывается модели B как «сделай наоборот».

T5: Оценка [ПЕРЕРАБОТКА v5]

T5-GATE Multi-Signal Gating (NEW v5) — замена LLM-скоринга. 4 калиброванных фильтра: (1) NIMA > 4.5 — технический порог качества, ~10ms; (2) CLIP Score > 0.25 — соответствие промпту, ~20ms; (3) DreamSim distance > μ−0.5σ — перцептуальная новизна, ~50ms×N; (4) VLM бинарный чеклист ≤2 флагов — структурированная оценка по 10–15 yes/no вопросам, ~$0.01-0.03. Только бинарные решения (pass/fail). T5a и T5d удалены (поглощены T5-GATE).

T5b Ротация линз (UPD) — ротируется не линза LLM-критика, а состав VLM-чеклиста (Gate 4): структурный / экспрессивный / adversarial фокус. T5c Split Critics (UPD) — критик качества (модель A) запускает Gates 1-2 + quality-VLM, критик разнообразия (модель B) — Gate 3 + diversity-VLM. T5e Multi-Judge Panel (UPD) — 3 модели отвечают на одни и те же бинарные вопросы; majority vote; высокое расхождение = сигнал новизны. T5f Adversarial Judge (UPD) — адверсариальный VLM-чеклист, нацеленный на предсказуемость, сходство с недавними выходами, клише; advisory-сигнал, не блокирует.

T7: Управление человеком [ПЕРЕРАБОТКА v5]

Человек может (но не обязан) взаимодействовать с системой через дашборд. Всё async, ничто не блокирует конвейер. Доступные действия: обновление compass (1 предложение), пометка фаворита (не влияет на гейтинг), предпочтение модели (в мультиагентных архитектурах), интервенция в кластер (θ), pairwise (необязательное), veto (необязательное). Данные pairwise/veto идут в (1) основной конвейер как early warning и (2) подпроект перцептуальной калибровки.

T6, T8: Exploration и детекция стагнации

T6e Multi-agent Exploration (NEW) — каждый агент исследует разные пробелы покрытия одновременно. T8d Inter-agent Convergence (NEW) — если разные модели производят похожие выходы → системная стагнация, перетасовка + ротация.

II. Архитектурные варианты

α Линейный конвейер со шлюзом

Одна модель, один поток. Разнообразие обеспечивается постфактум посредством жёсткого отклонения шлюзом. Простейший базовый вариант.

Архитектура α

β Пакетный отбор

Одна модель генерирует K кандидатов за цикл. DPP (Determinantal Point Process) отбирает наиболее разнообразное и качественное подмножество.

Архитектура β

γ Острова с миграцией

N параллельных потоков с фиксированными ограничениями на каждый остров. Периодическая миграция техник между островами. Структурная изоляция обеспечивает декоррелированное исследование.

Архитектура γ

δ POET-подобная коэволюция

Коэволюция «миров» (сред ограничений) и генерации. Миры мутируют, элиминируются при стагнации, используются для кросс-тестирования агентов.

Архитектура δ

ε MAE Triplet — полноценный мультиагент

Три роли, три модели с информационными барьерами. Proposer видит карту покрытия и профиль генератора. Generator видит только минимальный контекст. Judge оценивает независимо.

Архитектура ε — информационные барьеры

Почему разные модели критичны: если одна модель предлагает вызовы и решает их, она подсознательно предлагает вызовы, которые ей удобно решать. Разные модели разрывают коррелированную петлю смещения.

η Multi-Generator Ensemble

Один Proposer формулирует вызов, который одновременно направляется N разным генераторам. DPP отбирает 1–2 лучших из пула по качеству × разнообразию.

Архитектура η — ансамбль генераторов

θ HACN-инспирированные кластеры

Кластеры с разными моделями, изолированной локальной памятью, полным внутренним обменом и частичным внешним (только отпечаток + оценка). Superego — отдельная модель с JSON-конституцией.

Архитектура θ — тройной барьер разнообразия

III. Сравнение архитектур

Свойство	α	β	γ	δ	ε	η	θ
Модели-генераторы	1	1	1×N	1×N	1	N	N×M
Модели-критики	0–1	0–1	0–1/остр.	0–1/мир	1 Judge	1	1/кластер + Superego
Множитель стоимости	~1.5×	~K×	~N×	~N×	~3×	~N×	~(NM+2)×
Источник разнообразия	Шлюз	DPP	Изоляция	Эмерджентный	Адверсар.	Смещение моделей	Архитектура
Риск коррелированного смещения	Высокий	Высокий	Средний	Средний	Низкий	Низкий	Минимальный

IV–V. Матрица совместимости и базовые решения

Новые мультиагентные техники (T1e, T1f, T3g, T4e, T4f, T5c, T5e, T8d) имеют разную совместимость с архитектурами. Ключевой паттерн: техники, требующие нескольких моделей, являются Core для ε/η/θ и недоступны для α/β.

Базовые решения B1–B13 обновлены для v4: B2 — per-agent compass для каждого генератора, B4 — per-agent память тоже стареет, B5 — глобальная + per-agent локальная память, B6 — + межагентная метрика разнообразия, B10 — в θ Superego как отдельная модель, B12 (NEW) — разные модели на разные роли, B13 (NEW) — агенты не видят рассуждений друг друга.

VI. Экспериментальная программа

Фаза 0 · Неделя 1

Реализация B1–B18 + конвейер T5-GATE

Все базовые решения (B1–B18). Развёртывание T5-GATE: NIMA, CLIP, DreamSim, бинарный VLM-чеклист. Инфраструктура логирования (JSON на цикл). Инфраструктура сравнения (кривые покрытия, статистические тесты, дашборд).

Фаза 1 · Недели 2–4

Архитектурный турнир

Эксперимент 1: α Linear+Gate vs ε MAE Triplet vs η Ensemble (200 циклов на ветку). Эксперимент 2: γ Islands vs ε MAE vs θ HACN. Ключевая метрика: покрытие на доллар.

Фаза 2 · Недели 5–7

Настройка конфигурации

Эксп. 3: Источник ограничений. Эксп. 4: Механизм разнообразия. Эксп. 5: Архитектура памяти. Эксп. 6: Пространство дескрипторов. Параллельно на победившей архитектуре из фазы 1.

Фаза 3 · Недели 8–10

Exploration Driver + внешний цикл

Эксп. 7: Coverage vs Curiosity (ICM) vs Multi-agent Exploration. Эксп. 8: Расширенные прогоны на 300 циклов. Финальная архитектура → ARCHITECTURE_V3.

VII. Закрытие 7 корневых причин

#	Корневая причина	Решение v4
1	Оптимизация убивает креативность	QD + MAE адверсариальное напряжение (Proposer → новизна, Generator → качество)
2	Каналы ОС подавляют исследование	Per-agent compass + информационные барьеры (B13)
3	Парадокс «НЕ ПОВТОРЯЙ»	Шлюз + embedding repulsion + адверсариальные ограничения от ДРУГОЙ модели
4	Отмывание сигнала через Snapshot	Изоляция провенанса (B3)
5	Тезис якорит палитру	Adversarial Proposer целенаправленно атакует смещение палитры
6	Нет шлюза разнообразия	Детерминированный sidecar (B10) / Superego-модель (θ)
7	Накопление без забывания	FadeMem (B4) + per-agent изолированная память (T3g) + stepping stones (B11)

V. Методология измерения [НОВОЕ v5]

5.1 Три уровня метрик

Уровень	Масштаб	Ключевые метрики
Уровень 1: На изображение	Каждый цикл	NIMA score, CLIP score, DreamSim NN distance, результат VLM-чеклиста, pass/fail гейта, стоимость генерации ($)
Уровень 2: На серию	50–200 циклов	Покрытие: QD-score, % покрытия, скорость покрытия. Разнообразие: среднее парное DreamSim, траектория DreamSim, кол-во кластеров HDBSCAN. Качество: % прохождения гейтов, средний NIMA/CLIP принятых. Эффективность: покрытие на доллар, выход новизны. Стагнация: Martingale score, циклы до плато, события восстановления.
Уровень 3: Кросс-эксперимент	Сравнение веток	Основные: AUC кривой покрытия, финальное покрытие, время до X% — всё нормализовано по стоимости. Статистика: 3 seed'а, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5).

5.2 Протокол сравнения

Все ветки стартуют из идентичного начального состояния. Различаются только random seed'ы (3 реплики на ветку). Автоматическое правило: если ветка доминирует по покрытие_на_доллар с p < 0.05 и d > 0.5 — она побеждает. Если явного победителя нет — выбирается самая дешёвая из неразличимых. Человек может переопределить решение в течение 48 часов.

VII. Интеграция с сервисом перцептуальной калибровки [НОВОЕ v5]

Конвейер работает на значениях по умолчанию. Параллельно разрабатывается подпроект — сервис перцептуальной калибровки (см. Статья 07). Когда данные калибровки станут доступны (предположительно через 2–3 месяца), они поступят как: обновлённые пороги фильтров, обновлённые веса VLM-чеклиста, новые вопросы чеклиста, калибровка DreamSim. Формат: JSON с весами + порогами. Никакого человека в цикле, никакой блокировки.

Базовые решения B14–B18 [НОВОЕ v5]

#	Решение	Описание
B14	Многосигнальный гейтинг	Никаких числовых оценок от LLM. Четыре калиброванных фильтра: NIMA (технический порог) + CLIP (соответствие промпту) + DreamSim (новизна) + бинарный VLM-чеклист (структурированное качество). Только бинарные решения.
B15	DreamSim как основа разнообразия	CLIP distance не калиброван по восприятию. DreamSim distance (96% согласие с людьми) — основная метрика для фильтра разнообразия, сравнения отпечатков, детекции конвергенции и расстояния QD-карты.
B16	Ансамбль метрик, не цель оптимизации	Метрики — для фильтрации и диагностики. Система оптимизирует покрытие (QD-score), не индивидуальные оценки метрик. Защита от закона Гудхарта.
B17	Неблокирующий человек	Человеческий ввод — опциональный сигнал. Конвейер работает идентично с ним и без. Pairwise/veto доступны, но не блокируют.
B18	Калибровка через подпроект	Веса метрик и пороги калибруются через отдельный подпроект. Когда данные доступны — веса обновляются. Когда нет — система работает на значениях по умолчанию.

Закрытие корневых причин [ОБНОВЛЕНО v5]

#	Корневая причина	Решение v5
1	Оптимизация убивает креативность	QD-покрытие как цель (не балл). Ансамбль метрик для фильтрации, не оптимизации.
2	Каналы обратной связи подавляют исследование	Per-agent compass + информационные барьеры (B13). T5-GATE не подавляет — бинарный pass/fail.
3	Парадокс «не повторяй»	Фильтр DreamSim distance (калиброванная перцептуальная новизна, 96% согласие).
4	Отмывание сигнала через Snapshot	Изоляция провенанса (B3).
5	Тезис якорит палитру	Adversarial Proposer целенаправленно атакует палитровое смещение.
6	Нет фильтра разнообразия	Фильтр на основе DreamSim (B15). Детерминистический, калиброванный.
7	Накопление без забывания	FadeMem (B4) + per-agent memory (T3g) + stepping stones (B11).
8	LLM-скоринг = галлюцинация	T5-GATE: 4 калиброванных фильтра вместо числовых оценок (B14).

Центральная гипотеза [ОБНОВЛЕНО v5]

Гипотеза v4 (сохранена)

Мультиагентная архитектура с разными моделями в разных ролях (ε/η/θ) обеспечит лучшее покрытие на доллар, чем любая одноагентная архитектура (α/β), и лучшее покрытие на доллар, чем параллельные одномодельные потоки (γ).

Гипотеза v5 (добавлена)

Система с T5-GATE (многосигнальный гейтинг) при идентичной архитектуре покажет более высокое устойчивое разнообразие (траектория DreamSim не падает) и меньше событий стагнации, чем система с числовым LLM-скорингом, поскольку:

Фильтр DreamSim ловит near-duplicates, которые LLM «не видит» (LLM оценивает описание, не изображение).
Бинарный чеклист не позволяет «вытянуть» средний балл за счёт одного измерения.
Отсутствует стимул для reward hacking — нет скалярного вознаграждения для оптимизации.
Покрытие как цель + фильтрация = давление к исследованию без ловушки конвергенции.