v4 premise: Evaluation = LLM assigns numeric scores. Human-in-the-loop = async steering (compass, veto, pairwise).
Reality: LLM numeric scoring = hallucination. Language models lack a calibrated aesthetic perception pipeline — they produce plausible-sounding numbers that do not systematically correlate with perception (MLLM-as-a-Judge, 2024: agreement in scoring tasks ~42%, in pairwise ~79%). Numeric scores from LLMs represent the worst-case scenario for a feedback loop.
Solution: Replace LLM scoring with an ensemble of calibrated automated metrics. Each metric operates as a gate (pass/fail), not a scorer. The pipeline is fully autonomous. Human participation is removed from all cycles — metric calibration is delegated to a separate subproject.
T5: LLM numeric scoring → T5-GATE (4 calibrated gates: NIMA + CLIP + DreamSim + VLM binary checklist). Binary decisions only.
T7: Human steering → fully non-blocking optional async. Pipeline operates identically with or without human input.
B14–B18: Five new base decisions codifying the evaluation philosophy.
Section V (NEW): Measurement methodology — three metric levels, comparison protocol, per-experiment success criteria, statistical significance requirements.
Section VII (NEW): Integration with Perceptual Calibration Service subproject.
Root Cause #8 (NEW): "LLM scoring = hallucination" → addressed by T5-GATE.
| ID | Technique | Description | New in v4 |
|---|---|---|---|
| T1a | Hard Gate | Programmatic block by similarity threshold. JSON constitution of diversity rules. | |
| T1b | Batch + DPP | K candidates → DPP selection by quality × diversity. | |
| T1c | Novelty Pressure | final_score = α·quality + (1−α)·novelty | |
| T1d | Embedding Repulsion | CLIP text-embedding vs archive → mutate constraints before generation. | |
| T1e | Multi-model Ensemble | Different models generate from same constraints → natural divergence. DPP selection from multi-model pool. | NEW |
| T1f | Adversarial Constraints | Antagonist model analyzes generator patterns and generates pattern-breaking constraints. | NEW |
| ID | Technique | Description |
|---|---|---|
| T2a | Manual | Hand-designed dimensions (material, palette, composition type). |
| T2b | CLIP-based | CLIP embeddings as behavioral descriptors. |
| T2c | AURORA / VQ-Elites | Learned descriptors via autoencoder / VQ-VAE. Problem-agnostic. |
| T2d | Dual-layer | Manual + CLIP combined. Best of both worlds. |
| T2e | QDHF-calibrated | Contrastive learning aligned with human similarity judgments. |
| ID | Technique | Description | New |
|---|---|---|---|
| T3a | Museum | Immutable archive of achievements. | |
| T3b | Compass | Direction-only, max 1 sentence in prompt. | |
| T3c-flat | Map (flat) | Flat vector DB for coverage tracking. | |
| T3c-graph | Map (SYNAPSE) | Directed graph with temporal, abstract, associative edges. | |
| T3d | FadeMem Aging | Ebbinghaus curve with adaptive decay rates. | |
| T3e | Taboo Pressure | Recently explored regions receive temporary repulsion. | |
| T3f | Stepping Stones | Archive of procedural skills, even at low scores. | |
| T3g | Per-agent Memory | Each agent has isolated local memory + shared global Map. Information firewall. | NEW |
| ID | Technique | Description | New |
|---|---|---|---|
| T4a | Random External | Random constraints from predefined space. | |
| T4b | Teacher-agent | MAE-style, separate model as teacher. | |
| T4c | Multi-Emitter | Bank of programmatic emitters, UCB-bandit selection. | |
| T4d | Curriculum | External data (news, weather, events) as constraint source. | |
| T4e | Adversarial Proposer | Separate model analyzes generator behavior profile and attacks specific preferences. | NEW |
| T4f | Cross-model Challenge | Model A's output shown to Model B as "do the opposite." Minibatch discrimination via multi-modality. | NEW |
T5a (Static Critic + Novelty) — removed. LLM numeric scoring replaced by T5-GATE. Novelty bonus absorbed by Gate 3 (DreamSim).
T5d (Minimal Criteria) — absorbed into T5-GATE. T5-GATE is effectively T5d expanded to 4 gates.
| ID | Technique | Description | v5 |
|---|---|---|---|
| T5-GATE | Multi-Signal Automated Gating | 4 calibrated gates (NIMA + CLIP + DreamSim + VLM binary checklist). Binary pass/fail only. No numeric scores. | NEW |
| T5b | Lens Rotation | Adapted: rotate VLM checklist composition (Gate 4), not LLM lens. Structural / expressive / adversarial focus. | UPD |
| T5c | Split Critics | Adapted: quality critic (Model A) runs Gates 1-2 + quality VLM checklist; diversity critic (Model B) runs Gate 3 + diversity VLM checklist. | UPD |
| T5e | Multi-Judge Panel | Adapted: 3 models (GPT-5.2, Claude, Gemini) answer same binary checklist. Per-question majority vote. High cross-model disagreement = novelty signal. | UPD |
| T5f | Adversarial Judge | Adapted: adversarial VLM checklist targeting predictability, similarity to recent outputs, clichés. Advisory signal, does not block acceptance. | UPD |
VLM binary checklist (Gate 4) replaces numeric scoring with 10–15 yes/no questions across four dimensions: structural integrity (artifacts, coherence), constraint adherence (material, palette, composition), expressive quality (emotion, tension, surprise), and anti-patterns (stock look, AI look). Passing rule: 0 rejects + ≤2 flags.
Specific models (NIMA, CLIP, DreamSim) and thresholds (NIMA > 4.5, CLIP > 0.25) are assumptions, not facts. NIMA was trained on photo contests, not generative art. CLIP distance ≠ perceptual distance. After the first 50–100 cycles, mandatory diagnostics: which gate rejects the most? Manual review of rejected images. Iterative refinement: v1 → diagnostics → v2 → ...
| ID | Technique | Description | New |
|---|---|---|---|
| T6a | Coverage-driven | Compass points toward largest coverage gaps. | |
| T6b | Curiosity (ICM) | Intrinsic reward = prediction error in learned feature space. | |
| T6c | Go-Explore | Remember → return to promising → explore from there. | |
| T6d | Lévy Flights | Power-law mutation distances. Periodic large jumps. | |
| T6e | Multi-agent Exploration | Each agent explores different coverage gaps simultaneously. | NEW |
Human participation is fully optional and non-blocking. The pipeline operates identically with or without human input. All interactions are async via dashboard.
| Action | Effect | Blocking? |
|---|---|---|
| Compass update | One-sentence direction. Updates compass for subsequent cycles. | No |
| Tag / favorite | Mark result as interesting. Affects visualization and stepping stones only, not gating. | No |
| Model preference | In multi-agent architectures — mark a specific model's output as preferred. | No |
| Cluster intervention | Provide direction to a specific cluster (θ). | No |
| Pairwise | System shows a pair; human clicks "which is more interesting." If not clicked — nothing happens. | No |
| Veto | Mark result as "definitely not." Binary, instant. | No |
Data routing: Pairwise/veto data flows to (1) the main pipeline as a lightweight early warning signal — if judgments systematically diverge from automated ranking, this signals metric drift; and (2) the Perceptual Calibration Service subproject as additional pairwise judgments for the Bradley-Terry model.
| ID | Technique | Description | New |
|---|---|---|---|
| T8a | Martingale Score | If trajectory is predictable from initial state → stagnation. | |
| T8b | Diversity Trajectory | Monitor mean pairwise distance over sliding window. | |
| T8c | Coverage Plateau | If coverage gain < θ for N cycles → intervention. | |
| T8d | Inter-agent Convergence | If different models produce similar outputs → systemic stagnation. Shuffle + rotate. | NEW |
Single model, single stream. Diversity is enforced via post-hoc hard gate rejection. Simplest baseline.
Single model generates K candidates per cycle. DPP (Determinantal Point Process) selects the most diverse and highest-quality subset.
N parallel streams with fixed constraints per island. Periodic technique migration between islands. Structural isolation ensures decorrelated exploration.
Co-evolution of "worlds" (constraint environments) and generation. Worlds mutate, are eliminated upon stagnation, and cross-test agents.
Three roles, three models with information barriers. Proposer sees coverage map and generator profile. Generator sees only minimal context. Judge evaluates independently.
Why different models are critical: if one model both proposes challenges and solves them, it subconsciously proposes challenges it's comfortable solving. Different models break this correlated bias loop.
One Proposer formulates a challenge, which is simultaneously sent to N different generators. DPP selects 1–2 best from the pool by quality × diversity.
Clusters with different models, isolated local memory, full internal sharing and partial external exchange (fingerprint + score only). Superego — separate model with JSON constitution.
| Property | α Linear | β Batch | γ Islands | δ Coevol | ε MAE | η Ensemble | θ HACN |
|---|---|---|---|---|---|---|---|
| Generator models | 1 | 1 | 1×N | 1×N | 1 | N | N×M |
| Critic models | 0–1 | 0–1 | 0–1/isl | 0–1/world | 1 Judge | 1 | 1/cluster + Superego |
| Proposer models | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
| Cost multiplier | ~1.5× | ~K× | ~N× | ~N× | ~3× | ~N× | ~(NM+2)× |
| Diversity source | Gate | DPP | Isolation | Emergent | Adversarial | Model bias | Architecture |
| Info barriers | No | No | Island | World | Role | No | HACN partial |
| Correlated bias risk | High | High | Medium | Medium | Low | Low | Minimal |
| Technique | α | β | γ | δ | ε | η | θ |
|---|---|---|---|---|---|---|---|
| T1e Multi-model ensemble | — | — | Possible | Possible | — | Core | Per cluster |
| T1f Adversarial constraints | — | — | — | — | Core | Useful | Per cluster |
| T3g Per-agent memory | — | — | Per island | Per world | Per role | Per model | Core |
| T4e Adversarial Proposer | — | — | — | — | Core | Useful | — |
| T4f Cross-model challenge | — | — | — | — | — | Core | Per cluster |
| T5c Split critics (models) | — | — | — | — | Core | Useful | Per cluster |
| T5e Multi-judge panel | — | — | — | — | — | Useful | Core |
| T8d Inter-agent convergence | — | — | Per island | — | — | Needed | Core |
| # | Solution | v4 Update |
|---|---|---|
| B1 | Score semantics: museum + taboo | — |
| B2 | Compass-only in LLM context | Per-agent compass for each generator |
| B3 | Provenance: Snapshot ≠ creative state | — |
| B4 | FadeMem aging | Per-agent memory also ages |
| B5 | Museum / Map | Global + per-agent local memory |
| B6 | QD-score + coverage | + inter-agent diversity metric |
| B7 | Dual fingerprint | — |
| B8 | Human async | Dashboard shows per-agent + global |
| B9 | Martingale detection | Per-agent + global + inter-agent (T8d) |
| B10 | Diversity gate as sidecar | In θ: Superego as separate model |
| B11 | Stepping stones | Shared archive, per-agent discovery |
| B12 | Role-model separation | NEW — different models per role |
| B13 | Information barriers | NEW — agents don't see each other's reasoning |
| Branch | Architecture | Models | Cost |
|---|---|---|---|
| 1α | Linear + Gate | 1 (GPT-4.1) | ~1.5× |
| 1ε | MAE Triplet | 3 (Claude → Proposer, GPT-4.1 → Gen, Gemini → Judge) | ~3× |
| 1η | Ensemble | 3 gen + 1 proposer + 1 judge | ~5× |
200 cycles per branch. Key metric: coverage per dollar.
| Branch | Architecture | Question |
|---|---|---|
| 2γ | 3 Islands (1 model each) | At equal budget: parallel single-model streams vs multi-model single stream vs multi-model clusters? |
| 2ε | MAE Triplet (3 models, 1 stream) | |
| 2θ | HACN (2 clusters × 2 gen + Superego) |
200 cycles per branch.
| # | Root Cause | v4 Solution |
|---|---|---|
| 1 | Optimization kills creativity | QD + MAE adversarial tension (Proposer → novelty, Generator → quality) |
| 2 | Feedback channels suppress exploration | Per-agent compass + information barriers (B13) |
| 3 | "DO NOT REPEAT" paradox | Gate + embedding repulsion + adversarial constraints from DIFFERENT model |
| 4 | Signal laundering via Snapshot | Provenance isolation (B3) |
| 5 | Thesis anchors palette | Adversarial Proposer targets palette bias specifically |
| 6 | No diversity gate | Deterministic sidecar (B10) / Superego model (θ) |
| 7 | Accumulation without forgetting | FadeMem (B4) + per-agent isolated memory (T3g) + stepping stones (B11) |
| Level | Scope | Key Metrics |
|---|---|---|
| Level 1: Per-image | Every cycle | NIMA score, CLIP score, DreamSim NN distance, VLM checklist result, gate pass/fail, generation cost ($) |
| Level 2: Per-series | 50–200 cycles | Coverage: QD-score, coverage %, coverage velocity. Diversity: mean pairwise DreamSim distance, DreamSim trajectory, HDBSCAN cluster count. Quality: gate pass rate, mean NIMA/CLIP of accepted. Efficiency: coverage per dollar, novelty yield. Stagnation: Martingale score, cycles to plateau, recovery events. |
| Level 3: Cross-experiment | Branch comparison | Primary: AUC of coverage curve, final coverage, time to X% coverage — all cost-normalized. Diversity: cross-branch DreamSim overlap, unique cells per branch. Statistics: 3 seeds, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5 for practical significance). |
All branches start from identical initial state (same archive, QD-map, VLM checklist, gate thresholds). Only random seeds differ (3 replications per branch). Per-image data is logged as structured JSON. Series metrics are computed at 50-cycle checkpoints. Cross-experiment comparison uses cost-normalized coverage curves with confidence bands.
Automatic (default): if one branch dominates by coverage_per_dollar with p < 0.05 and d > 0.5, it wins. If no clear winner — the cheapest among statistically indistinguishable branches is selected.
Human override (optional): human may select a branch with lower coverage_per_dollar if its visual results are qualitatively different (not captured by metrics). Async, non-blocking. If no override within 48 hours — the automatic rule applies.
| Experiment | Question | Metric | Threshold |
|---|---|---|---|
| Exp 1 | Multi-agent gives more diversity? | Final coverage (ε, η) > coverage (α) | p < 0.05 |
| Worth the extra cost? | Coverage_per_dollar (ε) > coverage_per_dollar (α) | d > 0.5 | |
| Multi-agent stagnates later? | Cycles_to_plateau (ε) > cycles_to_plateau (α) | p < 0.05 | |
| Exp 2 | MAE beats parallel streams? | AUC(ε) > AUC(γ) at equal cost | p < 0.05 |
| HACN beats both? | AUC(θ) > max(AUC(ε), AUC(γ)) | p < 0.05, d > 0.5 | |
| Exp 7 | Curiosity beats coverage-based? | Final_coverage(7b) > final_coverage(7a) | p < 0.05 |
| Exp 8 | Sustained diversity over 300 cycles? | DreamSim pairwise distance not dropped >20% from peak | descriptive |
| "Second wind" events? | After first plateau, coverage resumed growth >2% per 20 cycles | count |
The pipeline operates on default metric weights and thresholds. In parallel, a dedicated subproject develops the Perceptual Calibration Service (see Article 07).
Integration point: when calibration data becomes available (estimated 2–3 months), it enters the pipeline as:
Format: JSON with weights + thresholds. The pipeline loads the new file at series start. No human-in-the-loop, no blocking.
| # | Decision | Description |
|---|---|---|
| B14 | Multi-signal gating | No numeric scores from LLMs. Four calibrated gates: NIMA (quality floor) + CLIP (prompt adherence) + DreamSim (novelty) + VLM binary checklist (structured quality). Binary decisions only. |
| B15 | DreamSim as diversity backbone | CLIP distance is uncalibrated with perception. DreamSim distance (96% agreement with humans) serves as the primary metric for diversity gate, fingerprint comparison, convergence detection, and QD-map distance. |
| B16 | Metric ensemble, not optimization target | Metrics are for gating and diagnosis. The system optimizes coverage (QD-score), not individual metric scores. This is the defense against Goodhart's Law. |
| B17 | Non-blocking human | Human input is an optional signal. Pipeline operates identically with or without it. Pairwise/veto are available but do not block. Data flows to both the pipeline (early warning) and the subproject (calibration). |
| B18 | Calibration via sub-project | Metric weights and thresholds are calibrated through a separate subproject (Perceptual Calibration Service). When calibration data is available — weights update. When not — the system runs on defaults. |
| # | Root Cause | v5 Solution |
|---|---|---|
| 1 | Optimization kills creativity | QD coverage as objective (not score). Metric ensemble for gating, not optimization. |
| 2 | Feedback channels suppress exploration | Per-agent compass + information barriers (B13). T5-GATE does not suppress — binary pass/fail. |
| 3 | DO NOT REPEAT paradox | DreamSim distance gate (calibrated perceptual novelty, 96% agreement). |
| 4 | Signal laundering via Snapshot | Provenance isolation (B3). |
| 5 | Thesis anchors palette | Adversarial Proposer targets palette bias specifically. |
| 6 | No diversity gate | DreamSim-based diversity gate (B15). Deterministic, calibrated. |
| 7 | Accumulation without forgetting | FadeMem (B4) + per-agent memory (T3g) + stepping stones (B11). |
| 8 | LLM scoring = hallucination | T5-GATE: 4 calibrated gates replacing numeric scores (B14). |
A multi-agent architecture with different models in different roles (ε/η/θ) will deliver better coverage per dollar than any single-agent architecture (α/β) and better coverage per dollar than parallel single-model streams (γ).
A system with T5-GATE (multi-signal gating), given an identical architecture, will exhibit higher sustained diversity (DreamSim trajectory does not decline) and fewer stagnation events than a system with LLM numeric scoring, because:
Посылка v4: оценка = LLM ставит числовые баллы. Human-in-the-loop = асинхронное управление (compass, veto, pairwise).
Реальность: числовой скоринг LLM = галлюцинация. У языковой модели нет калиброванного пайплайна эстетического восприятия — она выдаёт правдоподобно звучащие числа, не коррелирующие с восприятием систематически (MLLM-as-a-Judge, 2024: согласие в скоринге ~42%, в парном сравнении ~79%).
Решение: замена LLM-скоринга на ансамбль калиброванных автоматических метрик. Каждая метрика — фильтр (pass/fail), не скорер. Конвейер полностью автономен. Калибровка метрик вынесена в отдельный подпроект.
T5: LLM-скоринг → T5-GATE (4 калиброванных фильтра: NIMA + CLIP + DreamSim + бинарный VLM-чеклист).
T7: Участие человека → полностью неблокирующий опциональный режим.
B14–B18: Пять новых базовых решений, кодифицирующих философию оценки.
Раздел V (НОВЫЙ): Методология измерения — три уровня метрик, протокол сравнения, критерии успешности по экспериментам.
Раздел VII (НОВЫЙ): Интеграция с подпроектом перцептуальной калибровки.
Корневая причина #8 (НОВАЯ): «LLM-скоринг = галлюцинация» → адресована T5-GATE.
Техники сгруппированы по категориям. Записи с пометкой NEW или UPG — новые или обновлённые в v4, где мультиагентность является ключевым элементом.
T1a Hard Gate — программная блокировка по порогу сходства, JSON-конституция правил разнообразия. T1b Batch + DPP — K кандидатов → DPP-отбор по качеству × разнообразию. T1c Novelty Pressure — final_score = α·quality + (1−α)·novelty. T1d Embedding Repulsion — CLIP text-embedding vs архив → мутация ограничений до генерации. T1e Multi-model Ensemble (NEW) — разные модели генерируют из одних ограничений → естественная дивергенция, DPP-отбор из мультимодельного пула. T1f Adversarial Constraints (NEW) — модель-антагонист анализирует паттерны генератора и генерирует ломающие паттерн ограничения.
T2a Manual — ручное проектирование измерений. T2b CLIP-based — CLIP-эмбеддинги как поведенческие дескрипторы. T2c AURORA / VQ-Elites — обучаемые дескрипторы. T2d Dual-layer — Manual + CLIP комбинированные. T2e QDHF-calibrated — контрастивное обучение, выровненное по человеческим суждениям сходства.
T3a Museum — неизменяемый архив достижений. T3b Compass — только направление, макс. 1 предложение в промпте. T3c Map — плоская vector DB или SYNAPSE-граф для отслеживания покрытия. T3d FadeMem Aging — кривая Эббингауза с адаптивными скоростями затухания. T3e Taboo Pressure — недавно исследованные регионы получают временное отталкивание. T3f Stepping Stones — архив процедурных навыков, даже при низких оценках. T3g Per-agent Memory (NEW) — каждый агент имеет изолированную локальную память + общая глобальная Map.
T4e Adversarial Proposer (NEW) — отдельная модель анализирует профиль поведения генератора и атакует конкретные предпочтения. T4f Cross-model Challenge (NEW) — выход модели A показывается модели B как «сделай наоборот».
T5-GATE Multi-Signal Gating (NEW v5) — замена LLM-скоринга. 4 калиброванных фильтра: (1) NIMA > 4.5 — технический порог качества, ~10ms; (2) CLIP Score > 0.25 — соответствие промпту, ~20ms; (3) DreamSim distance > μ−0.5σ — перцептуальная новизна, ~50ms×N; (4) VLM бинарный чеклист ≤2 флагов — структурированная оценка по 10–15 yes/no вопросам, ~$0.01-0.03. Только бинарные решения (pass/fail). T5a и T5d удалены (поглощены T5-GATE).
T5b Ротация линз (UPD) — ротируется не линза LLM-критика, а состав VLM-чеклиста (Gate 4): структурный / экспрессивный / adversarial фокус. T5c Split Critics (UPD) — критик качества (модель A) запускает Gates 1-2 + quality-VLM, критик разнообразия (модель B) — Gate 3 + diversity-VLM. T5e Multi-Judge Panel (UPD) — 3 модели отвечают на одни и те же бинарные вопросы; majority vote; высокое расхождение = сигнал новизны. T5f Adversarial Judge (UPD) — адверсариальный VLM-чеклист, нацеленный на предсказуемость, сходство с недавними выходами, клише; advisory-сигнал, не блокирует.
Человек может (но не обязан) взаимодействовать с системой через дашборд. Всё async, ничто не блокирует конвейер. Доступные действия: обновление compass (1 предложение), пометка фаворита (не влияет на гейтинг), предпочтение модели (в мультиагентных архитектурах), интервенция в кластер (θ), pairwise (необязательное), veto (необязательное). Данные pairwise/veto идут в (1) основной конвейер как early warning и (2) подпроект перцептуальной калибровки.
T6e Multi-agent Exploration (NEW) — каждый агент исследует разные пробелы покрытия одновременно. T8d Inter-agent Convergence (NEW) — если разные модели производят похожие выходы → системная стагнация, перетасовка + ротация.
Одна модель, один поток. Разнообразие обеспечивается постфактум посредством жёсткого отклонения шлюзом. Простейший базовый вариант.
Одна модель генерирует K кандидатов за цикл. DPP (Determinantal Point Process) отбирает наиболее разнообразное и качественное подмножество.
N параллельных потоков с фиксированными ограничениями на каждый остров. Периодическая миграция техник между островами. Структурная изоляция обеспечивает декоррелированное исследование.
Коэволюция «миров» (сред ограничений) и генерации. Миры мутируют, элиминируются при стагнации, используются для кросс-тестирования агентов.
Три роли, три модели с информационными барьерами. Proposer видит карту покрытия и профиль генератора. Generator видит только минимальный контекст. Judge оценивает независимо.
Почему разные модели критичны: если одна модель предлагает вызовы и решает их, она подсознательно предлагает вызовы, которые ей удобно решать. Разные модели разрывают коррелированную петлю смещения.
Один Proposer формулирует вызов, который одновременно направляется N разным генераторам. DPP отбирает 1–2 лучших из пула по качеству × разнообразию.
Кластеры с разными моделями, изолированной локальной памятью, полным внутренним обменом и частичным внешним (только отпечаток + оценка). Superego — отдельная модель с JSON-конституцией.
| Свойство | α | β | γ | δ | ε | η | θ |
|---|---|---|---|---|---|---|---|
| Модели-генераторы | 1 | 1 | 1×N | 1×N | 1 | N | N×M |
| Модели-критики | 0–1 | 0–1 | 0–1/остр. | 0–1/мир | 1 Judge | 1 | 1/кластер + Superego |
| Множитель стоимости | ~1.5× | ~K× | ~N× | ~N× | ~3× | ~N× | ~(NM+2)× |
| Источник разнообразия | Шлюз | DPP | Изоляция | Эмерджентный | Адверсар. | Смещение моделей | Архитектура |
| Риск коррелированного смещения | Высокий | Высокий | Средний | Средний | Низкий | Низкий | Минимальный |
Новые мультиагентные техники (T1e, T1f, T3g, T4e, T4f, T5c, T5e, T8d) имеют разную совместимость с архитектурами. Ключевой паттерн: техники, требующие нескольких моделей, являются Core для ε/η/θ и недоступны для α/β.
Базовые решения B1–B13 обновлены для v4: B2 — per-agent compass для каждого генератора, B4 — per-agent память тоже стареет, B5 — глобальная + per-agent локальная память, B6 — + межагентная метрика разнообразия, B10 — в θ Superego как отдельная модель, B12 (NEW) — разные модели на разные роли, B13 (NEW) — агенты не видят рассуждений друг друга.
| # | Корневая причина | Решение v4 |
|---|---|---|
| 1 | Оптимизация убивает креативность | QD + MAE адверсариальное напряжение (Proposer → новизна, Generator → качество) |
| 2 | Каналы ОС подавляют исследование | Per-agent compass + информационные барьеры (B13) |
| 3 | Парадокс «НЕ ПОВТОРЯЙ» | Шлюз + embedding repulsion + адверсариальные ограничения от ДРУГОЙ модели |
| 4 | Отмывание сигнала через Snapshot | Изоляция провенанса (B3) |
| 5 | Тезис якорит палитру | Adversarial Proposer целенаправленно атакует смещение палитры |
| 6 | Нет шлюза разнообразия | Детерминированный sidecar (B10) / Superego-модель (θ) |
| 7 | Накопление без забывания | FadeMem (B4) + per-agent изолированная память (T3g) + stepping stones (B11) |
| Уровень | Масштаб | Ключевые метрики |
|---|---|---|
| Уровень 1: На изображение | Каждый цикл | NIMA score, CLIP score, DreamSim NN distance, результат VLM-чеклиста, pass/fail гейта, стоимость генерации ($) |
| Уровень 2: На серию | 50–200 циклов | Покрытие: QD-score, % покрытия, скорость покрытия. Разнообразие: среднее парное DreamSim, траектория DreamSim, кол-во кластеров HDBSCAN. Качество: % прохождения гейтов, средний NIMA/CLIP принятых. Эффективность: покрытие на доллар, выход новизны. Стагнация: Martingale score, циклы до плато, события восстановления. |
| Уровень 3: Кросс-эксперимент | Сравнение веток | Основные: AUC кривой покрытия, финальное покрытие, время до X% — всё нормализовано по стоимости. Статистика: 3 seed'а, Mann-Whitney U (p < 0.05), Cohen's d (> 0.5). |
Все ветки стартуют из идентичного начального состояния. Различаются только random seed'ы (3 реплики на ветку). Автоматическое правило: если ветка доминирует по покрытие_на_доллар с p < 0.05 и d > 0.5 — она побеждает. Если явного победителя нет — выбирается самая дешёвая из неразличимых. Человек может переопределить решение в течение 48 часов.
Конвейер работает на значениях по умолчанию. Параллельно разрабатывается подпроект — сервис перцептуальной калибровки (см. Статья 07). Когда данные калибровки станут доступны (предположительно через 2–3 месяца), они поступят как: обновлённые пороги фильтров, обновлённые веса VLM-чеклиста, новые вопросы чеклиста, калибровка DreamSim. Формат: JSON с весами + порогами. Никакого человека в цикле, никакой блокировки.
| # | Решение | Описание |
|---|---|---|
| B14 | Многосигнальный гейтинг | Никаких числовых оценок от LLM. Четыре калиброванных фильтра: NIMA (технический порог) + CLIP (соответствие промпту) + DreamSim (новизна) + бинарный VLM-чеклист (структурированное качество). Только бинарные решения. |
| B15 | DreamSim как основа разнообразия | CLIP distance не калиброван по восприятию. DreamSim distance (96% согласие с людьми) — основная метрика для фильтра разнообразия, сравнения отпечатков, детекции конвергенции и расстояния QD-карты. |
| B16 | Ансамбль метрик, не цель оптимизации | Метрики — для фильтрации и диагностики. Система оптимизирует покрытие (QD-score), не индивидуальные оценки метрик. Защита от закона Гудхарта. |
| B17 | Неблокирующий человек | Человеческий ввод — опциональный сигнал. Конвейер работает идентично с ним и без. Pairwise/veto доступны, но не блокируют. |
| B18 | Калибровка через подпроект | Веса метрик и пороги калибруются через отдельный подпроект. Когда данные доступны — веса обновляются. Когда нет — система работает на значениях по умолчанию. |
| # | Корневая причина | Решение v5 |
|---|---|---|
| 1 | Оптимизация убивает креативность | QD-покрытие как цель (не балл). Ансамбль метрик для фильтрации, не оптимизации. |
| 2 | Каналы обратной связи подавляют исследование | Per-agent compass + информационные барьеры (B13). T5-GATE не подавляет — бинарный pass/fail. |
| 3 | Парадокс «не повторяй» | Фильтр DreamSim distance (калиброванная перцептуальная новизна, 96% согласие). |
| 4 | Отмывание сигнала через Snapshot | Изоляция провенанса (B3). |
| 5 | Тезис якорит палитру | Adversarial Proposer целенаправленно атакует палитровое смещение. |
| 6 | Нет фильтра разнообразия | Фильтр на основе DreamSim (B15). Детерминистический, калиброванный. |
| 7 | Накопление без забывания | FadeMem (B4) + per-agent memory (T3g) + stepping stones (B11). |
| 8 | LLM-скоринг = галлюцинация | T5-GATE: 4 калиброванных фильтра вместо числовых оценок (B14). |
Мультиагентная архитектура с разными моделями в разных ролях (ε/η/θ) обеспечит лучшее покрытие на доллар, чем любая одноагентная архитектура (α/β), и лучшее покрытие на доллар, чем параллельные одномодельные потоки (γ).
Система с T5-GATE (многосигнальный гейтинг) при идентичной архитектуре покажет более высокое устойчивое разнообразие (траектория DreamSim не падает) и меньше событий стагнации, чем система с числовым LLM-скорингом, поскольку: