The Convergence Problem — Gen-Emerge Research

What is Gen-Emerge

Что такое Gen-Emerge

Gen-emerge is an autonomous generative system for creating series of digital art. The system works cyclically: it reads the external world (news, events, context), interprets a given artistic thesis, forms a visual ontology, generates an image through LLM + image model, evaluates the result, reflects, corrects course — and repeats. Cycle after cycle, series after series.

Gen-emerge — автономная генеративная система для создания серий цифрового искусства. Система работает циклически: считывает внешний мир (новости, события, контекст), интерпретирует заданный художественный тезис, формирует визуальную онтологию, генерирует изображение через LLM + модель изображений, оценивает результат, рефлексирует, корректирует курс — и повторяет. Цикл за циклом, серия за серией.

Design Goal

Цель проектирования

Not a single good image, but a continuous flow of visually and conceptually diverse art, evolving over time.

Не одна хорошая картинка, а непрерывный поток визуально и концептуально разнообразного искусства, эволюционирующего со временем.

Fig. 1. Gen-Emerge Pipeline Architecture

Рис. 1. Архитектура пайплайна Gen-Emerge

What Happened

Что произошло

After ~2000+ generations, the system collapsed into a local optimum. Images became predictably "beautiful" and predictably identical: similar palettes, similar compositions, similar materials. The system found "what works" and stopped searching.

После 2000+ поколений система коллапсировала в локальный оптимум. Изображения стали предсказуемо «красивыми» и предсказуемо одинаковыми: похожие палитры, похожие композиции, похожие материалы. Система нашла «то, что работает» — и перестала искать.

Core Problem

Суть проблемы

This is not a bug of a specific implementation. This is a fundamental property of optimization systems, built into the paradigm itself.

Это не баг конкретной реализации. Это фундаментальное свойство оптимизационных систем, вшитое в саму парадигму.

2000+Generations before plateau

8Feedback channels reinforcing convergence

7Root causes identified

13Proposed solutions

2000+Поколений до плато

8Каналов обратной связи, усиливающих конвергенцию

7Корневых причин выявлено

13Предложенных решений

Seven Root Causes

Семь корневых причин

Optimization kills creativity

The system optimizes score → converges to what maximizes score. But "best" and "diverse" are conflicting objectives. Without an explicit diversity mechanism, the system always chooses exploitation over exploration.

8 feedback channels suppress exploration

Prompt Result Journal, Visual Memory, Rule Supplements, Breakthrough Styles, Score History — all tell the LLM "here's what worked before." For an LLM, this is an anchor. Each channel reinforces the tendency; all 8 together form an impenetrable wall of convergence.

The "DO NOT REPEAT" paradox

Text instruction "don't repeat previous works" doesn't work. Research confirms: anchoring bias is systemic across all LLMs. Show an example + say "don't do this" = show an example. LLMs anchor on content, not instruction.

Signal laundering through Snapshot

Snapshot Builder collects external data but has access to the previous cycle's Creative Intent. External data is "laundered" through the lens of the established style. Provenance is violated — the system thinks it's getting fresh input, but receives a reflection of its own preferences.

Thesis anchors palette

The artistic thesis (e.g., "fragility of digital memory") is interpreted stereotypically by the LLM: certain colors, materials, moods. The thesis is set once per series → the entire series collapses to one interpretation.

No diversity gate

The system has no mechanism for rejecting results too similar to previous ones. Any result that receives an acceptable score is accepted. No "diversity airlock."

Accumulation without forgetting

Memory grows monotonically. Rules accumulate, breakthrough styles accumulate, examples accumulate. Old entries are never deleted or weakened. The LLM context gets denser with the past → less room for the new.

Оптимизация убивает креативность

Система оптимизирует оценку → сходится к тому, что максимизирует оценку. Но «лучшее» и «разнообразное» — конфликтующие цели. Без явного механизма разнообразия система всегда выбирает эксплуатацию вместо исследования.

8 каналов обратной связи подавляют исследование

Prompt Result Journal, Visual Memory, Rule Supplements, Breakthrough Styles, Score History — все говорят LLM «вот что раньше работало». Для LLM это якорь. Каждый канал усиливает тенденцию; все 8 вместе образуют непроницаемую стену конвергенции.

Парадокс «НЕ ПОВТОРЯЙ»

Текстовая инструкция «не повторяй предыдущие работы» не работает. Исследования подтверждают: anchoring bias системен для всех LLM. Показать пример + сказать «не делай так» = показать пример. LLM якорятся на контент, не на инструкцию.

Отмывание сигнала через Snapshot

Snapshot Builder собирает внешние данные, но имеет доступ к Creative Intent предыдущего цикла. Внешние данные «отмываются» через призму устоявшегося стиля. Провенанс нарушен — система думает, что получает свежий вход, а получает отражение собственных предпочтений.

Тезис якорит палитру

Художественный тезис (напр., «хрупкость цифровой памяти») интерпретируется LLM стереотипно: определённые цвета, материалы, настроения. Тезис задаётся один раз на серию → вся серия схлопывается в одну интерпретацию.

Нет шлюза разнообразия

У системы нет механизма отклонения результатов, слишком похожих на предыдущие. Любой результат, получивший приемлемую оценку, принимается. Нет «шлюза разнообразия».

Накопление без забывания

Память растёт монотонно. Правила накапливаются, прорывные стили накапливаются, примеры накапливаются. Старые записи никогда не удаляются и не ослабляются. Контекст LLM уплотняется прошлым → меньше места для нового.

Scientific Context

Научный контекст

The gen-emerge convergence problem is a specific case of three fundamental scientific problems:

Проблема конвергенции gen-emerge — частный случай трёх фундаментальных научных проблем:

Three Scientific Analogues

Additionally: anchoring bias in LLMs (experimentally confirmed in 2024-2025), the RLHF trap (optimization for median annotator preferences suppresses divergence), and information laundering (generative model outputs are "laundered" and return to training).

Дополнительно: anchoring bias в LLM (экспериментально подтверждён в 2024–2025), RLHF-ловушка (оптимизация под медианного аннотатора подавляет дивергенцию) и отмывание информации (выходы генеративных моделей «отмываются» и возвращаются в обучение).

The Paradigm Shift

Парадигмальный сдвиг

From Quality to Quality-Diversity

От Quality к Quality-Diversity

From "optimize quality" → to "maximize coverage of the space at a minimum quality threshold."

От «оптимизировать качество» → к «максимизировать покрытие пространства при минимальном пороге качества».

High score no longer means "do more like this." High score means "this is an achievement, remember it in the Museum, explore something DIFFERENT." Inversion of success semantics.

Высокая оценка больше не означает «делай ещё так же». Высокая оценка означает «это достижение, запомни в Музее, исследуй что-то ДРУГОЕ». Инверсия семантики успеха.

Architectural Approach: Three Layers

Архитектурный подход: три уровня

Architecture

System topology: modules, connections, feedback loops, data flows. The "form."

Techniques

Specific algorithms filling the modules. The "content," combinable with different architectures.

Human-in-the-Loop

Asynchronous course correction that never blocks the system.

Архитектура

Топология системы: модули, связи, петли обратной связи, потоки данных. «Форма».

Техники

Конкретные алгоритмы, наполняющие модули. «Содержание», комбинируемое с разными архитектурами.

Human-in-the-Loop

Асинхронная коррекция курса, никогда не блокирующая систему.

Multi-Agency as the Key Advantage

Мультиагентность как ключевое преимущество

With access to the full spectrum of LLMs, multi-agent architectures become a fundamental strategy. Convergence of a single model is a fundamental property (anchoring bias, RLHF trap). Fighting it through gates and constraints is mitigation. Using different models with different biases is eliminating the cause.

Имея доступ ко всему спектру LLM, мультиагентные архитектуры становятся фундаментальной стратегией. Конвергенция одной модели — фундаментальное свойство (anchoring bias, RLHF-ловушка). Бороться с ней гейтами и ограничениями — это митигация. Использовать разные модели с разными смещениями — это устранение причины.

Three Decorrelating Mechanisms

13 Architecture-Invariant Solutions

13 архитектурно-инвариантных решений

#	Solution	Addresses Root Cause
B1	Score semantics: museum + taboo pressure	#1, #6
B2	Compass-only in LLM context (1 line direction, no examples)	#2, #3
B3	Provenance: Snapshot isolated from creative state	#4
B4	FadeMem aging for all memory entities (Ebbinghaus curve)	#7
B5	Museum / Map separation (achievement archive ≠ working memory)	#2, #3
B6	QD-score and coverage as primary metrics	#1
B7	Dual fingerprint (palette + semantic embedding)	#5, #6
B8	Human async, never blocking	—
B9	Martingale Score as stagnation detector	#1, #2
B10	Diversity gate as deterministic sidecar (not a prompt)	#3, #6
B11	Stepping stones archive (procedural skills stored even at low score)	#1
B12	Role-model separation (different models for different roles)	#2, #3
B13	Information barriers (agents don't see each other's reasoning)	#2

#	Решение	Корневая причина
B1	Семантика оценки: музей + табу-давление	#1, #6
B2	Только компас в контексте LLM (1 строка направления, без примеров)	#2, #3
B3	Провенанс: Snapshot изолирован от креативного состояния	#4
B4	FadeMem-старение для всех сущностей памяти (кривая Эббингауза)	#7
B5	Разделение Музей / Карта (архив достижений ≠ рабочая память)	#2, #3
B6	QD-score и покрытие как основные метрики	#1
B7	Двойной отпечаток (палитра + семантический эмбеддинг)	#5, #6
B8	Human async, никогда не блокирует	—
B9	Мартингальная оценка как детектор стагнации	#1, #2
B10	Шлюз разнообразия как детерминированный sidecar (не промпт)	#3, #6
B11	Архив stepping stones (процедурные навыки сохраняются даже при низкой оценке)	#1
B12	Разделение роль-модель (разные модели для разных ролей)	#2, #3
B13	Информационные барьеры (агенты не видят рассуждений друг друга)	#2

Seven Architectural Variants

Семь архитектурных вариантов

Architecture	Concept	Diversity Source	Cost
α Linear+Gate	Single stream, single model, hard gate	Post-hoc rejection	~1.5×
β Batch+DPP	Single stream, K candidates, DPP selection	Post-hoc selection	~K×
γ Islands	N parallel streams with different constraints	Structural isolation	~N×
δ POET Coevolution	Co-evolution of worlds (constraint environments) and generation	Emergent	~N×
ε MAE Triplet	Three different models: Proposer / Generator / Judge	Adversarial + role separation	~3×
η Multi-Gen Ensemble	N different models generate from same constraints	Natural model bias divergence	~N×
θ HACN Clusters	Clusters of different models, partial sharing, Superego	Architecture + adversarial + isolation	~(N×M+2)×

Архитектура	Концепция	Источник разнообразия	Стоимость
α Linear+Gate	Один поток, одна модель, жёсткий шлюз	Пост-фактум отклонение	~1.5×
β Batch+DPP	Один поток, K кандидатов, DPP-отбор	Пост-фактум отбор	~K×
γ Islands	N параллельных потоков с разными ограничениями	Структурная изоляция	~N×
δ POET Coevolution	Коэволюция миров (среды ограничений) и генерации	Эмерджентная	~N×
ε MAE Triplet	Три разные модели: Proposer / Generator / Judge	Адверсариальная + разделение ролей	~3×
η Multi-Gen Ensemble	N разных моделей генерируют из одних ограничений	Естественная дивергенция смещений моделей	~N×
θ HACN Clusters	Кластеры разных моделей, частичный обмен, Superego	Архитектура + адверсариальная + изоляция	~(N×M+2)×

Experimental Program (~10 weeks)

Экспериментальная программа (~10 недель)

Phase 0

Base Solutions B1–B18 + T5-GATE

Implement all base solutions + T5-GATE automated evaluation pipeline. Foundation for all experiments.

1 week

Phase 1

Architectural Tournament

Single-agent vs multi-agent, islands vs MAE vs HACN. Key metric: coverage per dollar.

3 weeks · 200 cycles per branch

Phase 2

Configuration Tuning

Constraints, diversity mechanisms, memory architecture, descriptor space — on the winning architecture.

3 weeks

Phase 3

Exploration Driver + Outer Loop

Curiosity, coverage, multi-agent exploration. Extended 300-cycle runs. Final architecture → ARCHITECTURE_V3.

3 weeks

Фаза 0

Базовые решения B1–B18 + T5-GATE

Реализация всех базовых решений + конвейер автоматической оценки T5-GATE. Фундамент для всех экспериментов.

1 неделя

Фаза 1

Архитектурный турнир

Одноагентные vs мультиагентные, islands vs MAE vs HACN. Ключевая метрика: покрытие на доллар.

3 недели · 200 циклов на ветку

Фаза 2

Настройка конфигурации

Ограничения, механизмы разнообразия, архитектура памяти, пространство дескрипторов — на победившей архитектуре.

3 недели

Фаза 3

Exploration Driver + внешний цикл

Curiosity, покрытие, мультиагентное исследование. Расширенные прогоны на 300 циклов. Финальная архитектура → ARCHITECTURE_V3.

3 недели

Central Hypothesis

Центральная гипотеза

H₁ — Primary Hypothesis

H₁ — Основная гипотеза

It is hypothesized that a heterogeneous multi-agent architecture — in which distinct generative models are assigned specialized roles within a shared pipeline — will produce a statistically broader distribution of visual and conceptual outputs than any single-model architecture of equivalent computational cost.

Выдвигается гипотеза о том, что гетерогенная мультиагентная архитектура — в которой различным генеративным моделям отводятся специализированные роли в рамках единого пайплайна — будет порождать статистически более широкое распределение визуальных и концептуальных результатов, чем любая одномодельная архитектура эквивалентной вычислительной стоимости.

H₂ — Mechanism

H₂ — Механизм

The convergence observed in single-model systems is attributable to the inherent structure of large language models: each model's latent space encodes a characteristic distribution of aesthetic preferences, compositional biases, and stylistic attractors. This convergence is not a deficiency to be corrected but an intrinsic property of the architecture. Accordingly, the proposed approach is not to counteract convergence within a single model but to exploit the divergence between models by orchestrating multiple heterogeneous agents.

Конвергенция, наблюдаемая в одномодельных системах, обусловлена внутренней структурой больших языковых моделей: латентное пространство каждой модели кодирует характерное распределение эстетических предпочтений, композиционных смещений и стилистических аттракторов. Данная конвергенция является не дефектом, подлежащим исправлению, а неотъемлемым свойством архитектуры. Соответственно, предлагаемый подход состоит не в противодействии конвергенции внутри одной модели, а в использовании дивергенции между моделями посредством оркестрации множества гетерогенных агентов.

Operationalization

Операционализация

Coverage is defined as the volume of the convex hull in a standardized embedding space (CLIP ViT-L/14) occupied by a generation series. Cost-normalized coverage (coverage per unit of API expenditure) serves as the primary comparative metric.

Покрытие определяется как объём выпуклой оболочки в стандартизированном пространстве эмбеддингов (CLIP ViT-L/14), занимаемой серией генераций. Стоимостно-нормализованное покрытие (покрытие на единицу расхода API) выступает в качестве основной сравнительной метрики.

Project Documents

Документы проекта

This brief is part of a three-document research package:

Этот бриф — часть пакета из трёх исследовательских документов: