As computational capabilities and neural network parameters scale exponentially, AI architectures have evolved from narrow pattern recognition systems to autonomous generative agents capable of multi-step planning, complex code synthesis, and high-quality multimedia content generation. However, at the intersection of increased autonomy and prolonged operation, the research community has encountered fundamental algorithmic barriers: anchoring (sycophancy) and premature convergence.
In traditional machine learning, convergence to an optimum is success. In open-ended autonomous systems and lifelong learning, premature convergence means the death of innovation and behavioral diversity.
The problem manifests at multiple levels of abstraction:
RLHF algorithmically optimizes models for median annotator preferences. Policy optimization algorithms (PPO, GRPO) compute gradients based on relative preferences, leading to absorption of superficial agreement patterns. In multi-agent environments, this is amplified: uncontrolled debates between intelligent agents can collapse into a single viewpoint with critically low entropy in just three communication iterations.
According to rational Bayesian updating, the expected value of a rational agent's future beliefs should equal its current beliefs — the direction of future opinion changes should not be predictable.
Analysis shows that most modern LLMs systematically violate the martingale property. The Martingale Score metric quantifies this: if a regression model can predict an agent's final output based on its initial state, this indicates severe anchoring. High Martingale Score strictly correlates with falling prediction accuracy (Brier Score).
Chain-of-Thought reasoning often amplifies anchoring, as the model uses intermediate steps to rationalize its a priori bias rather than genuinely deliberate.
For autonomous generative systems: if we can predict the visual characteristics of generation #50 from the first 10 generations with high accuracy — the system is stuck.
Data synthesized by generative models is republished without provenance metadata and included in training sets of next-generation models. This triggers a positive feedback loop: each subsequent generation trains on a dataset with exponentially narrowing variance.
Shumailov et al. (2023) formalized this as "model collapse": iterative training on own outputs amplifies preference bias, diversity collapses. Only effective strategy: dilution with external data in a ratio of 0.2–0.5.
"Don't repeat" must be a selection/rejection operator (gate) and/or repulsion in embedding space — NOT text in a prompt. The text instruction "be more diverse" is itself an anchor in the opposite direction.
In long-running autonomous systems, anchoring most often arises from ineffective context window management. Standard RAG leads to: information paralysis, catastrophic forgetting, and context isolation.
FadeMem implements differential active decay rates in a two-level hierarchy:
Where τi is the embedding timestamp, βi is the shape parameter, and Ii(t) is the global importance estimate depending on semantic relevance, access frequency, and novelty. Results: 45% data volume reduction with increased F1 score.
SYNAPSE conceptualizes memory as a directed dynamic graph G = (V, E) with episodic nodes (raw logs + dense embeddings), semantic nodes (abstracted rules), and three edge types:
Retrieval uses a triple hybrid: BM25 + semantic search for anchor nodes, Spreading Activation for energy propagation, and Lateral Inhibition to prevent Hub Explosion. Results: +23% multi-step inference, −95% token consumption.
| Feature | Traditional RAG | FadeMem | SYNAPSE | Museum/Compass |
|---|---|---|---|---|
| Structure | Flat vector space | Two-level hierarchy | Directed graph | Three types |
| Deletion | Passive (FIFO/LRU) | Active Ebbinghaus decay | Archive dormant nodes | Physical deletion by TTL |
| Connections | Cosine similarity | Via importance | Temporal + abstract + associative | From coverage gaps |
| Generation impact | Everything into prompt | Filtered by memory strength | Hybrid search + Spreading | Only 1 line in prompt |
| Anti-anchoring | Low | High (decay) | High (lateral inhibition) | Maximum (nothing enters prompt) |
The QD paradigm offers a fundamentally different optimization philosophy: the goal is not finding the best solution, but creating a comprehensive archive where each solution is a champion in its unique niche.
MAP-Elites discretizes the behavior space into a multidimensional grid (or CVT-Voronoi mosaics). Each new solution receives a behavioral descriptor (BD). Empty cell → unconditional preservation. Occupied → replacement only with higher fitness. This implements niche construction.
Novelty Search (Lehman & Stanley, 2011) is a radical approach: complete rejection of the fitness function. The sole selection criterion is behavioral novelty — distance to k-nearest neighbors in behavior space.
Instead of "generate beautifully and diversely" → "generate UNLIKE everything before, at minimum quality." This is a fundamentally different optimization task.
Determinantal Point Processes (Kulesza & Taskar, 2012) — a formal model for selecting diverse subsets from candidates. The DPP kernel jointly optimizes quality × diversity. Instead of greedy quality selection: generate K=4–8 candidates, select 2 via DPP. Guarantees: the gate doesn't "regenerate infinitely" but "always selects the most spread-out modes within a cycle."
Three stages: divergence characterization (learnable latent projection), alignment (contrastive learning matching human pairwise similarity judgments), and progressive optimization. Application to Stable Diffusion for Latent Space Illumination practically eliminates mode collapse.
A three-level topology for eliminating the "Yes-Man" problem:
Isolators with high entropy. Weighted voting based on trust.
Hiding part of context as a firewall against convergence.
Monitors Martingale Score, interrupts debates when belief entrenchment threshold is exceeded. Reduces communication overhead by 99.9%.
A modular sidecar component between agent and environment. Instead of probabilistic alignment through prompts — verification against a deterministic JSON constitution. Dynamic trust factor accounts for cumulative violations weighted by recency and severity. On violation: hard block + recursive replanning.
GaaS/Superego is implemented as a separate controller model. Not a "be more diverse" prompt in the generator, but a separate model that programmatically checks every result against a JSON diversity constitution (max_similarity, min_novelty, max_consecutive_same_niche). The Superego is not susceptible to the generator's bias — different model, different training data.
Multi-Agent Evolve adapts asymmetric learning rates from GANs for LLMs: three roles — Proposer (generates increasingly complex/atypical tasks), Solver (attempts to solve), Judge (arbitrates). The Proposer is motivated to "fool" the Solver → increasing complexity and divergence without manual annotation.
| Architecture | Problem | Mechanism | Gen-Emerge Applicability |
|---|---|---|---|
| HACN | Sycophancy, echo chambers | Multi-level clusters, Martingale Score | High — clusters of different models |
| GaaS (Superego) | Unsafe convergence | Sidecar proxy, JSON constitution | High — separate model as diversity controller |
| MAE Triplet | Stagnation | Proposer/Solver/Judge | High — three models, adversarial dynamics |
| Constitutional AI | RLHF anchoring | RLAIF (Critique → Revision) | Medium — self-critique principle |
POET co-evolves agents and environments simultaneously. Every M iterations — mutations of existing environment encodings. The Minimal Criterion (MC) ensures new environments are neither too trivial nor impossible — the zone of proximal development. Goal-switching every N iterations enables cross-testing — reproducing biological exaptation.
In gen-emerge, "environment" = set of artistic constraints + thesis interpretation + directives. Population of "world-constraints + local memory" pairs evolves. World dies if coverage_gain < θ for M cycles. This is architecture δ in our design.
Three phases: (1) remember visited states; (2) return to a promising one; (3) explore from there. For gen-emerge: state = (material, composition, palette) + visual embedding + constraints. "Return" = reproduce constraints giving access to a style region. "Explore" = mutate constraints prioritizing novelty. The archive as a skeleton-map, not a template for repetition. Formalizes the "museum ≠ compass" principle.
DGM agents continuously read, modify, and execute their own code. Instead of hill-climbing — a tree archive of past versions (gene pool). Critically important: preserving divergent branches — stepping stones — mutations without immediate fitness gain but necessary prerequisites for future breakthroughs.
The current system discards "unsuccessful" experiments. But an experiment with an unusual material that scored low may contain a procedural skill (a way of working with texture) that becomes a breakthrough 50 generations later in a different context. A tree archive of procedural skills (not results, but methods) is what's missing.
ICM (Pathak et al., 2017): novelty = prediction error in learned feature space. Schmidhuber compression progress: creativity = reward for improving compression/prediction ability. For gen-emerge: a world-model predicts CLIP-embedding from prompt. Intrinsic reward = prediction error ("the system surprised itself"). Directs exploration into unpredictable = unexplored territories.
CLIP-distance-based rejection: generate expanded batch, compute cosine distance, reject if similarity exceeds threshold. This is the "diversity gate" — artificial maintenance of generation entropy.
Check CLIP text-embedding of the proposed prompt against the prompt archive before image generation. If the prompt is semantically too close — mutate constraints before generation. Cheaper than post-hoc rejection (doesn't spend API call on an image that will be rejected).
| System | Approach | Diversity Mechanism | Transferable Principle |
|---|---|---|---|
| Botto | Multi-component pipeline, DAO voting | Volume (8000/week) + external selection | Exogenous fitness landscape |
| The Painting Fool | Pseudo-emotional internal state | Simulated "mood" = stochastic modifier | External data as constraint source + controlled instability |
| AICCA | LLM critic in robot body | Physical environment as collapse inhibitor | Changing environment prevents logical collapse |
Based on the synthesis of both studies, solutions form a hierarchy from fundamental to tactical:
From quality maximization → to QD-score and coverage maximization. From "repeat what worked" → to "do UNLIKE at minimum quality." From examples in prompt → to direction-only compass.
Diversity gate as deterministic sidecar (GaaS). Memory with active forgetting (FadeMem) or graph-based (SYNAPSE). Co-evolution of constraints + generation (POET). Stepping stones: preserving procedural skills, not just results (DGM).
Rejection sampling / DPP batch selection. Embedding repulsion at prompt level. Martingale Score as stagnation detector. Asymmetric Teacher/Generator/Critic coevolution (MAE).
QD-score, coverage, ANNECS. Martingale Score (trajectory predictability). Mean pairwise CLIP distance. Cost per coverage unit.
По мере экспоненциального роста вычислительных мощностей и параметров нейросетей AI-архитектуры эволюционировали от систем узкого распознавания паттернов к автономным генеративным агентам, способным к многоэтапному планированию, синтезу сложного кода и генерации мультимедийного контента высокого качества. Однако на пересечении возросшей автономии и продолжительной работы исследовательское сообщество столкнулось с фундаментальными алгоритмическими барьерами: залипанием (sycophancy) и преждевременной конвергенцией.
В традиционном ML конвергенция к оптимуму — это успех. В открытых автономных системах и lifelong learning преждевременная конвергенция означает смерть инновации и поведенческого разнообразия.
Проблема проявляется на нескольких уровнях абстракции:
RLHF алгоритмически оптимизирует модели под предпочтения медианного аннотатора. Алгоритмы оптимизации политики (PPO, GRPO) вычисляют градиенты на основе относительных предпочтений, приводя к поглощению поверхностных паттернов согласия. В мультиагентных средах это усиливается: неконтролируемые дебаты между интеллектуальными агентами способны коллапсировать в единую точку зрения с критически низкой энтропией всего за три итерации обмена.
Согласно рациональному байесовскому обновлению, ожидаемое значение будущих убеждений рационального агента должно равняться его текущим убеждениям — направление изменений мнения не должно быть предсказуемым.
Анализ показывает, что большинство современных LLM систематически нарушают мартингальное свойство. Метрика Martingale Score это количественно оценивает: если регрессионная модель может предсказать финальный вывод агента по его начальному состоянию — это свидетельствует о тяжёлом залипании. Высокий Martingale Score строго коррелирует с падением точности предсказаний (Brier Score).
Цепочка рассуждений (Chain-of-Thought) часто усиливает залипание, так как модель использует промежуточные шаги для рационализации своего априорного смещения, а не для подлинного размышления.
Для автономных генеративных систем: если мы можем предсказать визуальные характеристики генерации #50 по первым 10 генерациям с высокой точностью — система застряла.
Данные, синтезированные генеративными моделями, переиздаются без метаданных провенанса и включаются в обучающие датасеты следующего поколения моделей. Это запускает петлю положительной обратной связи: каждое последующее поколение обучается на датасете с экспоненциально сужающейся дисперсией.
Shumailov et al. (2023) формализовали это как «model collapse»: итеративное обучение на собственных выходах усиливает preference bias, разнообразие коллапсирует. Единственная эффективная стратегия: разбавление внешними данными в соотношении 0.2–0.5.
«Не повторяй» должно быть оператором отбора/отклонения (gate) и/или отталкиванием в пространстве эмбеддингов — НЕ текстом в промпте. Текстовая инструкция «будь разнообразнее» сама по себе является якорем в противоположном направлении.
В долгоживущих автономных системах залипание чаще всего возникает из-за неэффективного управления контекстным окном. Стандартный RAG приводит к: информационному параличу, катастрофическому забыванию и изоляции контекста.
FadeMem реализует дифференциальные скорости активного затухания в двухуровневой иерархии:
Где τi — временная метка эмбеддинга, βi — параметр формы, а Ii(t) — глобальная оценка важности, зависящая от семантической релевантности, частоты обращений и новизны. Результаты: 45% сокращение объёма данных с ростом F1-score.
SYNAPSE концептуализирует память как ориентированный динамический граф G = (V, E) с эпизодическими узлами (сырые логи + плотные эмбеддинги), семантическими узлами (абстрагированные правила) и тремя типами рёбер:
Поиск использует тройной гибрид: BM25 + семантический поиск для якорных узлов, Spreading Activation для распространения энергии и Lateral Inhibition для предотвращения Hub Explosion. Результаты: +23% многошаговых инференсов, −95% потребления токенов.
| Свойство | Традиционный RAG | FadeMem | SYNAPSE | Museum/Compass |
|---|---|---|---|---|
| Структура | Плоское векторное пр-во | Двухуровневая иерархия | Ориентированный граф | Три типа |
| Удаление | Пассивное (FIFO/LRU) | Активное затухание Эббингауза | Архивация неактивных узлов | Физическое удаление по TTL |
| Связи | Косинусное сходство | По важности | Temporal + Abstract + Associative | По пробелам покрытия |
| Влияние на генерацию | Всё в промпт | Фильтрация по силе памяти | Гибридный поиск + Spreading | Только 1 строка в промпте |
| Антизалипание | Низкое | Высокое (затухание) | Высокое (lateral inhibition) | Максимальное (ничего не входит в промпт) |
Парадигма QD предлагает принципиально иную философию оптимизации: цель — не поиск лучшего решения, а создание всеобъемлющего архива, где каждое решение является чемпионом в своей уникальной нише.
MAP-Elites дискретизирует пространство поведений в многомерную сетку (или мозаики CVT-Вороного). Каждое новое решение получает поведенческий дескриптор (BD). Пустая ячейка → безусловное сохранение. Занятая → замена только при более высоком fitness. Это реализует конструирование ниш.
Novelty Search (Lehman & Stanley, 2011) — радикальный подход: полный отказ от функции приспособленности. Единственный критерий отбора — поведенческая новизна, расстояние до k ближайших соседей в пространстве поведений.
Вместо «генерируй красиво и разнообразно» → «генерируй НЕПОХОЖЕ на всё предыдущее при минимальном качестве». Это принципиально иная оптимизационная задача.
Determinantal Point Processes (Kulesza & Taskar, 2012) — формальная модель отбора разнообразных подмножеств из кандидатов. Ядро DPP совместно оптимизирует качество × разнообразие. Вместо жадного отбора по качеству: генерируем K=4–8 кандидатов, выбираем 2 через DPP. Гарантии: шлюз не «перегенерирует бесконечно», а «всегда выбирает максимально разнесённые моды в пределах цикла».
Три этапа: характеризация дивергенции (обучаемая латентная проекция), выравнивание (контрастивное обучение, подгоняющее попарные суждения сходства от людей) и прогрессивная оптимизация. Применение к Stable Diffusion для Latent Space Illumination практически устраняет mode collapse.
Трёхуровневая топология для устранения проблемы «подпевалы»:
Изоляторы с высокой энтропией. Взвешенное голосование на основе доверия.
Сокрытие части контекста как файрвол против конвергенции.
Отслеживает Martingale Score, прерывает дебаты при превышении порога окостенения убеждений. Снижает коммуникационные издержки на 99.9%.
Модульный sidecar-компонент между агентом и средой. Вместо вероятностного выравнивания через промпты — верификация по детерминированной JSON-конституции. Динамический фактор доверия учитывает кумулятивные нарушения, взвешенные по давности и тяжести. При нарушении: жёсткая блокировка + рекурсивное переплан.
GaaS/Superego реализуется как отдельная модель-контроллер. Не промпт «будь разнообразнее» в генераторе, а отдельная модель, программно проверяющая каждый результат по JSON-конституции разнообразия (max_similarity, min_novelty, max_consecutive_same_niche). Суперэго не подвержено смещению генератора — другая модель, другие обучающие данные.
Multi-Agent Evolve адаптирует асимметричные скорости обучения из GAN для LLM: три роли — Proposer (генерирует всё более сложные/нетипичные задачи), Solver (пытается решить), Judge (арбитражит). Proposer мотивирован «обмануть» Solver → растущая сложность и дивергенция без ручной аннотации.
| Архитектура | Проблема | Механизм | Применимость к Gen-Emerge |
|---|---|---|---|
| HACN | Сикофантия, эхо-камеры | Многоуровневые кластеры, Martingale Score | Высокая — кластеры разных моделей |
| GaaS (Superego) | Небезопасная конвергенция | Sidecar-прокси, JSON-конституция | Высокая — отдельная модель как контроллер разнообразия |
| MAE Triplet | Стагнация | Proposer/Solver/Judge | Высокая — три модели, адверсариальная динамика |
| Constitutional AI | RLHF-залипание | RLAIF (Critique → Revision) | Средняя — принцип самокритики |
POET одновременно коэволюционирует агентов и среды. Каждые M итераций — мутации существующих кодировок среды. Минимальный критерий (MC) гарантирует, что новые среды не слишком тривиальны и не невозможны — зона ближайшего развития. Goal-switching каждые N итераций позволяет кросс-тестирование — воспроизведение биологической экзаптации.
В gen-emerge «среда» = набор художественных ограничений + интерпретация тезиса + директивы. Эволюционирует популяция пар «мир-ограничения + локальная память». Мир умирает, если coverage_gain < θ на протяжении M циклов. Это архитектура δ в нашем дизайне.
Три фазы: (1) запомнить посещённые состояния; (2) вернуться в перспективное; (3) исследовать оттуда. Для gen-emerge: состояние = (материал, композиция, палитра) + визуальный эмбеддинг + ограничения. «Вернуться» = воспроизвести ограничения, дающие доступ к стилевому региону. «Исследовать» = мутировать ограничения с приоритетом новизны. Архив как скелет-карта, а не шаблон для повторения. Формализует принцип «музей ≠ компас».
Агенты DGM непрерывно читают, модифицируют и исполняют собственный код. Вместо hill-climbing — древовидный архив прошлых версий (генофонд). Критически важно: сохранение дивергентных ветвей — stepping stones — мутаций без немедленного выигрыша в fitness, но являющихся необходимыми предпосылками для будущих прорывов.
Текущая система отбрасывает «неудачные» эксперименты. Но эксперимент с необычным материалом, получивший низкую оценку, может содержать процедурный навык (способ работы с текстурой), который станет прорывным через 50 поколений в другом контексте. Древовидный архив процедурных навыков (не результатов, а методов) — то, чего не хватает.
ICM (Pathak et al., 2017): новизна = ошибка предсказания в обученном пространстве признаков. Шмидхубер compression progress: креативность = награда за улучшение способности сжатия/предсказания. Для gen-emerge: world-модель предсказывает CLIP-эмбеддинг по промпту. Внутренняя награда = ошибка предсказания («система удивила саму себя»). Направляет исследование в непредсказуемые = неисследованные территории.
Отклонение на основе CLIP-расстояния: генерируем расширенную партию, вычисляем косинусное расстояние, отклоняем при превышении порога сходства. Это «шлюз разнообразия» — искусственное поддержание энтропии генерации.
Проверяем CLIP text-embedding предложенного промпта по архиву промптов перед генерацией изображения. Если промпт семантически слишком близок — мутируем ограничения до генерации. Дешевле, чем постфактум-отклонение (не тратим API-вызов на изображение, которое будет отвергнуто).
| Система | Подход | Механизм разнообразия | Переносимый принцип |
|---|---|---|---|
| Botto | Многокомпонентный пайплайн, голосование DAO | Объём (8000/нед.) + внешний отбор | Экзогенный ландшафт приспособленности |
| The Painting Fool | Псевдоэмоциональное внутреннее состояние | Симулированное «настроение» = стохастический модификатор | Внешние данные как источник ограничений + управляемая нестабильность |
| AICCA | LLM-критик в теле робота | Физическая среда как ингибитор коллапса | Меняющаяся среда предотвращает логический коллапс |
На основе синтеза обоих исследований решения образуют иерархию от фундаментальных к тактическим:
От максимизации качества → к QD-score и максимизации покрытия. От «повторяй что работало» → к «делай НЕПОХОЖЕ при минимальном качестве». От примеров в промпте → к компасу только-направления.
Шлюз разнообразия как детерминированный sidecar (GaaS). Память с активным забыванием (FadeMem) или графовая (SYNAPSE). Коэволюция ограничений + генерации (POET). Stepping stones: сохранение процедурных навыков, не только результатов (DGM).
Rejection sampling / DPP-пакетный отбор. Embedding repulsion на уровне промпта. Martingale Score как детектор стагнации. Асимметричная коэволюция Teacher/Generator/Critic (MAE).
QD-score, покрытие, ANNECS. Martingale Score (предсказуемость траектории). Средняя попарная CLIP-дистанция. Стоимость на единицу покрытия.