Research / Article 09Статья 09
Subproject Подпроект

Perceptual Calibration Service

Сервис перцептуальной калибровки

Human-Grounded Validation of Automated Aesthetic Metrics for Generative Art

Валидация автоматических эстетических метрик через восприятие человека

February 2026
Февраль 2026
20 min read
20 мин чтения

1. Motivation: The Goodhart Problem in Generative Art

The core gen-emerge pipeline relies on automated metrics — NIMA aesthetic scoring, CLIP text-image alignment, DreamSim perceptual distance, and VLM structured checklists — as proxy measures for artistic quality. None of these metrics, however, directly captures what is ultimately at stake: whether an image evokes a genuine perceptual response in a human observer.

Without empirical calibration against human perception, the system is susceptible to Goodhart's Law: over N cycles, the metrics are expected to begin rewarding outputs that pass automated gates while failing to produce any meaningful aesthetic experience. Reward hacking is considered a guaranteed outcome of any uncalibrated evaluation pipeline.

Core Design Principle

Calibration is treated as a separate, asynchronous process that never blocks the main pipeline. The system operates on default or latest-available calibration weights. When new calibration data becomes available, weights are updated — analogous to a software patch applied to a running system.

2. Two Separable Questions

Question 1 (Main Pipeline)
How can the system autonomously generate and select images without continuous human participation? — Addressed by the ensemble of automated metrics operating in a fully automated pipeline.
Question 2 (This Subproject)
How can it be determined whether the automated metrics correlate with what humans actually perceive? — Addressed by a reference panel, statistically significant sampling, structured annotation, and a calibrated preference model that updates metric weights.

3. Interaction Design: Pairwise Comparison Protocol

The service presents participants with a web-based interface. Two images are displayed side-by-side, and the participant responds to a structured protocol:

ItemQuestionResponse FormatFrequency
AWhich of the two evokes a stronger sensation?Click left / rightEvery pair
BWhat kind of sensation?Select from taxonomy + free textOptional
CAre these two images visually similar?4-point scaleEvery 10th pair

Question B draws from a curated sensation taxonomy: anxiety/unease, calm/meditativeness, curiosity/intrigue, detachment/coldness, awe/admiration, discomfort/uncanny, nostalgia/longing, energy/tension.

Question C is designed to calibrate DreamSim — determining whether the model's perceptual distance scores align with human-perceived similarity.

3.1 Why Pairwise Comparison

The pairwise design is grounded in a fundamental result from psychometrics (Thurstone, 1927; Bradley & Terry, 1952): humans produce more reliable judgments when comparing two objects than when rating a single object on an absolute scale.

Absolute scoring (1–10)
ICC ~0.40 in crowdsourcing, ~0.70 in laboratory settings. Different individuals use different portions of the scale. Reliability is low.
Pairwise comparison
Inter-rater agreement reaches 85%+. Scale bias is eliminated. The approach is robust across participant demographics.

A global ranking is reconstructed from pairwise data through a Bradley-Terry model: P(A > B) = σ(βA − βB), where β values are latent quality parameters estimated via MLE. This is the same mathematical framework underlying the Elo rating system, Chatbot Arena, and reward model training.

3.2 Strategic Pair Formation

Each session comprises 15–20 pairs (3–5 minutes). Pairs are formed strategically across four categories:

CategoryPurposeExample
CalibrationAssess agreement between automated rankings and human preferenceNIMA-high vs. NIMA-low images
DiagnosticResolve disagreements between metricsNIMA says A > B, DreamSim says B > A
ExplorationDiscover metric blind spotsRandom pairs from the pool
Attention checkVerify participant consistencyPreviously shown pair, reversed

Participants with consistency below 70% on attention checks are excluded from analysis.

4. Reference Panel Design

The evaluation panel is not assembled through random crowdsourcing. Participants are recruited for confirmed visual literacy:

4.1 Panel Size and Statistical Power

Minimum: 20 participants. The Bradley-Terry model converges at approximately 10–15 comparisons per item. With a 20-person panel × 15 pairs per session = 300 pairwise judgments per session, yielding ~6 comparisons per image for a pool of 50 images — sufficient for a stable ranking after 2–3 sessions.

Optimum: 25–30 participants — providing buffer for expected attrition (20–30%) and more robust parameter estimates.

4.2 Diversity Requirements

Panel diversity is pursued not for "objectivity" (which does not exist for aesthetic judgment) but for signal robustness: if a pairwise preference is stable across a diverse group, it reflects something deeper than any individual's taste.

5. Outputs: The Calibrated Preference Model

SYSTEM INTEGRATION ARCHITECTURE Gen-Emerge Pipeline T5-GATE: NIMA + CLIP + DreamSim + VLM Gate Weights & Thresholds Images Metric Scores calibration.json Updated weights, thresholds, correlations Perceptual Calibration Service Pairwise Comparison Interface Sensation Annotation Similarity Judgment (DreamSim) Bradley-TerryModel ThresholdOptimization Reference Panel: 20–30 visually literate evaluators images calibration JSON Continuous generation Monthly calibration waves Pipeline never waits for calibration — runs on defaults or latest available weights

The service produces five deliverable outputs:

5.1 Preference Ranking

A Bradley-Terry model fitted to pairwise data yields β-parameters for each image, producing a global ranking. This ranking formalizes the panel's collective "taste function" — what evokes a stronger sensation according to 20–30 visually literate individuals.

5.2 Metric–Human Correlations

For each automated metric, a correlation with human preference rankings is computed:

correlation(NIMA_score, human_β) = ?
correlation(CLIP_score, human_β) = ?
correlation(DreamSim_novelty, human_β) = ?
correlation(VLM_checklist_score, human_β) = ?

If, for example, NIMA ↔ human = 0.15 while DreamSim ↔ human = 0.55, this constitutes evidence for reducing NIMA weight and increasing DreamSim weight in the gating pipeline.

5.3 Optimal Gate Thresholds

For each gate, the threshold that maximizes F1 score for predicting human panel acceptance is computed. Current thresholds (NIMA > 4.5, CLIP > 0.25, DreamSim > adaptive) are educated guesses; calibration provides evidence-based replacements.

5.4 Sensation Taxonomy

From Question B data: which sensations are most frequently evoked by accepted images? Is there cluster structure (e.g., "anxiety" + "uncanny" = one cluster, "calm" + "nostalgia" = another)? Which sensations correlate with high DreamSim novelty?

5.5 DreamSim Calibration

From Question C data: a regression mapping DreamSim distance to perceived similarity. If DreamSim distance 0.3 is perceived as "identical" while 0.5 is perceived as "different," the diversity threshold must be adjusted from >0.15 to >0.5.

6. Calibration Data Format

The service produces a structured JSON file, updated after each annotation wave:

{
  "version": "2026-Q2",
  "panel_size": 24,
  "sessions_completed": 3,
  "total_pairwise_judgments": 1080,

  "metric_weights": {
    "nima": 0.10,  "clip": 0.20,
    "dreamsim": 0.45,  "vlm_checklist": 0.25
  },
  "gate_thresholds": {
    "nima_min": 4.8,  "clip_min": 0.22,
    "dreamsim_novelty_min": 0.38,  "vlm_max_flags": 2
  },
  "sensation_clusters": {
    "cluster_1": ["anxiety","uncanny","discomfort"],
    "cluster_2": ["calm","nostalgia","meditation"],
    "cluster_3": ["curiosity","awe","energy"]
  }
}

The pipeline ingests this file at the start of each new experimental series.

7. Calibration Frequency

One annotation wave = one session for all panel participants (~300 pairwise judgments). The recommended cadence is one wave per month. Between waves, the system is expected to generate 200–600 new images (depending on the experimental phase). Each wave includes both fresh images and repeats for tracking temporal consistency.

Foundational Phase (Waves 1–3)
Biweekly cadence. Establishes baseline: initial metric weights, thresholds, sensation taxonomy.
Maintenance Phase
Monthly cadence. Monitors stability of correlations and detects metric drift (alarm if correlation drops > 0.1 between waves).

8. Technical Architecture

TECHNICAL COMPONENTS Web Frontend Side-by-side images Sensation selector Similarity slider Progress bar React / Next.js Backend / API Pair selection engine User management Bradley-Terry solver Calibration computation Python (FastAPI) + choix Admin Dashboard Panel management Session monitoring Calibration history JSON export React + charts Image Integration Batch ingestion API Metric metadata store Smart pair selection S3 image storage PostgreSQL + S3 Data Flow gen-emerge images + scores → Image Integration → Pair Selection Engine → Web Frontend Human judgments → Backend → Bradley-Terry → Metric correlations → calibration.json calibration.json → gen-emerge pipeline (async update, never blocks generation)

9. Independent Scientific Value

The service addresses a gap in the generative art evaluation landscape. Existing resources are reviewed below:

ResourceDesignEvaluatorsDomainOngoing?
AVA datasetAbsolute scoringCrowdsourcedPhotographyNo
LAION AestheticsAutomated labelsNone (CLIP predictor)AI artNo
Chatbot Arena / GenAI-BenchPairwiseRandom crowdworkersModel comparisonYes
Pick-a-PicPairwiseCrowdsourcedT2I model outputsNo
This servicePairwiseCurated reference panelGenerative artYes (monthly)

No existing dataset combines: (1) pairwise comparison design, (2) curated reference panel, (3) sensation/emotion annotation, (4) generative art focus, and (5) ongoing calibration. The service is positioned to produce the first such resource.

9.1 Potential Outputs

10. Roadmap

PhaseDurationObjectives
Phase 1: MVP4–6 weeksWeb application + Bradley-Terry solver. Pilot with 10–15 participants (personal network). 2 pilot sessions. Validation: attention check > 80%, inter-rater agreement > 75%.
Phase 2: Full Panel6–10 weeksPanel expansion to 20–30 participants. 3 foundational waves (biweekly). First calibration JSON for pipeline. Admin dashboard.
Phase 3: MaintenanceOngoingMonthly waves. Automatic calibration data transfer. Temporal stability monitoring. Open dataset publication.
Phase 4: Public PlatformOptionalOpen-source release. Documentation and API for external calibration requests.

11. Risk Assessment

RiskProbabilityMitigation
Low panel recruitmentMediumBegin with personal network; compensation ($20–30/session); expand via word-of-mouth
High attrition after initial sessionsHighShort sessions (5 min); compensation; share results/feedback with panelists
Low inter-rater agreementLow (pairwise)Attention checks; outlier exclusion; pairwise design inherently mitigates
Metrics do not correlate with human perceptionMediumThis is a discovery, not a failure — panel data would then guide search for better metrics
Panel bias (homogeneous group)MediumConscious diversity in recruitment; cluster structure monitoring

12. Budget Estimate

Development
5–7 weeks (1 developer): web application (3–4 weeks), backend + Bradley-Terry (1–2 weeks), admin dashboard (1 week)
Panel Compensation
$20–30/session × 25 panelists × 12 sessions/year = $6,000–9,000/year
Infrastructure
Hosting $50–100/month + image storage $10–50/month
Annual Total
~$8,000–12,000 + developer time

References

  1. Cohen, H. "Mind, Machine, and Creativity: An Artist's Perspective." Leonardo, 2014. PMC4265294
  2. Stanley, K.O. "Picbreeder: A Case Study in Collaborative Evolutionary Exploration of Design Space." Evolutionary Computation, 19(3), 2011. MIT Press
  3. Elgammal, A. et al. "CAN: Creative Adversarial Networks, Generating Art by Learning About Styles and Deviating from Style Norms." 2017. arXiv:1706.07068
  4. Colton, S. "The Painting Fool: Stories from Building an Automated Painter." In Proc. ICCC 2015. ICCC 2015
  5. Colton, S. "The Painting Fool: Stories from Building an Automated Painter." In Proc. ICCC 2011. ICCC 2011
  6. Kogan, G. "Artist in the Cloud: Towards the Summit of Visual Creativity." NeurIPS 2019 Workshop on Machine Learning for Creativity and Design. PDF
  7. Caselles-Dupré, H. et al. "OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models." 2024. arXiv:2411.10501
  8. Klingemann, M. et al. "Botto: A Decentralized Autonomous Artist." NeurIPS ML4CD Workshop, 2022. PDF
  9. Ding, L. et al. "Quality Diversity through Human Feedback." 2023. arXiv:2310.12103
  10. Fontaine, M.C. & Nikolaidis, S. "Differentiable Quality Diversity." 2021. arXiv:2106.03894
  11. Chakrabarty, T. et al. "CollabStory: Multi-LLM Collaborative Story Generation and Authorship Analysis." 2024. arXiv:2406.12665
  12. Zhou, Y. et al. "StoryWriter: A Multi-Agent Framework for Long Story Generation." 2025. arXiv:2506.16445
  13. Lu, C. et al. "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery." 2024. arXiv:2408.06292
  14. Yamada, Y. et al. "The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search." 2025. arXiv:2504.08066
  15. Zhang, J. et al. "Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents." 2025. arXiv:2505.22954
  16. Wang, R. et al. "Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions." 2019. arXiv:1901.01753
  17. Wang, R. et al. "Enhanced POET: Open-Ended Reinforcement Learning through Unbounded Invention of Learning Challenges and their Solutions." 2020. arXiv:2003.08536
  18. Zhang, J. et al. "OMNI: Open-endedness via Models of human Notions of Interestingness." ICLR 2024. arXiv:2306.01711
  19. Faldor, M. et al. "Toward Artificial Open-Ended Evolution within Lenia using Quality-Diversity." 2024. arXiv:2406.04235
  20. Chan, B.W.-C. "Lenia — Biology of Artificial Life." Complex Systems, 2020. arXiv:1812.05433
  21. Draves, S. "The Electric Sheep Screen-Saver: A Case Study in Aesthetic Evolution." EvoMUSART 2005. scottdraves.com
  22. Berlyne, D.E. Aesthetics and Psychobiology. Appleton-Century-Crofts, 1971.
  23. Schmidhuber, J. "Gödel Machines: Fully Self-Referential Optimal Universal Self-improvers." 2003. arXiv:cs/0309048
  24. Sims, K. "Artificial Evolution for Computer Graphics." SIGGRAPH, 1991. karlsims.com
  25. Stanley, K.O. & Lehman, J. Why Greatness Cannot Be Planned: The Myth of the Objective. Springer, 2015.

Project Websites

AARON · Karl Sims · Electric Sheep · Picbreeder · AICAN · The Painting Fool · Abraham · Eden.art · Artbreeder · Obvious · Botto · Botto Studio · CloudPainter · Sougwen Chung · Holly+ · AIVA · Sakana AI · Refik Anadol · DATALAND · Mario Klingemann · QD Papers Collection · Lenia

1. Методология отбора и таксономия

Исходный обзор (февраль 2026) анализировал 10 знаковых проектов в области автономного генеративного искусства. Расширенная редакция расширяет охват за пределы визуального искусства, покрывая все домены автономных креативных систем — музыку, литературу, геймдизайн, научные открытия — и вводит новую аналитическую рамку: Спектр автономности.

Из приблизительно 50 выявленных проектов и экспериментов отобраны 22 по шести критериям: (1) автономность — серийная генерация без ручного запуска; (2) обратная связь — механизм, влияющий на последующие поколения; (3) непрерывная эволюция — работа во времени с накоплением истории; (4) проблема разнообразия — столкновение с конвергенцией; (5) масштаб — результаты за пределами прототипа; (6) кросс-доменная релевантность — уроки, переносимые на gen-emerge.

Проекты организованы в пять категорий:

КатегорияПроектыКлючевой вопрос
A. Автономное визуальное искусствоAARON, Sims, Electric Sheep, Picbreeder, CAN, Painting Fool, Abraham/Eden, Artbreeder, Botto, LSI+QDHF, ObviousКак система генерирует искусство без запуска человеком каждой работы?
B. Человеко-AI коллаборативное искусствоCloudPainter, Sougwen Chung / D.O.U.G., Holly Herndon / Holly+Чем сотворчество человеческого тела и AI отличается от чистой автономии?
C. Кросс-доменные креативные AIAIVA (музыка), мультиагентные нарративные системы (литература)Переносятся ли паттерны автономного творчества между медиа?
D. Самосовершенствующиеся AI-системыSakana AI Scientist, Darwin Gödel Machine, POET/OMNIМожет ли AI улучшать сам себя — и что это означает для искусства?
E. Индивидуальные AI-художникиRefik Anadol / LNM, Mario KlingemannКак художники-технологи масштабируют своё видение через AI?

A. Автономные системы визуального искусства

Системы, генерирующие визуальное искусство с минимальным или нулевым участием человека в каждой работе. Основная линия предков gen-emerge.

2. Эра до глубокого обучения

2.1 AARON (Гарольд Коэн, 1973–2016)

Автономный Экспертная система 43 года работы

AARON признаётся первой долгоживущей автономной арт-системой. Разработанная художником Гарольдом Коэном как экспертная система на C/Lisp на протяжении 43 лет, она автономно генерировала рисунки и картины с использованием кодифицированных знаний о композиции, перспективе и анатомии. Решения о композиции, цвете и размещении принимались через внутренние правила со стохастическими элементами; вывод осуществлялся через физические плоттеры и специализированные рисующие машины.

Система прошла приблизительно 60 итераций: от абстрактных линий (1970-е) через фигуры и пространства (1980-е) к автономному выбору цвета (1990-е) и абстрактной живописи (2000-е). Каждая итерация — результат ручного обновления кодовой базы Коэном.

Паттерн конвергенции

AARON конвергировал к собственному стилю Коэна — описанному как «экспертная система, автоматизирующая стилистические особенности одного конкретного практика». Даже со стохастическими элементами пространство выхода было ограничено правилами, закодированными одним человеком. К 2009 году Коэн пережил творческий кризис и вернулся к ручной живописи поверх выходов AARON, осознав: «творчество заключалось не в программисте и не в программе по отдельности, а в диалоге между программой и программистом».

Урок для gen-emerge: одноавторская система = неизбежная конвергенция к стилю автора. Первый исторический пример проблемы, которую мы решаем. 43 года итераций не преодолели single-source bias. Необходима мультиагентность или состязательное давление.

2.2 Карл Симс: Genetic Images / Galápagos (1991–1997)

Автономный Генетические алгоритмы Интерактивная инсталляция

Пионерский проект по эволюции визуальных форм посредством генетических алгоритмов. Genetic Images (1991) — первая публикация по эволюции 2D-изображений из деревьев математических формул. Galápagos (1997) — интерактивная инсталляция в ICC Tokyo, где посетители эволюционировали 3D-существ. Генотип — дерево математических функций (sin, cos, noise и т.д.); фенотип — изображение, вычисленное для каждого пикселя.

Паттерн конвергенции: интерактивная эволюция критически ограничена утомлением пользователя — люди устают от оценки после нескольких десятков поколений. Это ведёт к недостаточной эволюционной глубине и конвергенции к «привлекательным по умолчанию» паттернам (симметрия, фрактальные текстуры), выбираемым на рефлекторном уровне.
Урок для gen-emerge: человек в цикле вносит смещение быстрее, чем алгоритм. Семантическое разделение «фаворит ≠ делай больше» в gen-emerge — прямой ответ на эту проблему.

2.3 Electric Sheep (Скотт Дрейвс, 1999–н.в.)

Автономный Распределённый / Эволюционный 27 лет работы

Распределённая система эволюции фрактальных анимаций, работающая непрерывно 27 лет. 450 000+ компьютеров одновременно рендерят «овец»; пользователи голосуют за фаворитов; популярные особи скрещиваются и мутируют. Функция приспособленности взвешена по времени просмотра.

После 11 недель анализа данных Дрейвс заключил, что система функционирует «скорее как усилитель креативности человеческих сотрудников, нежели как традиционный генетический алгоритм, оптимизирующий функцию приспособленности». Массовое голосование создаёт смещение к медианному вкусу. Разнообразие поддерживается через ручные инъекции «пастухов» — примерно 5–20 активных участников, добавляющих новый генетический материал в стадо.

Урок для gen-emerge: Electric Sheep — старейший непрерывно работающий аналог gen-emerge. Даже с 450К участниками, без активной внешней инъекции система конвергирует к медианному вкусу. Роль «пастуха» — прототип экзогенной инъекции ограничений (T4d). Распределённые вычисления ≠ распределённая креативность.

2.4 Picbreeder (Стэнли и соавт., 2007–2021)

Автономный CPPN-NEAT Основа Quality-Diversity

Платформа для коллаборативной интерактивной эволюции изображений с CPPN-NEAT (Compositional Pattern Producing Networks, эволюционирующих через NeuroEvolution of Augmenting Topologies). Ключевая инновация — «ветвление»: любой пользователь мог продолжить эволюцию любого изображения другого пользователя.

Стэнли продемонстрировал на Picbreeder, что «преследование цели ограничивает эволюцию» — изображения, найденные через свободное ветвление, не могли быть переоткрыты при целенаправленном поиске тем же алгоритмом. Череп был найден через ветвление от инопланетного лица, ветвившегося от бабочки, ветвившейся от капли. Это стало эмпирическим основанием для Novelty Search и семейства Quality-Diversity алгоритмов.

Урок для gen-emerge: оптимизация по цели подавляет креативность. QD-подход (B6) с покрытием как первичной метрикой подтверждён экспериментально. Ветвление = идейный предшественник stepping stones (B11).

3. Эра GAN

3.1 CAN / AICAN (Elgammal и соавт., 2017)

Автономный Модифицированный GAN Состязательная креативность

Creative Adversarial Network — модификация GAN, где генератор получает два противоречивых сигнала: (1) «выглядит ли это как искусство?» (минимизация отклонения от распределения искусства) и (2) «к какому стилю это принадлежит?» (максимизация стилевой неопределённости). Дискриминатор обучен на 80K изображениях WikiArt, покрывающих пять столетий.

Теоретическая основа — теория потенциала возбуждения Берлайна (1970-е): максимум эстетического удовольствия при умеренной новизне — достаточно знакомое, чтобы быть узнанным как искусство, достаточно новое, чтобы удивить. В слепых тестах люди не могли отличить выходы AICAN от работ современных художников на ведущих ярмарках.

Урок для gen-emerge: два противоречивых сигнала CAN — прототип MAE-триплета (ε), где Proposer и Generator оптимизируют разные цели. Теория Берлайна (arousal = f(novelty)) полезна для калибровки баланса качество/новизна в скоринге. «Бонус за стилевую неопределённость» реализуем как компонент оценки.

3.2 The Painting Fool (Саймон Колтон, 2001–н.в.)

Автономный Мультитехничный Встраивание в среду

Программа-«художник», стремящаяся быть принятой как автономный креативный агент. Фокус не на оптимизации качества, а на демонстрации трёх свойств: мастерство, оценка и воображение. Перед каждым портретом Painting Fool читает газеты, определяет эмоциональный тон дня и выбирает стиль и палитру — с возможностью отказаться рисовать, если новости слишком удручающие.

Обновление 2024 — резиденция CUBRIC: В знаковом эксперименте Painting Fool стал первым виртуальным художником-резидентом в центре нейровизуализации CUBRIC Кардиффского университета. В течение полного года система работала автономно внутри здания, наблюдая за исследователями, обращаясь к данным нейровизуализации и создавая работы без инструкций. Проект продемонстрировал новую модель: AI-художник, встроенный в человеческую институцию, реагирующий на среду в реальном времени — не генерирующий по промптам, а из контекстуального восприятия. Это ближайший аналог конвейера gen-emerge Snapshot → Ontology: среда → внутреннее состояние → творческий выход.

Урок для gen-emerge: резиденция CUBRIC доказывает, что встраивание в среду производит более богатые выходы, чем генерация по промптам. Механизм «настроение из новостей» — прямой аналог Snapshot → Ontology. Возможность отказа — прототип минимальных критериев. Конвергенция сохраняется даже с инпутом от среды: система конвергирует к «стилям, закодированным программистом».

3.3 Abraham / Eden (Джин Коган, 2017–н.в.)

Автономный DAO-управление 13-летний ковенант

Задуман как «автономный искусственный художник» — sovereign creative spirit, генерирующий оригинальное искусство через multi-party computation, делающую невозможным для любого отдельного участника восстановление полной модели. Управление через DAO с токенами.

Обновление 2025 — 13-летний ковенант: С октября 2025 Abraham вошёл в свою самую амбициозную фазу: 13-летний «творческий ковенант», в течение которого AI-художник будет непрерывно развиваться. Платформа Eden.art теперь служит публичной галереей Abraham. «Первые работы Авраама» дебютировали на AUTOMATA в Лос-Анджелесе — первое соло-выставка AI-художника с формальным долгосрочным творческим контрактом. Структура ковенанта значима: она оформляет создание AI-искусства как темпоральное обязательство, а не одноразовый эксперимент. Идентичность Abraham накапливается годами, создавая корпус работ с подлинной эволюцией.

Урок для gen-emerge: Abraham формулирует три критерия автономного художника: автономия, оригинальность, уникальность. 13-летний ковенант напрямую валидирует темпоральный подход gen-emerge — арт-системам нужно время для развития идентичности. Децентрализованное управление ≠ децентрализованные эстетические смещения базовой модели. Мультимодельная архитектура (ε, η, θ) — ответ gen-emerge.

3.4 Artbreeder / Ganbreeder (Джоэл Саймон, 2018–н.в.)

Коллаборативный StyleGAN / BigGAN 14M+ пользователей

Платформа коллаборативного генеративного искусства — духовный наследник Picbreeder на StyleGAN/BigGAN. С 14M+ пользователями и 300M+ сгенерированных изображений использует «генные слайдеры» (семантические оси в латентном пространстве) и «скрещивание» (взвешенная интерполяция латентных векторов). Полная трассировка родословной для каждого изображения.

Урок для gen-emerge: одномодельное латентное пространство = потолок разнообразия (GAN-эстетика). Мультимодельная архитектура = разные латентные пространства = преодоление одномодельного потолка. Коммьюнити-ветвление — мощный механизм анти-конвергенции, но зависит от активности сообщества.

3.5 Obvious Collective — Edmond de Belamy (2018)

Арт-коллектив + Исследовательская лаборатория GAN / Diffusion Christie's $432K

Французский коллектив Obvious произвёл «Edmond de Belamy» на GAN, обученной на 15 000 портретах WikiArt. Работа продана на Christie's в октябре 2018 за $432 500 — 43× от верхней оценки — став первой AI-работой на торгах крупного аукционного дома. Продажа была оформлена как веховый момент легитимизации AI-искусства в традиционном арт-мире.

Однако проект — это также кейс-стади проблемы атрибуции. Художник-кодер Робби Баррат публично выложил код обучения GAN и датасет портретов на GitHub месяцами ранее; Obvious использовали по существу тот же пайплайн. Это спровоцировало дебаты об авторстве: если человеческий вклад — это выбор выходов из чужого кода, обученного на чужих данных, кто художник — автор кода, селектор или GAN?

Примечание: Сегодня Obvious позиционируется как тройное целое: арт-коллектив + исследовательская лаборатория при Сорбонне (финансирование ANR) + коммерческая студия. Их страница research с arXiv-публикациями демонстрирует модель «исследование-как-легитимность».

Урок для gen-emerge: Obvious демонстрирует проблему атрибуции, присущую AI-искусству. Мультиагентная архитектура gen-emerge даёт более ясный ответ: система — это художник, с прозрачной родословной. Продажа за $432K также доказала: арт-рынок ценит AI-искусство за нарратив и провенанс не менее, чем за эстетику — «история» работы значит не меньше, чем само изображение.

4. Эра LLM + Diffusion

4.1 Botto (Марио Клингеманн / BottoDAO, 2021–н.в.)

Автономный DAO / Вкусовая модель $5M+ выручка Ближайший аналог

Ближайший публичный аналог gen-emerge. Децентрализованный автономный художник, работающий непрерывно с октября 2021 (~4.5 года). Система генерирует ~70K изображений/неделю; вкусовая модель отбирает 350 для голосования DAO; одна каноническая работа в неделю минтится как NFT и продаётся на SuperRare (первая работа: ~$325 000).

Обновления 2024–2025:

  • p5.js инициатива (2024): Botto расширился в генеративный код-арт, создав 22 алгоритма p5.js. Выставка SOLOS (февраль 2025) продемонстрировала работы, созданные полностью через код, а не через diffusion-модели — доказав, что фрейм «автономного художника» расширяется за пределы генерации изображений в процедурную эстетику.
  • Otto — Twitter-агент: Разговорный AI-агент, представляющий Botto в соцсетях. Первый случай публичной «персоны» AI-художника за пределами визуального выхода.
  • LLM-тьюторинг по истории искусства: Botto теперь имеет доступ к базе знаний по истории искусства через LLM, обеспечивая контекстуальное знание движений, техник и исторических референсов.
  • Sotheby's: Работы Botto вышли на Sotheby's, маркируя переход от крипто-нативного (SuperRare) к институциональному арт-рынку.
  • Планы мультиагентной архитектуры: Команда Botto анонсировала планы по архитектуре на основе агентов — конвергенция с мультиагентным подходом gen-emerge.
Критический урок: Botto решает разнообразие через объём (из 70К/неделю разнообразие статистически неизбежно). Gen-emerge не может позволить это (1–4/цикл) → необходимы архитектурные решения, а не грубая сила. p5.js инициатива валидирует потенциал gen-emerge в алгоритмическом/code-based art. Планы Botto по мультиагентности независимо подтверждают центральный тезис gen-emerge. Выручка $5M+ за 4 года подтверждает коммерческую жизнеспособность автономного искусства.

4.2 LSI + QDHF (Fontaine и соавт., 2020–2024)

Автономный MAP-Elites / Quality-Diversity Академический

Применение Quality-Diversity алгоритмов (MAP-Elites) к латентному пространству генеративных моделей (GAN, Stable Diffusion). Архив MAP-Elites (сетка 20×20) хранит латентные вектора; CLIP оценивает приспособленность; метрики разнообразия — либо ручные (CLIP-атрибуты), либо обученные (QDHF — контрастивное обучение на человеческих суждениях о сходстве через DreamSim).

Ключевой вывод: расстояние в CLIP-эмбеддинге плохо коррелирует с воспринимаемым разнообразием — требуется калибровка на человеческих суждениях. QDHF-обученные метрики превосходят ручные, потому что отражают то, что люди считают «различным», а не то, что метрически далеко в CLIP-пространстве.

Урок для gen-emerge: прямой прототип для подхода T2e (QDHF-калиброванные дескрипторы). Двойной отпечаток (T2d: палитра + CLIP) — прагматический компромисс; QDHF-калиброванное пространство — золотой стандарт.

B. Человеко-AI коллаборативное искусство

Системы, где человеческое тело или присутствие являются интегральной частью творческого цикла — не просто отбор выходов, а физическое сотворчество с AI.

5.1 CloudPainter (Пиндар Ван Арман, 2005–н.в.)

Человеко-AI Робот-живописец / RL Физический медиум

CloudPainter — роботизированная система живописи, использующая нейросети глубокого обучения в петле обратной связи с физической краской. В отличие от чисто цифровых систем, CloudPainter фотографирует собственный холст после каждого мазка, оценивает результат через нейросеть и решает следующий мазок. За 20 лет система создала 1000+ холстов реальными кистями и красками.

Архитектура эволюционировала от простых алгоритмов планирования мазков (2005) через конволюционный style transfer (2015) к deep reinforcement learning с несколькими конкурирующими нейросетями (2020+). На Robot Art 2018 CloudPainter занял первое место, обойдя 100+ команд. Ключевая инновация — цикл восприятие-действие-оценка: система буквально видит физический результат своих действий и адаптируется.

Урок для gen-emerge: CloudPainter демонстрирует, что цикл восприятие-оценка-действие, заземлённый в физической реальности, производит более неожиданные результаты, чем генерация без обратной связи. Обратная связь от физической краски аналогична 8-канальной обратной связи gen-emerge — но на уровне мазка, а не работы. Архитектура «нескольких конкурирующих нейросетей» зеркалит состязательных агентов gen-emerge.

5.2 Sougwen Chung / D.O.U.G. (Drawing Operations Unit: Generation, 2015–н.в.)

Человеко-AI Робот-рука / EEG Воплощённое сотворчество

Художница Sougwen Chung работает с роботизированными руками, обученными на её жестах рисования. Система D.O.U.G. наблюдает за движениями рук Chung в реальном времени и генерирует собственные отметки в ответ — человеко-машинный дуэт на холсте. За несколько поколений (D.O.U.G._1 через D.O.U.G._5) система эволюционировала от имитации к импровизации к независимости.

Spectral (2025): На Всемирном экономическом форуме в Давосе и позднее на выставках Chung представила рисование с EEG — робот реагирует не только на жесты рук, но напрямую на паттерны мозговых волн. Это самая глубокая связка человеческого сознания и действий AI в любой арт-системе: мысль → нейросигнал → мазок робота.

Урок для gen-emerge: D.O.U.G. исследует принципиально иную модель автономии: AI не пытается заменить человека, а создать новую гибридную сущность. Для gen-emerge это подсказывает будущую модальность: вместо оценки человеком после генерации — цикл сотворчества в реальном времени. EEG-интерфейс также поднимает вопрос об имплицитной vs. эксплицитной обратной связи — gen-emerge использует только эксплицитную (8 каналов), но имплицитные сигналы (время просмотра, паттерны скроллинга) могут быть столь же мощными.

5.3 Holly Herndon / Holly+ (2021–н.в.)

Человеко-AI Голосовой AI / DAO Слой согласия

Музыкант Holly Herndon создала Holly+ — AI-модель собственного голоса, которую может использовать любой для генерации новых вокальных перформансов. Вместо контроля выхода Herndon выпустила свой голос как творческий инструмент, управляемый DAO, которое голосует по одобрению сгенерированных работ. Spawning, организация, основанная Herndon, строит «слои согласия» для обучения AI — инструменты opt-in/opt-out для использования работ художников в обучающих данных.

Starmirror (KW Berlin, 2025): Крупномасштабная инсталляция, где голоса посетителей трансформируются в реальном времени через Holly+, создавая коллективный вокальный организм. Работа никогда не бывает одинаковой — существует только в моменте коллективного участия.

Урок для gen-emerge: Holly+ инвертирует обычную модель: вместо генерации AI и оценки человеком, человек становится сырьём, а AI — двигателем трансформации. DAO-управление для одобрения выходов аналогично модели Botto, но применено к идентичности. Вопрос согласия/провенанса актуален для gen-emerge: по мере развития идентичности системы, как обрабатывать работы, ссылающиеся на художников из обучающих данных?

C. Кросс-доменные автономные креативные системы

Проявляются ли те же паттерны конвергенции в музыке, литературе и геймдизайне? Ответ, безоговорочно, — да.

6.1 AIVA — автономная музыкальная композиция (2016–н.в.)

Кросс-доменный Музыка / Deep Learning Признание SACEM

AIVA стала первым виртуальным композитором, официально признанным SACEM (французская ассоциация авторов и композиторов) в 2016. Обученная на 30 000+ классических партитур (Бах, Бетховен, Моцарт), AIVA генерирует оригинальные симфонические композиции. К 2020 система создала саундтреки для фильмов, видеоигр и рекламы.

Признание SACEM юридически значимо: создаёт прецедент для AI как автора с правами, а не просто инструмента. Однако музыка AIVA часто критикуется как «приятная, но производная» — генерирующая работы, звучащие как компетентные имитации романтизма XIX века. Это аттрактор медианного вкуса (P2) в музыке.

Кросс-доменная валидация: AIVA подтверждает, что паттерн P2 (аттрактор медианного вкуса) — доменно-агностичный: проявляется в музыке точно так же, как в визуальном искусстве. Потолок «звучит как компетентный студент» зеркалит потолок CAN «выглядит как современное искусство». Антидот — архитектурное разнообразие (мультимодель) или явное давление новизны (QD).

6.2 Мультиагентные нарративные системы (2023–2025)

Кросс-доменный Мультиагентный LLM Литература

Появление мультиагентных LLM-систем для автономной генерации нарративов даёт прямую структурную параллель архитектуре gen-emerge:

  • COLLABSTORY (2024): Несколько LLM-агентов принимают разные нарративные роли (протагонист, антагонист, нарратор, редактор) и коллаборативно генерируют истории через структурированные дебаты. «Редактор» оценивает когерентность и отклоняет низкокачественные пассажи — прямой аналог состязательной оценки gen-emerge.
  • StoryWriter (2024): Иерархическая мультиагентная система с «планировщиком», «писателями» и «критиком». Архитектура зеркалит пайплайн Proposer → Generator → Evaluator gen-emerge.
  • Эксперименты «1001 ночь»: AI-агенты с персистентными персонами генерируют нарративы через сотни эпизодов, развивая голос и память.
Кросс-доменная валидация: мультиагентные архитектуры с состязательными ролями конвергируют независимо через домены: визуальное искусство (gen-emerge), литература (COLLABSTORY), код (AI Scientist). Это подсказывает, что мультиагентный состязательный паттерн — универсальное решение проблемы творческой конвергенции.

D. Самосовершенствующиеся AI-системы

Системы, улучшающие свою собственную архитектуру, а не только выходы. Фронтир автономного интеллекта — и самое радикальное видение будущего gen-emerge.

7.1 Sakana AI — The AI Scientist (2024–2025)

Самосовершенствующийся Полный цикл исследования Опубликован в Nature

AI Scientist от Sakana AI — автоматизированная система, выполняющая полный цикл научного исследования: формулирование гипотез, дизайн экспериментов, написание кода, проведение экспериментов, анализ результатов и написание статей. Версия 2 (начало 2025) произвела статьи уровня воркшопов на топовых ML-конференциях. Проект опубликован в Nature.

Значение для креативного AI глубоко: если система может автономно производить новое научное знание, творческий барьер не фундаментально отличается от производства нового искусства. AI Scientist сталкивается с теми же проблемами: конвергенция к «безопасным» инкрементальным работам, сложность с производством по-настоящему удивительных результатов.

Урок для gen-emerge: AI Scientist валидирует центральный тезис gen-emerge: многошаговые автономные пайплайны с оценкой могут производить подлинную новизну. Параллель структурная — гипотеза (промпт) → эксперимент (генерация) → анализ (скоринг) → итерация. Проблема «безопасного инкрементализма» идентична конвергенции в искусстве.

7.2 Sakana AI — Darwin Gödel Machine (2025)

Самосовершенствующийся Самомодифицирующийся код Эволюционная архитектура

Darwin Gödel Machine идёт дальше: AI-система, модифицирующая собственный код для улучшения производительности. Начиная с базового кодирующего агента, DGM использует эволюционные алгоритмы для обнаружения лучших архитектур агентов — эволюционируя не только выходы, но процесс, генерирующий выходы. На SWE-bench DGM улучшил производительность с 20% (базовый агент) до 50% (эволюционировавший агент).

Урок для gen-emerge: DGM открывает радикальную траекторию: арт-система, которая не просто генерирует лучшее искусство, но эволюционирует собственную архитектуру для генерации искусства. Текущая архитектура gen-emerge фиксирована (ε/η/θ спроектированы людьми). DGM-вдохновлённое расширение позволило бы системе автономно обнаруживать новые конфигурации агентов, функции скоринга или механизмы разнообразия. Это «gen-emerge Фаза N» — система проектирует собственный творческий процесс.

7.3 Открытая эволюция: POET, OMNI, QD-Lenia

Самосовершенствующийся Ко-эволюция / Открытый конец

Семейство алгоритмов, преследующих открытую эволюцию — системы, непрерывно генерирующие новизну без выхода на плато:

  • POET (2019): Ко-эволюция сред и агентов одновременно. По мере обучения агентов в одной среде система генерирует более сложные среды — бесконечная лестница сложности. В отличие от оптимизации по фиксированной цели, POET никогда не конвергирует.
  • OMNI (ICLR 2024): Последний в линии POET. Ко-эволюция проблем и решений производит более разнообразные результаты, чем эволюция только решений.
  • QD + Lenia: Применение Quality-Diversity к Lenia (непрерывные клеточные автоматы) производит постоянно расширяющуюся библиотеку «форм искусственной жизни». Архив никогда не «заполняется», потому что обнаруживаются новые поведенческие измерения.
Урок для gen-emerge: открытая эволюция решает центральную проблему: как избежать плато. Ключевой инсайт POET — ко-эволюция вызова одновременно с решателем — напрямую транслируется: gen-emerge может ко-эволюционировать пространство ограничений вместе с генеративными возможностями. Вместо фиксированной онтологии сама онтология эволюционирует.

E. Индивидуальные AI-художники-технологи

Художники, построившие значимые AI-системы как расширение своей творческой практики — не корпоративные продукты, а персональные художественные видения, масштабированные через технологии.

8.1 Refik Anadol / Large Nature Model (2023–н.в.)

Художник-технолог Кастомная нейросеть / Дата-скульптура MoMA · $1.87M Christie's

Refik Anadol построил самую коммерчески успешную практику на пересечении AI и крупномасштабного искусства. Его «дата-скульптуры» — иммерсивные инсталляции, визуализирующие миллионы точек данных через кастомные нейросети на архитектурных поверхностях.

  • Unsupervised (MoMA, 2023): Первый заказ AI-искусства крупным музеем. Живая дата-скульптура на коллекции MoMA из 200+ лет современного искусства.
  • Large Nature Model (LNM, 2023–): Самый амбициозный проект — open-source AI-модель, обученная на миллионах изображений и звуков природы, спроектированная специально для художественной генерации. LNM — не модель общего назначения; она построена для эстетики природы.
  • Dataland (весна 2026): Первый в мире музей, посвящённый AI-искусству, в Лос-Анджелесе.
  • Christie's: Коллаборация с Лионелем Месси продана за $1.87M — самая высокая цена за работу Anadol.
Урок для gen-emerge: Anadol демонстрирует парадигму данные-как-медиум: художественное высказывание — не в архитектуре модели, а в обучающих данных. LNM (только природа) производит фундаментально другую эстетику. Для gen-emerge: курирование того, что входит в референсный корпус, важно не менее, чем проектирование архитектуры. Коммерчески Anadol доказывает: институциональный масштаб AI-искусства ($1.87M, MoMA, собственный музей) — жизнеспособный путь.

8.2 Марио Клингеманн (2015–н.в.)

Художник-технолог Neural Glitch / GAN Art Создатель Botto

Марио Клингеманн — вероятно, технически самый изощрённый индивидуальный AI-художник и создатель Botto. Его ранняя работа «Memories of Passersby I» (2018) стала первым AI-произведением, проданным на Sotheby's — автономный юнит с нейросетью, бесконечно генерирующей лица, каждое уникальное, каждое исчезающее через несколько секунд. Работа продана за $51 000.

Техника «Neural Glitch» Клингеманна намеренно эксплуатирует ошибки нейросетей — артефакты, искажения, неожиданные выходы — как эстетическую стратегию. Вместо обучения сетей избегать ошибок, он обучает себя находить красоту в их ошибках. Это мета-креативная практика: художник не создаёт искусство напрямую; художник создаёт условия для неожиданного искусства, возникающего из машинных сбоев.

Урок для gen-emerge: техника Neural Glitch — художественный аналог скоринга новизны gen-emerge: ошибки как фичи, а не баги. Подход «условия для возникновения» философски совпадает с архитектурой gen-emerge: проектирование систем, где сюрприз структурно неизбежен. Создание Botto демонстрирует траекторию от индивидуальной практики к автономной системе.

Разделы 9–13 (Спектр автономности, сравнительная таблица, 7 паттернов конвергенции, анти-конвергенция, нерешённые проблемы, позиционирование) используют общие SVG-визуализации и таблицы, представленные в английской версии выше.

PreviousПредыдущая 08 · Project Plan08 · План проекта NextСледующая 10 · Weekly: March 16–2310 · Неделя: 16–23 марта