Human-Grounded Validation of Automated Aesthetic Metrics for Generative Art
Валидация автоматических эстетических метрик через восприятие человека
The core gen-emerge pipeline relies on automated metrics — NIMA aesthetic scoring, CLIP text-image alignment, DreamSim perceptual distance, and VLM structured checklists — as proxy measures for artistic quality. None of these metrics, however, directly captures what is ultimately at stake: whether an image evokes a genuine perceptual response in a human observer.
Without empirical calibration against human perception, the system is susceptible to Goodhart's Law: over N cycles, the metrics are expected to begin rewarding outputs that pass automated gates while failing to produce any meaningful aesthetic experience. Reward hacking is considered a guaranteed outcome of any uncalibrated evaluation pipeline.
Calibration is treated as a separate, asynchronous process that never blocks the main pipeline. The system operates on default or latest-available calibration weights. When new calibration data becomes available, weights are updated — analogous to a software patch applied to a running system.
The service presents participants with a web-based interface. Two images are displayed side-by-side, and the participant responds to a structured protocol:
| Item | Question | Response Format | Frequency |
|---|---|---|---|
| A | Which of the two evokes a stronger sensation? | Click left / right | Every pair |
| B | What kind of sensation? | Select from taxonomy + free text | Optional |
| C | Are these two images visually similar? | 4-point scale | Every 10th pair |
Question B draws from a curated sensation taxonomy: anxiety/unease, calm/meditativeness, curiosity/intrigue, detachment/coldness, awe/admiration, discomfort/uncanny, nostalgia/longing, energy/tension.
Question C is designed to calibrate DreamSim — determining whether the model's perceptual distance scores align with human-perceived similarity.
The pairwise design is grounded in a fundamental result from psychometrics (Thurstone, 1927; Bradley & Terry, 1952): humans produce more reliable judgments when comparing two objects than when rating a single object on an absolute scale.
A global ranking is reconstructed from pairwise data through a Bradley-Terry model: P(A > B) = σ(βA − βB), where β values are latent quality parameters estimated via MLE. This is the same mathematical framework underlying the Elo rating system, Chatbot Arena, and reward model training.
Each session comprises 15–20 pairs (3–5 minutes). Pairs are formed strategically across four categories:
| Category | Purpose | Example |
|---|---|---|
| Calibration | Assess agreement between automated rankings and human preference | NIMA-high vs. NIMA-low images |
| Diagnostic | Resolve disagreements between metrics | NIMA says A > B, DreamSim says B > A |
| Exploration | Discover metric blind spots | Random pairs from the pool |
| Attention check | Verify participant consistency | Previously shown pair, reversed |
Participants with consistency below 70% on attention checks are excluded from analysis.
The evaluation panel is not assembled through random crowdsourcing. Participants are recruited for confirmed visual literacy:
Minimum: 20 participants. The Bradley-Terry model converges at approximately 10–15 comparisons per item. With a 20-person panel × 15 pairs per session = 300 pairwise judgments per session, yielding ~6 comparisons per image for a pool of 50 images — sufficient for a stable ranking after 2–3 sessions.
Optimum: 25–30 participants — providing buffer for expected attrition (20–30%) and more robust parameter estimates.
Panel diversity is pursued not for "objectivity" (which does not exist for aesthetic judgment) but for signal robustness: if a pairwise preference is stable across a diverse group, it reflects something deeper than any individual's taste.
The service produces five deliverable outputs:
A Bradley-Terry model fitted to pairwise data yields β-parameters for each image, producing a global ranking. This ranking formalizes the panel's collective "taste function" — what evokes a stronger sensation according to 20–30 visually literate individuals.
For each automated metric, a correlation with human preference rankings is computed:
If, for example, NIMA ↔ human = 0.15 while DreamSim ↔ human = 0.55, this constitutes evidence for reducing NIMA weight and increasing DreamSim weight in the gating pipeline.
For each gate, the threshold that maximizes F1 score for predicting human panel acceptance is computed. Current thresholds (NIMA > 4.5, CLIP > 0.25, DreamSim > adaptive) are educated guesses; calibration provides evidence-based replacements.
From Question B data: which sensations are most frequently evoked by accepted images? Is there cluster structure (e.g., "anxiety" + "uncanny" = one cluster, "calm" + "nostalgia" = another)? Which sensations correlate with high DreamSim novelty?
From Question C data: a regression mapping DreamSim distance to perceived similarity. If DreamSim distance 0.3 is perceived as "identical" while 0.5 is perceived as "different," the diversity threshold must be adjusted from >0.15 to >0.5.
The service produces a structured JSON file, updated after each annotation wave:
{
"version": "2026-Q2",
"panel_size": 24,
"sessions_completed": 3,
"total_pairwise_judgments": 1080,
"metric_weights": {
"nima": 0.10, "clip": 0.20,
"dreamsim": 0.45, "vlm_checklist": 0.25
},
"gate_thresholds": {
"nima_min": 4.8, "clip_min": 0.22,
"dreamsim_novelty_min": 0.38, "vlm_max_flags": 2
},
"sensation_clusters": {
"cluster_1": ["anxiety","uncanny","discomfort"],
"cluster_2": ["calm","nostalgia","meditation"],
"cluster_3": ["curiosity","awe","energy"]
}
}
The pipeline ingests this file at the start of each new experimental series.
One annotation wave = one session for all panel participants (~300 pairwise judgments). The recommended cadence is one wave per month. Between waves, the system is expected to generate 200–600 new images (depending on the experimental phase). Each wave includes both fresh images and repeats for tracking temporal consistency.
The service addresses a gap in the generative art evaluation landscape. Existing resources are reviewed below:
| Resource | Design | Evaluators | Domain | Ongoing? |
|---|---|---|---|---|
| AVA dataset | Absolute scoring | Crowdsourced | Photography | No |
| LAION Aesthetics | Automated labels | None (CLIP predictor) | AI art | No |
| Chatbot Arena / GenAI-Bench | Pairwise | Random crowdworkers | Model comparison | Yes |
| Pick-a-Pic | Pairwise | Crowdsourced | T2I model outputs | No |
| This service | Pairwise | Curated reference panel | Generative art | Yes (monthly) |
No existing dataset combines: (1) pairwise comparison design, (2) curated reference panel, (3) sensation/emotion annotation, (4) generative art focus, and (5) ongoing calibration. The service is positioned to produce the first such resource.
| Phase | Duration | Objectives |
|---|---|---|
| Phase 1: MVP | 4–6 weeks | Web application + Bradley-Terry solver. Pilot with 10–15 participants (personal network). 2 pilot sessions. Validation: attention check > 80%, inter-rater agreement > 75%. |
| Phase 2: Full Panel | 6–10 weeks | Panel expansion to 20–30 participants. 3 foundational waves (biweekly). First calibration JSON for pipeline. Admin dashboard. |
| Phase 3: Maintenance | Ongoing | Monthly waves. Automatic calibration data transfer. Temporal stability monitoring. Open dataset publication. |
| Phase 4: Public Platform | Optional | Open-source release. Documentation and API for external calibration requests. |
| Risk | Probability | Mitigation |
|---|---|---|
| Low panel recruitment | Medium | Begin with personal network; compensation ($20–30/session); expand via word-of-mouth |
| High attrition after initial sessions | High | Short sessions (5 min); compensation; share results/feedback with panelists |
| Low inter-rater agreement | Low (pairwise) | Attention checks; outlier exclusion; pairwise design inherently mitigates |
| Metrics do not correlate with human perception | Medium | This is a discovery, not a failure — panel data would then guide search for better metrics |
| Panel bias (homogeneous group) | Medium | Conscious diversity in recruitment; cluster structure monitoring |
Исходный обзор (февраль 2026) анализировал 10 знаковых проектов в области автономного генеративного искусства. Расширенная редакция расширяет охват за пределы визуального искусства, покрывая все домены автономных креативных систем — музыку, литературу, геймдизайн, научные открытия — и вводит новую аналитическую рамку: Спектр автономности.
Из приблизительно 50 выявленных проектов и экспериментов отобраны 22 по шести критериям: (1) автономность — серийная генерация без ручного запуска; (2) обратная связь — механизм, влияющий на последующие поколения; (3) непрерывная эволюция — работа во времени с накоплением истории; (4) проблема разнообразия — столкновение с конвергенцией; (5) масштаб — результаты за пределами прототипа; (6) кросс-доменная релевантность — уроки, переносимые на gen-emerge.
Проекты организованы в пять категорий:
| Категория | Проекты | Ключевой вопрос |
|---|---|---|
| A. Автономное визуальное искусство | AARON, Sims, Electric Sheep, Picbreeder, CAN, Painting Fool, Abraham/Eden, Artbreeder, Botto, LSI+QDHF, Obvious | Как система генерирует искусство без запуска человеком каждой работы? |
| B. Человеко-AI коллаборативное искусство | CloudPainter, Sougwen Chung / D.O.U.G., Holly Herndon / Holly+ | Чем сотворчество человеческого тела и AI отличается от чистой автономии? |
| C. Кросс-доменные креативные AI | AIVA (музыка), мультиагентные нарративные системы (литература) | Переносятся ли паттерны автономного творчества между медиа? |
| D. Самосовершенствующиеся AI-системы | Sakana AI Scientist, Darwin Gödel Machine, POET/OMNI | Может ли AI улучшать сам себя — и что это означает для искусства? |
| E. Индивидуальные AI-художники | Refik Anadol / LNM, Mario Klingemann | Как художники-технологи масштабируют своё видение через AI? |
Системы, генерирующие визуальное искусство с минимальным или нулевым участием человека в каждой работе. Основная линия предков gen-emerge.
AARON признаётся первой долгоживущей автономной арт-системой. Разработанная художником Гарольдом Коэном как экспертная система на C/Lisp на протяжении 43 лет, она автономно генерировала рисунки и картины с использованием кодифицированных знаний о композиции, перспективе и анатомии. Решения о композиции, цвете и размещении принимались через внутренние правила со стохастическими элементами; вывод осуществлялся через физические плоттеры и специализированные рисующие машины.
Система прошла приблизительно 60 итераций: от абстрактных линий (1970-е) через фигуры и пространства (1980-е) к автономному выбору цвета (1990-е) и абстрактной живописи (2000-е). Каждая итерация — результат ручного обновления кодовой базы Коэном.
AARON конвергировал к собственному стилю Коэна — описанному как «экспертная система, автоматизирующая стилистические особенности одного конкретного практика». Даже со стохастическими элементами пространство выхода было ограничено правилами, закодированными одним человеком. К 2009 году Коэн пережил творческий кризис и вернулся к ручной живописи поверх выходов AARON, осознав: «творчество заключалось не в программисте и не в программе по отдельности, а в диалоге между программой и программистом».
Пионерский проект по эволюции визуальных форм посредством генетических алгоритмов. Genetic Images (1991) — первая публикация по эволюции 2D-изображений из деревьев математических формул. Galápagos (1997) — интерактивная инсталляция в ICC Tokyo, где посетители эволюционировали 3D-существ. Генотип — дерево математических функций (sin, cos, noise и т.д.); фенотип — изображение, вычисленное для каждого пикселя.
Распределённая система эволюции фрактальных анимаций, работающая непрерывно 27 лет. 450 000+ компьютеров одновременно рендерят «овец»; пользователи голосуют за фаворитов; популярные особи скрещиваются и мутируют. Функция приспособленности взвешена по времени просмотра.
После 11 недель анализа данных Дрейвс заключил, что система функционирует «скорее как усилитель креативности человеческих сотрудников, нежели как традиционный генетический алгоритм, оптимизирующий функцию приспособленности». Массовое голосование создаёт смещение к медианному вкусу. Разнообразие поддерживается через ручные инъекции «пастухов» — примерно 5–20 активных участников, добавляющих новый генетический материал в стадо.
Платформа для коллаборативной интерактивной эволюции изображений с CPPN-NEAT (Compositional Pattern Producing Networks, эволюционирующих через NeuroEvolution of Augmenting Topologies). Ключевая инновация — «ветвление»: любой пользователь мог продолжить эволюцию любого изображения другого пользователя.
Стэнли продемонстрировал на Picbreeder, что «преследование цели ограничивает эволюцию» — изображения, найденные через свободное ветвление, не могли быть переоткрыты при целенаправленном поиске тем же алгоритмом. Череп был найден через ветвление от инопланетного лица, ветвившегося от бабочки, ветвившейся от капли. Это стало эмпирическим основанием для Novelty Search и семейства Quality-Diversity алгоритмов.
Creative Adversarial Network — модификация GAN, где генератор получает два противоречивых сигнала: (1) «выглядит ли это как искусство?» (минимизация отклонения от распределения искусства) и (2) «к какому стилю это принадлежит?» (максимизация стилевой неопределённости). Дискриминатор обучен на 80K изображениях WikiArt, покрывающих пять столетий.
Теоретическая основа — теория потенциала возбуждения Берлайна (1970-е): максимум эстетического удовольствия при умеренной новизне — достаточно знакомое, чтобы быть узнанным как искусство, достаточно новое, чтобы удивить. В слепых тестах люди не могли отличить выходы AICAN от работ современных художников на ведущих ярмарках.
Программа-«художник», стремящаяся быть принятой как автономный креативный агент. Фокус не на оптимизации качества, а на демонстрации трёх свойств: мастерство, оценка и воображение. Перед каждым портретом Painting Fool читает газеты, определяет эмоциональный тон дня и выбирает стиль и палитру — с возможностью отказаться рисовать, если новости слишком удручающие.
Обновление 2024 — резиденция CUBRIC: В знаковом эксперименте Painting Fool стал первым виртуальным художником-резидентом в центре нейровизуализации CUBRIC Кардиффского университета. В течение полного года система работала автономно внутри здания, наблюдая за исследователями, обращаясь к данным нейровизуализации и создавая работы без инструкций. Проект продемонстрировал новую модель: AI-художник, встроенный в человеческую институцию, реагирующий на среду в реальном времени — не генерирующий по промптам, а из контекстуального восприятия. Это ближайший аналог конвейера gen-emerge Snapshot → Ontology: среда → внутреннее состояние → творческий выход.
Задуман как «автономный искусственный художник» — sovereign creative spirit, генерирующий оригинальное искусство через multi-party computation, делающую невозможным для любого отдельного участника восстановление полной модели. Управление через DAO с токенами.
Обновление 2025 — 13-летний ковенант: С октября 2025 Abraham вошёл в свою самую амбициозную фазу: 13-летний «творческий ковенант», в течение которого AI-художник будет непрерывно развиваться. Платформа Eden.art теперь служит публичной галереей Abraham. «Первые работы Авраама» дебютировали на AUTOMATA в Лос-Анджелесе — первое соло-выставка AI-художника с формальным долгосрочным творческим контрактом. Структура ковенанта значима: она оформляет создание AI-искусства как темпоральное обязательство, а не одноразовый эксперимент. Идентичность Abraham накапливается годами, создавая корпус работ с подлинной эволюцией.
Платформа коллаборативного генеративного искусства — духовный наследник Picbreeder на StyleGAN/BigGAN. С 14M+ пользователями и 300M+ сгенерированных изображений использует «генные слайдеры» (семантические оси в латентном пространстве) и «скрещивание» (взвешенная интерполяция латентных векторов). Полная трассировка родословной для каждого изображения.
Французский коллектив Obvious произвёл «Edmond de Belamy» на GAN, обученной на 15 000 портретах WikiArt. Работа продана на Christie's в октябре 2018 за $432 500 — 43× от верхней оценки — став первой AI-работой на торгах крупного аукционного дома. Продажа была оформлена как веховый момент легитимизации AI-искусства в традиционном арт-мире.
Однако проект — это также кейс-стади проблемы атрибуции. Художник-кодер Робби Баррат публично выложил код обучения GAN и датасет портретов на GitHub месяцами ранее; Obvious использовали по существу тот же пайплайн. Это спровоцировало дебаты об авторстве: если человеческий вклад — это выбор выходов из чужого кода, обученного на чужих данных, кто художник — автор кода, селектор или GAN?
Примечание: Сегодня Obvious позиционируется как тройное целое: арт-коллектив + исследовательская лаборатория при Сорбонне (финансирование ANR) + коммерческая студия. Их страница research с arXiv-публикациями демонстрирует модель «исследование-как-легитимность».
Ближайший публичный аналог gen-emerge. Децентрализованный автономный художник, работающий непрерывно с октября 2021 (~4.5 года). Система генерирует ~70K изображений/неделю; вкусовая модель отбирает 350 для голосования DAO; одна каноническая работа в неделю минтится как NFT и продаётся на SuperRare (первая работа: ~$325 000).
Обновления 2024–2025:
Применение Quality-Diversity алгоритмов (MAP-Elites) к латентному пространству генеративных моделей (GAN, Stable Diffusion). Архив MAP-Elites (сетка 20×20) хранит латентные вектора; CLIP оценивает приспособленность; метрики разнообразия — либо ручные (CLIP-атрибуты), либо обученные (QDHF — контрастивное обучение на человеческих суждениях о сходстве через DreamSim).
Ключевой вывод: расстояние в CLIP-эмбеддинге плохо коррелирует с воспринимаемым разнообразием — требуется калибровка на человеческих суждениях. QDHF-обученные метрики превосходят ручные, потому что отражают то, что люди считают «различным», а не то, что метрически далеко в CLIP-пространстве.
Системы, где человеческое тело или присутствие являются интегральной частью творческого цикла — не просто отбор выходов, а физическое сотворчество с AI.
CloudPainter — роботизированная система живописи, использующая нейросети глубокого обучения в петле обратной связи с физической краской. В отличие от чисто цифровых систем, CloudPainter фотографирует собственный холст после каждого мазка, оценивает результат через нейросеть и решает следующий мазок. За 20 лет система создала 1000+ холстов реальными кистями и красками.
Архитектура эволюционировала от простых алгоритмов планирования мазков (2005) через конволюционный style transfer (2015) к deep reinforcement learning с несколькими конкурирующими нейросетями (2020+). На Robot Art 2018 CloudPainter занял первое место, обойдя 100+ команд. Ключевая инновация — цикл восприятие-действие-оценка: система буквально видит физический результат своих действий и адаптируется.
Художница Sougwen Chung работает с роботизированными руками, обученными на её жестах рисования. Система D.O.U.G. наблюдает за движениями рук Chung в реальном времени и генерирует собственные отметки в ответ — человеко-машинный дуэт на холсте. За несколько поколений (D.O.U.G._1 через D.O.U.G._5) система эволюционировала от имитации к импровизации к независимости.
Spectral (2025): На Всемирном экономическом форуме в Давосе и позднее на выставках Chung представила рисование с EEG — робот реагирует не только на жесты рук, но напрямую на паттерны мозговых волн. Это самая глубокая связка человеческого сознания и действий AI в любой арт-системе: мысль → нейросигнал → мазок робота.
Музыкант Holly Herndon создала Holly+ — AI-модель собственного голоса, которую может использовать любой для генерации новых вокальных перформансов. Вместо контроля выхода Herndon выпустила свой голос как творческий инструмент, управляемый DAO, которое голосует по одобрению сгенерированных работ. Spawning, организация, основанная Herndon, строит «слои согласия» для обучения AI — инструменты opt-in/opt-out для использования работ художников в обучающих данных.
Starmirror (KW Berlin, 2025): Крупномасштабная инсталляция, где голоса посетителей трансформируются в реальном времени через Holly+, создавая коллективный вокальный организм. Работа никогда не бывает одинаковой — существует только в моменте коллективного участия.
Проявляются ли те же паттерны конвергенции в музыке, литературе и геймдизайне? Ответ, безоговорочно, — да.
AIVA стала первым виртуальным композитором, официально признанным SACEM (французская ассоциация авторов и композиторов) в 2016. Обученная на 30 000+ классических партитур (Бах, Бетховен, Моцарт), AIVA генерирует оригинальные симфонические композиции. К 2020 система создала саундтреки для фильмов, видеоигр и рекламы.
Признание SACEM юридически значимо: создаёт прецедент для AI как автора с правами, а не просто инструмента. Однако музыка AIVA часто критикуется как «приятная, но производная» — генерирующая работы, звучащие как компетентные имитации романтизма XIX века. Это аттрактор медианного вкуса (P2) в музыке.
Появление мультиагентных LLM-систем для автономной генерации нарративов даёт прямую структурную параллель архитектуре gen-emerge:
Системы, улучшающие свою собственную архитектуру, а не только выходы. Фронтир автономного интеллекта — и самое радикальное видение будущего gen-emerge.
AI Scientist от Sakana AI — автоматизированная система, выполняющая полный цикл научного исследования: формулирование гипотез, дизайн экспериментов, написание кода, проведение экспериментов, анализ результатов и написание статей. Версия 2 (начало 2025) произвела статьи уровня воркшопов на топовых ML-конференциях. Проект опубликован в Nature.
Значение для креативного AI глубоко: если система может автономно производить новое научное знание, творческий барьер не фундаментально отличается от производства нового искусства. AI Scientist сталкивается с теми же проблемами: конвергенция к «безопасным» инкрементальным работам, сложность с производством по-настоящему удивительных результатов.
Darwin Gödel Machine идёт дальше: AI-система, модифицирующая собственный код для улучшения производительности. Начиная с базового кодирующего агента, DGM использует эволюционные алгоритмы для обнаружения лучших архитектур агентов — эволюционируя не только выходы, но процесс, генерирующий выходы. На SWE-bench DGM улучшил производительность с 20% (базовый агент) до 50% (эволюционировавший агент).
Семейство алгоритмов, преследующих открытую эволюцию — системы, непрерывно генерирующие новизну без выхода на плато:
Художники, построившие значимые AI-системы как расширение своей творческой практики — не корпоративные продукты, а персональные художественные видения, масштабированные через технологии.
Refik Anadol построил самую коммерчески успешную практику на пересечении AI и крупномасштабного искусства. Его «дата-скульптуры» — иммерсивные инсталляции, визуализирующие миллионы точек данных через кастомные нейросети на архитектурных поверхностях.
Марио Клингеманн — вероятно, технически самый изощрённый индивидуальный AI-художник и создатель Botto. Его ранняя работа «Memories of Passersby I» (2018) стала первым AI-произведением, проданным на Sotheby's — автономный юнит с нейросетью, бесконечно генерирующей лица, каждое уникальное, каждое исчезающее через несколько секунд. Работа продана за $51 000.
Техника «Neural Glitch» Клингеманна намеренно эксплуатирует ошибки нейросетей — артефакты, искажения, неожиданные выходы — как эстетическую стратегию. Вместо обучения сетей избегать ошибок, он обучает себя находить красоту в их ошибках. Это мета-креативная практика: художник не создаёт искусство напрямую; художник создаёт условия для неожиданного искусства, возникающего из машинных сбоев.
Разделы 9–13 (Спектр автономности, сравнительная таблица, 7 паттернов конвергенции, анти-конвергенция, нерешённые проблемы, позиционирование) используют общие SVG-визуализации и таблицы, представленные в английской версии выше.