Human-Grounded Validation of Automated Aesthetic Metrics for Generative Art
Валидация автоматических эстетических метрик через восприятие человека
The core gen-emerge pipeline relies on automated metrics — NIMA aesthetic scoring, CLIP text-image alignment, DreamSim perceptual distance, and VLM structured checklists — as proxy measures for artistic quality. None of these metrics, however, directly captures what is ultimately at stake: whether an image evokes a genuine perceptual response in a human observer.
Without empirical calibration against human perception, the system is susceptible to Goodhart's Law: over N cycles, the metrics are expected to begin rewarding outputs that pass automated gates while failing to produce any meaningful aesthetic experience. Reward hacking is considered a guaranteed outcome of any uncalibrated evaluation pipeline.
Calibration is treated as a separate, asynchronous process that never blocks the main pipeline. The system operates on default or latest-available calibration weights. When new calibration data becomes available, weights are updated — analogous to a software patch applied to a running system.
The service presents participants with a web-based interface. Two images are displayed side-by-side, and the participant responds to a structured protocol:
| Item | Question | Response Format | Frequency |
|---|---|---|---|
| A | Which of the two evokes a stronger sensation? | Click left / right | Every pair |
| B | What kind of sensation? | Select from taxonomy + free text | Optional |
| C | Are these two images visually similar? | 4-point scale | Every 10th pair |
Question B draws from a curated sensation taxonomy: anxiety/unease, calm/meditativeness, curiosity/intrigue, detachment/coldness, awe/admiration, discomfort/uncanny, nostalgia/longing, energy/tension.
Question C is designed to calibrate DreamSim — determining whether the model's perceptual distance scores align with human-perceived similarity.
The pairwise design is grounded in a fundamental result from psychometrics (Thurstone, 1927; Bradley & Terry, 1952): humans produce more reliable judgments when comparing two objects than when rating a single object on an absolute scale.
A global ranking is reconstructed from pairwise data through a Bradley-Terry model: P(A > B) = σ(βA − βB), where β values are latent quality parameters estimated via MLE. This is the same mathematical framework underlying the Elo rating system, Chatbot Arena, and reward model training.
Each session comprises 15–20 pairs (3–5 minutes). Pairs are formed strategically across four categories:
| Category | Purpose | Example |
|---|---|---|
| Calibration | Assess agreement between automated rankings and human preference | NIMA-high vs. NIMA-low images |
| Diagnostic | Resolve disagreements between metrics | NIMA says A > B, DreamSim says B > A |
| Exploration | Discover metric blind spots | Random pairs from the pool |
| Attention check | Verify participant consistency | Previously shown pair, reversed |
Participants with consistency below 70% on attention checks are excluded from analysis.
The evaluation panel is not assembled through random crowdsourcing. Participants are recruited for confirmed visual literacy:
Minimum: 20 participants. The Bradley-Terry model converges at approximately 10–15 comparisons per item. With a 20-person panel × 15 pairs per session = 300 pairwise judgments per session, yielding ~6 comparisons per image for a pool of 50 images — sufficient for a stable ranking after 2–3 sessions.
Optimum: 25–30 participants — providing buffer for expected attrition (20–30%) and more robust parameter estimates.
Panel diversity is pursued not for "objectivity" (which does not exist for aesthetic judgment) but for signal robustness: if a pairwise preference is stable across a diverse group, it reflects something deeper than any individual's taste.
The service produces five deliverable outputs:
A Bradley-Terry model fitted to pairwise data yields β-parameters for each image, producing a global ranking. This ranking formalizes the panel's collective "taste function" — what evokes a stronger sensation according to 20–30 visually literate individuals.
For each automated metric, a correlation with human preference rankings is computed:
If, for example, NIMA ↔ human = 0.15 while DreamSim ↔ human = 0.55, this constitutes evidence for reducing NIMA weight and increasing DreamSim weight in the gating pipeline.
For each gate, the threshold that maximizes F1 score for predicting human panel acceptance is computed. Current thresholds (NIMA > 4.5, CLIP > 0.25, DreamSim > adaptive) are educated guesses; calibration provides evidence-based replacements.
From Question B data: which sensations are most frequently evoked by accepted images? Is there cluster structure (e.g., "anxiety" + "uncanny" = one cluster, "calm" + "nostalgia" = another)? Which sensations correlate with high DreamSim novelty?
From Question C data: a regression mapping DreamSim distance to perceived similarity. If DreamSim distance 0.3 is perceived as "identical" while 0.5 is perceived as "different," the diversity threshold must be adjusted from >0.15 to >0.5.
The service produces a structured JSON file, updated after each annotation wave:
{
"version": "2026-Q2",
"panel_size": 24,
"sessions_completed": 3,
"total_pairwise_judgments": 1080,
"metric_weights": {
"nima": 0.10, "clip": 0.20,
"dreamsim": 0.45, "vlm_checklist": 0.25
},
"gate_thresholds": {
"nima_min": 4.8, "clip_min": 0.22,
"dreamsim_novelty_min": 0.38, "vlm_max_flags": 2
},
"sensation_clusters": {
"cluster_1": ["anxiety","uncanny","discomfort"],
"cluster_2": ["calm","nostalgia","meditation"],
"cluster_3": ["curiosity","awe","energy"]
}
}
The pipeline ingests this file at the start of each new experimental series.
One annotation wave = one session for all panel participants (~300 pairwise judgments). The recommended cadence is one wave per month. Between waves, the system is expected to generate 200–600 new images (depending on the experimental phase). Each wave includes both fresh images and repeats for tracking temporal consistency.
The service addresses a gap in the generative art evaluation landscape. Existing resources are reviewed below:
| Resource | Design | Evaluators | Domain | Ongoing? |
|---|---|---|---|---|
| AVA dataset | Absolute scoring | Crowdsourced | Photography | No |
| LAION Aesthetics | Automated labels | None (CLIP predictor) | AI art | No |
| Chatbot Arena / GenAI-Bench | Pairwise | Random crowdworkers | Model comparison | Yes |
| Pick-a-Pic | Pairwise | Crowdsourced | T2I model outputs | No |
| This service | Pairwise | Curated reference panel | Generative art | Yes (monthly) |
No existing dataset combines: (1) pairwise comparison design, (2) curated reference panel, (3) sensation/emotion annotation, (4) generative art focus, and (5) ongoing calibration. The service is positioned to produce the first such resource.
| Phase | Duration | Objectives |
|---|---|---|
| Phase 1: MVP | 4–6 weeks | Web application + Bradley-Terry solver. Pilot with 10–15 participants (personal network). 2 pilot sessions. Validation: attention check > 80%, inter-rater agreement > 75%. |
| Phase 2: Full Panel | 6–10 weeks | Panel expansion to 20–30 participants. 3 foundational waves (biweekly). First calibration JSON for pipeline. Admin dashboard. |
| Phase 3: Maintenance | Ongoing | Monthly waves. Automatic calibration data transfer. Temporal stability monitoring. Open dataset publication. |
| Phase 4: Public Platform | Optional | Open-source release. Documentation and API for external calibration requests. |
| Risk | Probability | Mitigation |
|---|---|---|
| Low panel recruitment | Medium | Begin with personal network; compensation ($20–30/session); expand via word-of-mouth |
| High attrition after initial sessions | High | Short sessions (5 min); compensation; share results/feedback with panelists |
| Low inter-rater agreement | Low (pairwise) | Attention checks; outlier exclusion; pairwise design inherently mitigates |
| Metrics do not correlate with human perception | Medium | This is a discovery, not a failure — panel data would then guide search for better metrics |
| Panel bias (homogeneous group) | Medium | Conscious diversity in recruitment; cluster structure monitoring |
Основной конвейер gen-emerge опирается на автоматические метрики — эстетический скоринг NIMA, текстово-визуальное выравнивание CLIP, перцептуальное расстояние DreamSim и структурированные чеклисты VLM — в качестве прокси-показателей художественного качества. Однако ни одна из этих метрик не измеряет непосредственно то, что в конечном счёте представляет интерес: вызывает ли изображение подлинный перцептуальный отклик у человека-наблюдателя.
При отсутствии эмпирической калибровки по человеческому восприятию система подвержена действию закона Гудхарта: за N циклов следует ожидать, что метрики начнут вознаграждать выходы, проходящие автоматические фильтры, но не порождающие никакого значимого эстетического переживания. Reward hacking рассматривается как гарантированный исход любого некалиброванного оценочного конвейера.
Калибровка трактуется как отдельный, асинхронный процесс, который никогда не блокирует основной конвейер. Система работает на значениях по умолчанию или последних доступных калибровочных весах. Когда новые данные калибровки готовы, веса обновляются — по аналогии с программным патчем, применяемым к работающей системе.
Сервис предоставляет участникам веб-интерфейс. Два изображения демонстрируются рядом (side-by-side), и участник отвечает по структурированному протоколу:
| Пункт | Вопрос | Формат ответа | Частота |
|---|---|---|---|
| A | Какое из двух вызывает более сильное ощущение? | Клик на левое / правое | Каждая пара |
| B | Какое именно ощущение? | Выбор из таксономии + свободное поле | Опционально |
| C | Эти два изображения визуально похожи? | 4-балльная шкала | Каждая 10-я пара |
Вопрос B опирается на курированную таксономию ощущений: тревога/беспокойство, покой/медитативность, любопытство/интрига, отстранение/холод, восхищение/awe, дискомфорт/uncanny, ностальгия/тоска, энергия/напряжение.
Вопрос C предназначен для калибровки DreamSim — для определения, совпадают ли оценки перцептуального расстояния модели с воспринимаемым человеком сходством.
Парный дизайн основывается на фундаментальном результате психометрики (Thurstone, 1927; Bradley & Terry, 1952): люди дают более надёжные суждения при сравнении двух объектов, чем при оценке одного объекта по абсолютной шкале.
Глобальный ранжир восстанавливается из парных данных через модель Брэдли-Терри: P(A > B) = σ(βA − βB), где β — латентные параметры качества, оцениваемые методом максимального правдоподобия. Это та же математическая основа, что лежит в основе рейтинга Эло, Chatbot Arena и обучения reward-моделей.
Каждая сессия включает 15–20 пар (3–5 минут). Пары формируются стратегически по четырём категориям:
| Категория | Назначение | Пример |
|---|---|---|
| Калибровочные | Оценка согласия между автоматическим ранжированием и предпочтениями человека | Изображения с высоким vs. низким NIMA |
| Диагностические | Разрешение разногласий между метриками | NIMA говорит A > B, DreamSim — B > A |
| Разведочные | Обнаружение слепых зон метрик | Случайные пары из пула |
| Контрольные | Проверка внутренней согласованности участника | Ранее показанная пара в обратном порядке |
Участники с согласованностью ниже 70% на контрольных парах исключаются из анализа.
Панель оценщиков формируется не через случайный краудсорсинг. Участники рекрутируются по критерию подтверждённой визуальной грамотности:
Минимум: 20 участников. Модель Брэдли-Терри сходится при приблизительно 10–15 сравнениях на объект. При панели из 20 человек × 15 пар за сессию = 300 парных суждений за сессию, что даёт ~6 сравнений на изображение при пуле из 50 изображений — достаточно для стабильного ранжирования после 2–3 сессий.
Оптимум: 25–30 участников — обеспечивает запас при ожидаемом отсеве (20–30%) и более устойчивые оценки параметров.
Разнообразие панели преследуется не ради «объективности» (которой не существует для эстетических суждений), а ради устойчивости сигнала: если парное предпочтение стабильно поперёк разнообразной группы, оно отражает нечто более глубокое, чем вкус отдельного человека.
Сервис производит пять типов результатов:
Модель Брэдли-Терри, обученная на парных данных, даёт β-параметры для каждого изображения, формируя глобальное ранжирование. Это ранжирование формализует коллективную «вкусовую функцию» панели — то, что вызывает более сильное ощущение по мнению 20–30 визуально грамотных людей.
Для каждой автоматической метрики вычисляется корреляция с человеческим ранжированием предпочтений. Если, например, корреляция NIMA ↔ человек = 0.15, а DreamSim ↔ человек = 0.55, это является основанием для снижения веса NIMA и увеличения веса DreamSim в оценочном конвейере.
Для каждого фильтра вычисляется порог, максимизирующий F1-меру предсказания принятия панелью. Текущие пороги (NIMA > 4.5, CLIP > 0.25, DreamSim > адаптивный) — обоснованные предположения; калибровка предоставляет доказательно обоснованные замены.
По данным Вопроса B: какие ощущения наиболее часто вызываются принятыми изображениями? Имеется ли кластерная структура? Какие ощущения коррелируют с высокой новизной по DreamSim?
По данным Вопроса C: регрессионная модель, отображающая расстояние DreamSim в воспринимаемое сходство. Если расстояние DreamSim 0.3 воспринимается как «идентичные», а 0.5 — как «разные», порог разнообразия должен быть скорректирован с >0.15 до >0.5.
Сервис производит структурированный JSON-файл, обновляемый после каждой волны аннотирования. Конвейер поглощает этот файл при запуске каждой новой экспериментальной серии.
Одна волна аннотирования = одна сессия для всех участников панели (~300 парных суждений). Рекомендуемая частота — одна волна в месяц. Между волнами система генерирует 200–600 новых изображений (в зависимости от экспериментальной фазы). Каждая волна включает как свежие изображения, так и повторы для отслеживания темпоральной устойчивости.
Система включает четыре компонента: веб-фронтенд (интерфейс парного сравнения), бэкенд/API (движок подбора пар, решатель Брэдли-Терри, вычисление калибровки), административная панель (управление участниками, мониторинг сессий, экспорт результатов) и модуль интеграции с конвейером (пакетное приёмка изображений, метаданные метрик, стратегический подбор пар).
Сервис восполняет пробел в ландшафте оценки генеративного искусства. Ни один существующий датасет не объединяет: (1) дизайн парного сравнения, (2) курированную референсную панель, (3) аннотацию ощущений/эмоций, (4) фокус на генеративном искусстве и (5) непрерывную калибровку. Сервис позиционируется как первый такой ресурс.
| Фаза | Длительность | Цели |
|---|---|---|
| Фаза 1: MVP | 4–6 недель | Веб-приложение + решатель Брэдли-Терри. Пилот с 10–15 участниками (ближний круг). 2 пилотные сессии. Валидация: прохождение контрольных > 80%, межэкспертное согласие > 75%. |
| Фаза 2: полная панель | 6–10 недель | Расширение панели до 20–30 участников. 3 базовые волны (раз в 2 недели). Первый калибровочный JSON для конвейера. Административная панель. |
| Фаза 3: сопровождение | Непрерывно | Ежемесячные волны. Автоматическая передача калибровочных данных. Мониторинг темпоральной устойчивости. Публикация открытого датасета. |
| Фаза 4: публичная платформа | Опционально | Релиз с открытым исходным кодом. Документация и API для внешних запросов на калибровку. |
| Риск | Вероятность | Митигация |
|---|---|---|
| Низкий рекрутинг панелистов | Средняя | Начать с личной сети; компенсация ($20–30/сессия); расширение через сарафанное радио |
| Высокий отсев после первых сессий | Высокая | Короткие сессии (5 мин); компенсация; обратная связь и результаты панелистам |
| Низкое межэкспертное согласие | Низкая (парный дизайн) | Контрольные пары; исключение выбросов; парный дизайн по своей природе смягчает проблему |
| Метрики не коррелируют с восприятием | Средняя | Это открытие, а не неудача — данные панели направят поиск более релевантных метрик |
| Смещение панели (однородная группа) | Средняя | Осознанное обеспечение разнообразия при рекрутинге; мониторинг кластерной структуры |