Research / Article 09Статья 09
Subproject Подпроект

Perceptual Calibration Service

Сервис перцептуальной калибровки

Human-Grounded Validation of Automated Aesthetic Metrics for Generative Art

Валидация автоматических эстетических метрик через восприятие человека

February 2026
Февраль 2026
20 min read
20 мин чтения

1. Motivation: The Goodhart Problem in Generative Art

The core gen-emerge pipeline relies on automated metrics — NIMA aesthetic scoring, CLIP text-image alignment, DreamSim perceptual distance, and VLM structured checklists — as proxy measures for artistic quality. None of these metrics, however, directly captures what is ultimately at stake: whether an image evokes a genuine perceptual response in a human observer.

Without empirical calibration against human perception, the system is susceptible to Goodhart's Law: over N cycles, the metrics are expected to begin rewarding outputs that pass automated gates while failing to produce any meaningful aesthetic experience. Reward hacking is considered a guaranteed outcome of any uncalibrated evaluation pipeline.

Core Design Principle

Calibration is treated as a separate, asynchronous process that never blocks the main pipeline. The system operates on default or latest-available calibration weights. When new calibration data becomes available, weights are updated — analogous to a software patch applied to a running system.

2. Two Separable Questions

Question 1 (Main Pipeline)
How can the system autonomously generate and select images without continuous human participation? — Addressed by the ensemble of automated metrics operating in a fully automated pipeline.
Question 2 (This Subproject)
How can it be determined whether the automated metrics correlate with what humans actually perceive? — Addressed by a reference panel, statistically significant sampling, structured annotation, and a calibrated preference model that updates metric weights.

3. Interaction Design: Pairwise Comparison Protocol

The service presents participants with a web-based interface. Two images are displayed side-by-side, and the participant responds to a structured protocol:

ItemQuestionResponse FormatFrequency
AWhich of the two evokes a stronger sensation?Click left / rightEvery pair
BWhat kind of sensation?Select from taxonomy + free textOptional
CAre these two images visually similar?4-point scaleEvery 10th pair

Question B draws from a curated sensation taxonomy: anxiety/unease, calm/meditativeness, curiosity/intrigue, detachment/coldness, awe/admiration, discomfort/uncanny, nostalgia/longing, energy/tension.

Question C is designed to calibrate DreamSim — determining whether the model's perceptual distance scores align with human-perceived similarity.

3.1 Why Pairwise Comparison

The pairwise design is grounded in a fundamental result from psychometrics (Thurstone, 1927; Bradley & Terry, 1952): humans produce more reliable judgments when comparing two objects than when rating a single object on an absolute scale.

Absolute scoring (1–10)
ICC ~0.40 in crowdsourcing, ~0.70 in laboratory settings. Different individuals use different portions of the scale. Reliability is low.
Pairwise comparison
Inter-rater agreement reaches 85%+. Scale bias is eliminated. The approach is robust across participant demographics.

A global ranking is reconstructed from pairwise data through a Bradley-Terry model: P(A > B) = σ(βA − βB), where β values are latent quality parameters estimated via MLE. This is the same mathematical framework underlying the Elo rating system, Chatbot Arena, and reward model training.

3.2 Strategic Pair Formation

Each session comprises 15–20 pairs (3–5 minutes). Pairs are formed strategically across four categories:

CategoryPurposeExample
CalibrationAssess agreement between automated rankings and human preferenceNIMA-high vs. NIMA-low images
DiagnosticResolve disagreements between metricsNIMA says A > B, DreamSim says B > A
ExplorationDiscover metric blind spotsRandom pairs from the pool
Attention checkVerify participant consistencyPreviously shown pair, reversed

Participants with consistency below 70% on attention checks are excluded from analysis.

4. Reference Panel Design

The evaluation panel is not assembled through random crowdsourcing. Participants are recruited for confirmed visual literacy:

4.1 Panel Size and Statistical Power

Minimum: 20 participants. The Bradley-Terry model converges at approximately 10–15 comparisons per item. With a 20-person panel × 15 pairs per session = 300 pairwise judgments per session, yielding ~6 comparisons per image for a pool of 50 images — sufficient for a stable ranking after 2–3 sessions.

Optimum: 25–30 participants — providing buffer for expected attrition (20–30%) and more robust parameter estimates.

4.2 Diversity Requirements

Panel diversity is pursued not for "objectivity" (which does not exist for aesthetic judgment) but for signal robustness: if a pairwise preference is stable across a diverse group, it reflects something deeper than any individual's taste.

5. Outputs: The Calibrated Preference Model

SYSTEM INTEGRATION ARCHITECTURE Gen-Emerge Pipeline T5-GATE: NIMA + CLIP + DreamSim + VLM Gate Weights & Thresholds Images Metric Scores calibration.json Updated weights, thresholds, correlations Perceptual Calibration Service Pairwise Comparison Interface Sensation Annotation Similarity Judgment (DreamSim) Bradley-TerryModel ThresholdOptimization Reference Panel: 20–30 visually literate evaluators images calibration JSON Continuous generation Monthly calibration waves Pipeline never waits for calibration — runs on defaults or latest available weights

The service produces five deliverable outputs:

5.1 Preference Ranking

A Bradley-Terry model fitted to pairwise data yields β-parameters for each image, producing a global ranking. This ranking formalizes the panel's collective "taste function" — what evokes a stronger sensation according to 20–30 visually literate individuals.

5.2 Metric–Human Correlations

For each automated metric, a correlation with human preference rankings is computed:

correlation(NIMA_score, human_β) = ?
correlation(CLIP_score, human_β) = ?
correlation(DreamSim_novelty, human_β) = ?
correlation(VLM_checklist_score, human_β) = ?

If, for example, NIMA ↔ human = 0.15 while DreamSim ↔ human = 0.55, this constitutes evidence for reducing NIMA weight and increasing DreamSim weight in the gating pipeline.

5.3 Optimal Gate Thresholds

For each gate, the threshold that maximizes F1 score for predicting human panel acceptance is computed. Current thresholds (NIMA > 4.5, CLIP > 0.25, DreamSim > adaptive) are educated guesses; calibration provides evidence-based replacements.

5.4 Sensation Taxonomy

From Question B data: which sensations are most frequently evoked by accepted images? Is there cluster structure (e.g., "anxiety" + "uncanny" = one cluster, "calm" + "nostalgia" = another)? Which sensations correlate with high DreamSim novelty?

5.5 DreamSim Calibration

From Question C data: a regression mapping DreamSim distance to perceived similarity. If DreamSim distance 0.3 is perceived as "identical" while 0.5 is perceived as "different," the diversity threshold must be adjusted from >0.15 to >0.5.

6. Calibration Data Format

The service produces a structured JSON file, updated after each annotation wave:

{
  "version": "2026-Q2",
  "panel_size": 24,
  "sessions_completed": 3,
  "total_pairwise_judgments": 1080,

  "metric_weights": {
    "nima": 0.10,  "clip": 0.20,
    "dreamsim": 0.45,  "vlm_checklist": 0.25
  },
  "gate_thresholds": {
    "nima_min": 4.8,  "clip_min": 0.22,
    "dreamsim_novelty_min": 0.38,  "vlm_max_flags": 2
  },
  "sensation_clusters": {
    "cluster_1": ["anxiety","uncanny","discomfort"],
    "cluster_2": ["calm","nostalgia","meditation"],
    "cluster_3": ["curiosity","awe","energy"]
  }
}

The pipeline ingests this file at the start of each new experimental series.

7. Calibration Frequency

One annotation wave = one session for all panel participants (~300 pairwise judgments). The recommended cadence is one wave per month. Between waves, the system is expected to generate 200–600 new images (depending on the experimental phase). Each wave includes both fresh images and repeats for tracking temporal consistency.

Foundational Phase (Waves 1–3)
Biweekly cadence. Establishes baseline: initial metric weights, thresholds, sensation taxonomy.
Maintenance Phase
Monthly cadence. Monitors stability of correlations and detects metric drift (alarm if correlation drops > 0.1 between waves).

8. Technical Architecture

TECHNICAL COMPONENTS Web Frontend Side-by-side images Sensation selector Similarity slider Progress bar React / Next.js Backend / API Pair selection engine User management Bradley-Terry solver Calibration computation Python (FastAPI) + choix Admin Dashboard Panel management Session monitoring Calibration history JSON export React + charts Image Integration Batch ingestion API Metric metadata store Smart pair selection S3 image storage PostgreSQL + S3 Data Flow gen-emerge images + scores → Image Integration → Pair Selection Engine → Web Frontend Human judgments → Backend → Bradley-Terry → Metric correlations → calibration.json calibration.json → gen-emerge pipeline (async update, never blocks generation)

9. Independent Scientific Value

The service addresses a gap in the generative art evaluation landscape. Existing resources are reviewed below:

ResourceDesignEvaluatorsDomainOngoing?
AVA datasetAbsolute scoringCrowdsourcedPhotographyNo
LAION AestheticsAutomated labelsNone (CLIP predictor)AI artNo
Chatbot Arena / GenAI-BenchPairwiseRandom crowdworkersModel comparisonYes
Pick-a-PicPairwiseCrowdsourcedT2I model outputsNo
This servicePairwiseCurated reference panelGenerative artYes (monthly)

No existing dataset combines: (1) pairwise comparison design, (2) curated reference panel, (3) sensation/emotion annotation, (4) generative art focus, and (5) ongoing calibration. The service is positioned to produce the first such resource.

9.1 Potential Outputs

10. Roadmap

PhaseDurationObjectives
Phase 1: MVP4–6 weeksWeb application + Bradley-Terry solver. Pilot with 10–15 participants (personal network). 2 pilot sessions. Validation: attention check > 80%, inter-rater agreement > 75%.
Phase 2: Full Panel6–10 weeksPanel expansion to 20–30 participants. 3 foundational waves (biweekly). First calibration JSON for pipeline. Admin dashboard.
Phase 3: MaintenanceOngoingMonthly waves. Automatic calibration data transfer. Temporal stability monitoring. Open dataset publication.
Phase 4: Public PlatformOptionalOpen-source release. Documentation and API for external calibration requests.

11. Risk Assessment

RiskProbabilityMitigation
Low panel recruitmentMediumBegin with personal network; compensation ($20–30/session); expand via word-of-mouth
High attrition after initial sessionsHighShort sessions (5 min); compensation; share results/feedback with panelists
Low inter-rater agreementLow (pairwise)Attention checks; outlier exclusion; pairwise design inherently mitigates
Metrics do not correlate with human perceptionMediumThis is a discovery, not a failure — panel data would then guide search for better metrics
Panel bias (homogeneous group)MediumConscious diversity in recruitment; cluster structure monitoring

12. Budget Estimate

Development
5–7 weeks (1 developer): web application (3–4 weeks), backend + Bradley-Terry (1–2 weeks), admin dashboard (1 week)
Panel Compensation
$20–30/session × 25 panelists × 12 sessions/year = $6,000–9,000/year
Infrastructure
Hosting $50–100/month + image storage $10–50/month
Annual Total
~$8,000–12,000 + developer time

1. Мотивация: проблема Гудхарта в генеративном искусстве

Основной конвейер gen-emerge опирается на автоматические метрики — эстетический скоринг NIMA, текстово-визуальное выравнивание CLIP, перцептуальное расстояние DreamSim и структурированные чеклисты VLM — в качестве прокси-показателей художественного качества. Однако ни одна из этих метрик не измеряет непосредственно то, что в конечном счёте представляет интерес: вызывает ли изображение подлинный перцептуальный отклик у человека-наблюдателя.

При отсутствии эмпирической калибровки по человеческому восприятию система подвержена действию закона Гудхарта: за N циклов следует ожидать, что метрики начнут вознаграждать выходы, проходящие автоматические фильтры, но не порождающие никакого значимого эстетического переживания. Reward hacking рассматривается как гарантированный исход любого некалиброванного оценочного конвейера.

Базовый принцип проектирования

Калибровка трактуется как отдельный, асинхронный процесс, который никогда не блокирует основной конвейер. Система работает на значениях по умолчанию или последних доступных калибровочных весах. Когда новые данные калибровки готовы, веса обновляются — по аналогии с программным патчем, применяемым к работающей системе.

2. Два разделимых вопроса

Вопрос 1 (основной конвейер)
Каким образом система может автономно генерировать и отбирать изображения без непрерывного участия человека? — Решается ансамблем автоматических метрик в полностью автоматизированном конвейере.
Вопрос 2 (данный подпроект)
Каким образом может быть определено, коррелируют ли автоматические метрики с тем, что люди действительно воспринимают? — Решается через референсную панель, статистически значимую выборку, структурированную аннотацию и калиброванную модель предпочтений, обновляющую веса метрик.

3. Дизайн взаимодействия: протокол парного сравнения

Сервис предоставляет участникам веб-интерфейс. Два изображения демонстрируются рядом (side-by-side), и участник отвечает по структурированному протоколу:

ПунктВопросФормат ответаЧастота
AКакое из двух вызывает более сильное ощущение?Клик на левое / правоеКаждая пара
BКакое именно ощущение?Выбор из таксономии + свободное полеОпционально
CЭти два изображения визуально похожи?4-балльная шкалаКаждая 10-я пара

Вопрос B опирается на курированную таксономию ощущений: тревога/беспокойство, покой/медитативность, любопытство/интрига, отстранение/холод, восхищение/awe, дискомфорт/uncanny, ностальгия/тоска, энергия/напряжение.

Вопрос C предназначен для калибровки DreamSim — для определения, совпадают ли оценки перцептуального расстояния модели с воспринимаемым человеком сходством.

3.1 Обоснование парного дизайна

Парный дизайн основывается на фундаментальном результате психометрики (Thurstone, 1927; Bradley & Terry, 1952): люди дают более надёжные суждения при сравнении двух объектов, чем при оценке одного объекта по абсолютной шкале.

Абсолютная оценка (1–10)
ICC ~0.40 при краудсорсинге, ~0.70 в лабораторных условиях. Разные участники используют разные участки шкалы. Надёжность низкая.
Парное сравнение
Межэкспертное согласие достигает 85%+. Смещение шкалы устраняется. Подход устойчив к демографическим различиям участников.

Глобальный ранжир восстанавливается из парных данных через модель Брэдли-Терри: P(A > B) = σ(βA − βB), где β — латентные параметры качества, оцениваемые методом максимального правдоподобия. Это та же математическая основа, что лежит в основе рейтинга Эло, Chatbot Arena и обучения reward-моделей.

3.2 Стратегическое формирование пар

Каждая сессия включает 15–20 пар (3–5 минут). Пары формируются стратегически по четырём категориям:

КатегорияНазначениеПример
КалибровочныеОценка согласия между автоматическим ранжированием и предпочтениями человекаИзображения с высоким vs. низким NIMA
ДиагностическиеРазрешение разногласий между метрикамиNIMA говорит A > B, DreamSim — B > A
РазведочныеОбнаружение слепых зон метрикСлучайные пары из пула
КонтрольныеПроверка внутренней согласованности участникаРанее показанная пара в обратном порядке

Участники с согласованностью ниже 70% на контрольных парах исключаются из анализа.

4. Дизайн референсной панели

Панель оценщиков формируется не через случайный краудсорсинг. Участники рекрутируются по критерию подтверждённой визуальной грамотности:

4.1 Размер панели и статистическая мощность

Минимум: 20 участников. Модель Брэдли-Терри сходится при приблизительно 10–15 сравнениях на объект. При панели из 20 человек × 15 пар за сессию = 300 парных суждений за сессию, что даёт ~6 сравнений на изображение при пуле из 50 изображений — достаточно для стабильного ранжирования после 2–3 сессий.

Оптимум: 25–30 участников — обеспечивает запас при ожидаемом отсеве (20–30%) и более устойчивые оценки параметров.

4.2 Требования к разнообразию

Разнообразие панели преследуется не ради «объективности» (которой не существует для эстетических суждений), а ради устойчивости сигнала: если парное предпочтение стабильно поперёк разнообразной группы, оно отражает нечто более глубокое, чем вкус отдельного человека.

5. Выходы: калиброванная модель предпочтений

Сервис производит пять типов результатов:

5.1 Ранжирование предпочтений

Модель Брэдли-Терри, обученная на парных данных, даёт β-параметры для каждого изображения, формируя глобальное ранжирование. Это ранжирование формализует коллективную «вкусовую функцию» панели — то, что вызывает более сильное ощущение по мнению 20–30 визуально грамотных людей.

5.2 Корреляции метрик с человеческими предпочтениями

Для каждой автоматической метрики вычисляется корреляция с человеческим ранжированием предпочтений. Если, например, корреляция NIMA ↔ человек = 0.15, а DreamSim ↔ человек = 0.55, это является основанием для снижения веса NIMA и увеличения веса DreamSim в оценочном конвейере.

5.3 Оптимальные пороги фильтрации

Для каждого фильтра вычисляется порог, максимизирующий F1-меру предсказания принятия панелью. Текущие пороги (NIMA > 4.5, CLIP > 0.25, DreamSim > адаптивный) — обоснованные предположения; калибровка предоставляет доказательно обоснованные замены.

5.4 Таксономия ощущений

По данным Вопроса B: какие ощущения наиболее часто вызываются принятыми изображениями? Имеется ли кластерная структура? Какие ощущения коррелируют с высокой новизной по DreamSim?

5.5 Калибровка DreamSim

По данным Вопроса C: регрессионная модель, отображающая расстояние DreamSim в воспринимаемое сходство. Если расстояние DreamSim 0.3 воспринимается как «идентичные», а 0.5 — как «разные», порог разнообразия должен быть скорректирован с >0.15 до >0.5.

6. Формат калибровочных данных

Сервис производит структурированный JSON-файл, обновляемый после каждой волны аннотирования. Конвейер поглощает этот файл при запуске каждой новой экспериментальной серии.

7. Частота калибровки

Одна волна аннотирования = одна сессия для всех участников панели (~300 парных суждений). Рекомендуемая частота — одна волна в месяц. Между волнами система генерирует 200–600 новых изображений (в зависимости от экспериментальной фазы). Каждая волна включает как свежие изображения, так и повторы для отслеживания темпоральной устойчивости.

Базовая фаза (волны 1–3)
Двухнедельная частота. Устанавливается базовый уровень: начальные веса метрик, пороги, таксономия ощущений.
Фаза сопровождения
Ежемесячная частота. Мониторинг стабильности корреляций и обнаружение дрейфа метрик (тревога при падении корреляции > 0.1 между волнами).

8. Техническая архитектура

Система включает четыре компонента: веб-фронтенд (интерфейс парного сравнения), бэкенд/API (движок подбора пар, решатель Брэдли-Терри, вычисление калибровки), административная панель (управление участниками, мониторинг сессий, экспорт результатов) и модуль интеграции с конвейером (пакетное приёмка изображений, метаданные метрик, стратегический подбор пар).

9. Самостоятельная научная ценность

Сервис восполняет пробел в ландшафте оценки генеративного искусства. Ни один существующий датасет не объединяет: (1) дизайн парного сравнения, (2) курированную референсную панель, (3) аннотацию ощущений/эмоций, (4) фокус на генеративном искусстве и (5) непрерывную калибровку. Сервис позиционируется как первый такой ресурс.

9.1 Потенциальные выходы

10. Дорожная карта

ФазаДлительностьЦели
Фаза 1: MVP4–6 недельВеб-приложение + решатель Брэдли-Терри. Пилот с 10–15 участниками (ближний круг). 2 пилотные сессии. Валидация: прохождение контрольных > 80%, межэкспертное согласие > 75%.
Фаза 2: полная панель6–10 недельРасширение панели до 20–30 участников. 3 базовые волны (раз в 2 недели). Первый калибровочный JSON для конвейера. Административная панель.
Фаза 3: сопровождениеНепрерывноЕжемесячные волны. Автоматическая передача калибровочных данных. Мониторинг темпоральной устойчивости. Публикация открытого датасета.
Фаза 4: публичная платформаОпциональноРелиз с открытым исходным кодом. Документация и API для внешних запросов на калибровку.

11. Оценка рисков

РискВероятностьМитигация
Низкий рекрутинг панелистовСредняяНачать с личной сети; компенсация ($20–30/сессия); расширение через сарафанное радио
Высокий отсев после первых сессийВысокаяКороткие сессии (5 мин); компенсация; обратная связь и результаты панелистам
Низкое межэкспертное согласиеНизкая (парный дизайн)Контрольные пары; исключение выбросов; парный дизайн по своей природе смягчает проблему
Метрики не коррелируют с восприятиемСредняяЭто открытие, а не неудача — данные панели направят поиск более релевантных метрик
Смещение панели (однородная группа)СредняяОсознанное обеспечение разнообразия при рекрутинге; мониторинг кластерной структуры

12. Оценка бюджета

Разработка
5–7 недель (1 разработчик): веб-приложение (3–4 недели), бэкенд + Брэдли-Терри (1–2 недели), административная панель (1 неделя)
Компенсация панели
$20–30/сессия × 25 панелистов × 12 сессий/год = $6 000–9 000/год
Инфраструктура
Хостинг $50–100/мес + хранение изображений $10–50/мес
Годовой итого
~$8 000–12 000 + время разработчика
PreviousПредыдущая 08 · Project Plan08 · План проекта NextСледующая 10 · Weekly: March 16–2310 · Неделя: 16–23 марта