Часть 3. Fundamental models
Блок 1. (3 недели)
Vision transformers, SSL подходы для обучения фундаментальных моделей
Модуль 1. Vision transformers
На этом занятии мы разберём, как архитектура Transformer была адаптирована для задач компьютерного зрения, и познакомимся с Vision Transformer (ViT). Рассмотрим устройство классического ViT, а также основные модификации и расширения этой архитектуры. Отдельное внимание уделим механизму attention и его вариантам, применяемым в vision-моделях.
Также обсудим ключевые различия между сверточными нейронными сетями (CNN) и Vision Transformers — их inductive bias, сильные и слабые стороны. В практической части занятия реализуем собственную версию Vision Transformer и разберём её основные компоненты.

Модуль 2. CLIP
На этом занятии мы познакомимся с моделью CLIP и разберём принципы её обучения. Подробно обсудим contrastive loss, лежащий в основе CLIP, а также его основные модификации и обобщения. Рассмотрим архитектуры и идеи других CLIP-подобных моделей, таких как BLIP, ALIGN, SigLIP и FLAVA, и обсудим, чем они отличаются друг от друга.
Отдельное внимание уделим свойствам мультимодальных представлений (эмбеддингов), которые выучивает CLIP: их геометрии, семантической согласованности и способности к обобщению. Поговорим о том, как CLIP применяется для zero-shot классификации изображений, а также о том, как текстовые и визуальные представления, полученные с помощью CLIP, используются при обучении других моделей для широкого круга downstream-задач.

Модуль 3. Self-supervised методы
В этом разделе вы узнаете про self-supervised методы в компьютерном зрении и как делать foundational models когда нет разметки.

Блок 2. (2 недели)
Visual Language models
Модуль 4. VLM

Модуль 5. VLM
Блок 3. Генеративные модели
Модуль 6. Введение в диффузионные модели
На этом занятие вы познакомитесь с понятием диффузионных моделей, узнаете, в чем отличие Variance exploding (VE) от Variance preserving (VP) диффузии, чем похожи VAE и диффузия, а также, как можно обучать диффузионные модели.

Модуль 7. Score функция и условная генерация
В этом занятии вы познакомитесь с различными параметризациями диффузионных моделей. Вы уже знакомы с моделями предсказания шума, но можно смотреть на диффузионные модели и под другим угол, например, как модель денойзинга или предсказания скор функции. Различные параметризации позволяют увидеть, как использовать диффузию для условной генерации, например, генерации изображений по текстовому описанию. Вы также посмотрите как работает условная генерация и как можно оценить соответствие условию.

Модуль 8. Диффузионные модели с непрерывным временем
В данном разделе вы познакомитесь с построением диффузионных моделей с непрерывным временем. Диффузионные модели в непрерывном времени требуют большего объема усилий для построения, но представляют собой наиболее полную и унифицированную парадигму с наибольшим количеством инструментов для модификации итоговой генеративной модели.
Для их построения мы вспомним определение и физический смысл обыкновенных дифференциальных уравнений (ОДУ), определим непрерывные по времени аналоги процессов зашумления с помощью стохастических дифференциальных уравнений (СДУ) и поставим задачу диффузионного моделирования как обращения по времени этих процессов. Центральным результатом станут формулировка и вывод уравнений непрерывности и Фоккера-Планка, описывающих, как меняется плотность распределения ОДУ/СДУ с течением времени. Рассмотрев соответствующие уравнения для прямого процесса зашумления и обратного процесса расшумления мы найдем СДУ, порождающее последний, и получим процесс, постепенно превращающий шум в данные. В процессе мы также поймем, как сделать процесс генерации из диффузионных моделей детерминированным. На практике такой подход часто называют DDIM и используют для существенного сокращения числа вызовов нейросети на этапе генерации.

Модуль 9. Flow matching
На этом занятии мы познакомимся с принципами работы Flow Matching (FM) моделей — современным семейством генеративных моделей, основанных на обыкновенных дифференциальных уравнениях (ОДУ). Мы подробно разберем, как FM соотносятся с диффузионными моделями, обсудим их ключевые преимущества и недостатки.
Мы начнем с осмысления ключевого ограничения диффузионных моделей — сложности процесса симуляции искривленных траекторий, и разберемся, как идея построения моделей с более прямыми траекториями приводит к парадигме Flow Matching. Далее увидим, что базовый подход Flow Matching тем не менее не гарантирует достаточно прямых траекторий и уделим отдельное внимание модели Rectified Flow, которая позволяет явно выпрямлять траектории, но вносит свои компромиссы.
В практической части мы реализуем несколько вариантов FM-моделей, протестируем их на различных данных и наглядно оценим «прямоту» их траекторий.

Модуль 10. Латентная диффузия, Stable Diffusion, современные архитектуры
В этом разделе мы посмотрим на эволюцию диффузионных моделей, начиная с обычных пиксельных диффузионок, затем перейдем в латентное пространство, а затем (спойлер!) снова вернемся к пиксельным диффузиям :)
Рассмотрим, чем отличаются UNet-based архитектуры от трансформерных, как можно ускорять обучение и при чем тут DINO. Кроме этого обсудим, а какими метриками сейчас можно оценить качество моделей и при чем тут CLIP.

Поступить на курс часть 3: Fundamental models.