Модуль 6. Введение в диффузионные моделиНа этом занятие вы познакомитесь с понятием диффузионных моделей, узнаете, в чем отличие Variance exploding (VE) от Variance preserving (VP) диффузии, чем похожи VAE и диффузия, а также, как можно обучать диффузионные модели.
Модуль 7. Score функция и условная генерацияВ этом занятии вы познакомитесь с различными параметризациями диффузионных моделей. Вы уже знакомы с моделями предсказания шума, но можно смотреть на диффузионные модели и под другим угол, например, как модель денойзинга или предсказания скор функции. Различные параметризации позволяют увидеть, как использовать диффузию для условной генерации, например, генерации изображений по текстовому описанию. Вы также посмотрите как работает условная генерация и как можно оценить соответствие условию.
Модуль 8. Диффузионные модели с непрерывным временемВ данном разделе вы познакомитесь с построением диффузионных моделей с непрерывным временем. Диффузионные модели в непрерывном времени требуют большего объема усилий для построения, но представляют собой наиболее полную и унифицированную парадигму с наибольшим количеством инструментов для модификации итоговой генеративной модели.
Для их построения мы вспомним определение и физический смысл обыкновенных дифференциальных уравнений (ОДУ), определим непрерывные по времени аналоги процессов зашумления с помощью стохастических дифференциальных уравнений (СДУ) и поставим задачу диффузионного моделирования как обращения по времени этих процессов. Центральным результатом станут формулировка и вывод уравнений непрерывности и Фоккера-Планка, описывающих, как меняется плотность распределения ОДУ/СДУ с течением времени. Рассмотрев соответствующие уравнения для прямого процесса зашумления и обратного процесса расшумления мы найдем СДУ, порождающее последний, и получим процесс, постепенно превращающий шум в данные. В процессе мы также поймем, как сделать процесс генерации из диффузионных моделей детерминированным. На практике такой подход часто называют DDIM и используют для существенного сокращения числа вызовов нейросети на этапе генерации.
Модуль 9. Flow matchingНа этом занятии мы познакомимся с принципами работы Flow Matching (FM) моделей — современным семейством генеративных моделей, основанных на обыкновенных дифференциальных уравнениях (ОДУ). Мы подробно разберем, как FM соотносятся с диффузионными моделями, обсудим их ключевые преимущества и недостатки.
Мы начнем с осмысления ключевого ограничения диффузионных моделей — сложности процесса симуляции искривленных траекторий, и разберемся, как идея построения моделей с более прямыми траекториями приводит к парадигме Flow Matching. Далее увидим, что базовый подход Flow Matching тем не менее не гарантирует достаточно прямых траекторий и уделим отдельное внимание модели Rectified Flow, которая позволяет явно выпрямлять траектории, но вносит свои компромиссы.
В практической части мы реализуем несколько вариантов FM-моделей, протестируем их на различных данных и наглядно оценим «прямоту» их траекторий.
Модуль 10. Латентная диффузия, Stable Diffusion, современные архитектурыВ этом разделе мы посмотрим на эволюцию диффузионных моделей, начиная с обычных пиксельных диффузионок, затем перейдем в латентное пространство, а затем (спойлер!) снова вернемся к пиксельным диффузиям :)
Рассмотрим, чем отличаются UNet-based архитектуры от трансформерных, как можно ускорять обучение и при чем тут DINO. Кроме этого обсудим, а какими метриками сейчас можно оценить качество моделей и при чем тут CLIP.
Поступить на курс часть 3: Fundamental models.