Курс
Speech Processing
Блок 1. (4 недели)
Основные представления аудиосигналов
Мы начнем с фундамента — изучения способов преобразования "сырого" аудиосигнала в формы, пригодные для обработки моделями машинного обучения. Вы разберетесь в особенностях временного представления (waveform), научитесь строить и интерпретировать спектрограммы, отражающие частотные характеристики сигнала во времени.

Далее мы перейдем к современным представлениям: скрытым состояниям (embeddings) самообученных моделей (SSL), которые улавливают абстрактные признаки речи, и дискретным токенам — сжатому и семантически насыщенному представлению, которое является ключевым для интеграции с большими языковыми моделями.
Блок 2. (4 недели)
Основные задачи в Speech Processing (ASR, TTS)
Этот блок посвящен двум столпам обработки речи.

В части ASR (Automatic Speech Recognition) мы глубоко изучим архитектуры моделей, преобразующих речь в текст: от классических гибридных систем и моделей на основе RNN с механизмом внимания (Listen, Attend and Spell) до современных полностью эндо-энд подходов (Conformers).

В части TTS (Text-to-Speech) мы разберем, как работает синтез человеческой речи из текста, изучив ключевые модели и компоненты, отвечающие за создание естественного и выразительного звучания.
Блок 3. (2 недели)
Обзор других ключевых задач в Speech Processing
Помимо ASR и TTS, существует широкий спектр важных прикладных задач. В этом блоке мы проведем обзор разных направлений. Это поможет сформировать целостную картину экосистемы обработки речи.
Блок 4. (1 неделя)
Low-resource языки и non-English языки

Подавляющее большинство исследований и моделей сфокусировано на английском языке. В этом блоке мы обсудим уникальные вызовы, связанные с разработкой решений для малоресурсных и нетипичных для мира ML языков (включая русский).

Мы рассмотрим практические методики: transfer learning и fine-tuning с английских моделей, активное обучение с привлечением данных, а также подходы с использованием самообучения (self-supervised learning) для извлечения универсальных речевых представлений, не зависящих от языка.
Блок 5. (1 неделя)
Speech LLM (Large Language Models)
Мы живем в эпоху LLM, и обработка речи не осталась в стороне. Этот блок посвящен самому передовому краю науки — интеграции речи с большими языковыми моделями.

Мы изучим, как заставить LLM понимать и генерировать речь напрямую, минуя этап текста. Рассмотрим архитектуры речевых LLM, где речь представляется в виде дискретных токенов, и обсудим новые парадигмы взаимодействия, такие как универсальные речевые модели, способные решать множество задач по одному промпту.
Блок 6. (1 неделя)
ML in Audio (задачи в аудиодомене)
Финальный блок курса будет посвящен работе с аудио, в котором будет обзор актуальных задач в домене аудио, не касающиеся речи.