Мы живем в эпоху LLM, и обработка речи не осталась в стороне. Этот блок посвящен самому передовому краю науки — интеграции речи с большими языковыми моделями.
Мы изучим, как заставить LLM понимать и генерировать речь напрямую, минуя этап текста. Рассмотрим архитектуры речевых LLM, где речь представляется в виде дискретных токенов, и обсудим новые парадигмы взаимодействия, такие как универсальные речевые модели, способные решать множество задач по одному промпту.