Ілюстрація роботи OmniHuman-1 / ByteDance
Китайський технологічний гігант ByteDance, який володіє TikTok, представив штучний інтелект для створення відео OmniHuman-1. Модель дуже реалістична, попри деякі нюанси.
У демонстраційних відео модель згенерувала вигаданий епізод TED Talk, лекцію Ейнштейна, прочитану ним самим, та привітання леді похилого віку з келихом вина. Людські руки вийшли не надто вдало, як це часто буває у генеративних моделей, але загалом, схоже, OmniHuman-1 робить ставку на реалізм.
Щоб створити відео, моделі достатньо надати лише одне фото та аудіозапис. Серед можливостей ШІ — редагування відео, зміни рухів тіла та жестів. OmniHuman-1 навчалася на 18700 годинах відеоданих із використанням підходу «усі умови», який дозволяє одночасне навчання з кількох джерел введення: тексту, аудіо, відео тощо. Дослідники ByteDance кажуть, що широкий діапазон навчальних даних допомагає ШІ «суттєво зменшити втрату даних» порівняно зі старішими моделями для створення deepfake.
Зараз китайські компанії форсують створення різноманітних моделей ШІ, зокрема мовних та генеративних. Минулого року ще один гігант, Tencent, представив генеративну модель HunyuanVideo, яка демонструє чудові відео, але не здається такою ж реалістичною. Також повідомлялося, про іншу розробку Tencent, модель для створення ігор GameGen-O, яка нібито навчалася на сучасних ігор.
СпецпроєктиFREEhost.UA збільшує ресурси VPS-хостингу для всіх тарифних планів. Що отримають клієнти дата-центруКрипто-фіатний обмінник ObmenAT24 отримав премію PSM Awards 2024. Що оцінювали експерти та користувачі
Серед ризиків використання китайських ШІ — безпека даних, цензурованість та невпевненість у дотриманні авторських прав. Проте деякі з них, як популярна мовна модель від DeepSeek натомість пропонують невелику вартість та відкритий код. Заявлена низька вартість DeepSeek вже спровокувала падіння акцій, проте аналітики сумніваються у заявлених цифрах.