Depositphotos
Нібито недорогий штучний інтелект DeepSeek спричинив паніку серед інвесторів та падіння акцій NVIDIA. Аналітики сумніваються у низькій вартості моделей DeepSeek.
У своїй статті на Arxive DeepSeek вказує кількість апаратних годин, витрачених на навчання чатбота. Йдеться про 2,788 млн GPU-годин з використанням обчислювачів NVIDIA H800. Розробники вказують приблизну вартість години $2, і в них виходить $5,576 млн. Ця інформація спричинила сумніви у високій вартості навчання ШІ, про на який наполягають OpenAI та інші компанії, що привело до перегляду вартості ринку ШІ, падінню акцій NVIDIA та високій популярності DeepSeek в App Store.
Сайт Wccftech нагадує, що DeepSeek був побічним проєктом китайського хедж-фонду High-Flyer. Згодом DeepSeek перетворився на окрему компанію, оскільки фонд вирішив виокремити проєкт. SemiAnalysis стверджує, що High-Flyer придбав 10 000 одиниць обчислювачів NVIDIA A100 ще у 2021 році, коли експортні обмеження до Китаю не були такими агресивними. Дослідники сумніваються у вказаній низькій вартості навчання DeepSeek.
Апаратні потужності, використані для навчання ШІ DeepSeek / SemiAnalysis
У звіті йдеться, що DeepSeek має близько 10 000 «китайських» графічних процесорів NVIDIA H800 AI та 10 000 чипів вищого класу H100 AI. Крім них, компанії придбали прискорювачі штучного інтелекту NVIDIA H20, і вони мають «пул» ресурсів, які спільно використовуються DeepSeek та High-Flyer для «торгівлі, висновків, навчання та досліджень». Це означає приблизно $1,6 млрд капітальних витрат на DeepSeek, а операційні витрати, за неофіційними даними, становлять близько $944 млн. Це майже у 500 разів вищі витрати, ніж ті, що сколихнули ринок.
Зведений аналіз вартості та ефективності моделей ШІ / SemiAnalysis
Аналітики вважають початкову цифру частиною витрат, ймовірно, пов’язаних лише із запуском остаточної моделі. SemiAnalysis відзначає ефективне залучення DeepSeek місцевих талантів для розробки за допомогою рекрутингових заходів у найкращих китайських університетах з зарплатою понад $1,3 млн в окремих працівників. Звіт також містить тестування та аналіз ефективності DeepSeek-V3.