Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал крупным игроком, даже способствуя значительному падению цены акций Nvidia.
Успех DeepSeek проистекает из его инновационной архитектуры и методов обучения. Ключевые технологии включают:
- Предсказание с несколькими точками (MTP): прогнозирование нескольких слов одновременно, повышение точности и эффективности.
- Смесь экспертов (MOE): использование 256 нейронных сетей (восемь активированных на токен), ускорение обучения и улучшения производительности.
- Многопользовательское скрытое внимание (MLA): многократно извлечение ключевых деталей из текста, обеспечивающая не пропущена важная информация.
В то время как DeepSeek первоначально потребовал удивительно низкую стоимость обучения в 6 миллионов долларов США для Deepseek V3, используя 2048 графических процессоров, семианализ выявил гораздо более обширную инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper (включая 10 000 H800, 10 000 H100 и дополнительные графические процессоры H20), распространяемые по нескольким центрам данных. Это приводит к общим инвестициям в сервер примерно в 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.
DeepSeek, дочерняя компания Китайского хедж-фонда High-Fund, владеет своими центрами обработки данных, обеспечивая контроль над оптимизацией и более быстрой реализацией инноваций. Его самофинансируемая природа повышает гибкость и скорость принятия решений. Компания также привлекает лучших талантов, а некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в первую очередь, набираясь ведущие из ведущих китайских университетов.
Первоначальная цифра DeepSeek в 6 миллионов долларов представляет собой только предварительные затраты на графический процессор, исключая исследования, уточнение, обработку данных и инфраструктуру. Общая инвестиция компании в развитие искусственного интеллекта превышает 500 миллионов долларов. Его бережняя структура, однако, обеспечивает эффективную инновационную реализацию по сравнению с более крупными, более бюрократическими компаниями.
Успех DeepSeek подчеркивает потенциал хорошо финансируемых независимых компаний по искусственному ИИ, чтобы конкурировать с отраслевыми гигантами. Тем не менее, его достижения основаны на значительных инвестициях, технологических прорывах и сильной команде. Следовательно, претензия «революционного бюджета» на разработку модели является упрощением. Тем не менее, его затраты остаются значительно ниже, чем конкуренты; Например, модель DeepSeek R1 стоила 5 миллионов долларов на обучение по сравнению с CHATGPT4 на 100 миллионов долларов.