O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Essa IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um participante importante, contribuindo para uma queda significativa no preço das ações da NVIDIA.
O sucesso da Deepseek decorre de seus métodos inovadores de arquitetura e treinamento. As principais tecnologias incluem:
- Previsão com vários toques (MTP): prevendo várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Utilizando 256 redes neurais (oito ativadas por token), acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extraindo repetidamente os principais detalhes do texto, garantindo que informações cruciais não sejam perdidas.
Embora a Deepseek tenha reivindicado inicialmente um custo de treinamento notavelmente baixo de US $ 6 milhões para o DeepSeek V3 usando 2048 GPUs, a semiânica revelou uma infraestrutura muito mais extensa: aproximadamente 50.000 GPUs nvidia Hopper (incluindo 10.000 H800, 10.000 H100 e H20 GPUs adicionais) se espalham por múltiplos dados de dados. Isso se traduz em um investimento total do servidor de aproximadamente US $ 1,6 bilhão e despesas operacionais estimadas em US $ 944 milhões.
A Deepseek, uma subsidiária do fundo de hedge chinês, possui seus data centers, fornecendo controle sobre otimização e implementação mais rápida da inovação. Sua natureza autofinanciada aumenta a flexibilidade e a velocidade de tomada de decisão. A empresa também atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, recrutando principalmente das principais universidades chinesas.
O número inicial de US $ 6 milhões da DeepSeek representa apenas custos de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento total da empresa no desenvolvimento da IA excede US $ 500 milhões. Sua estrutura enxuta, no entanto, permite implementação eficiente de inovação em comparação com empresas maiores e mais burocráticas.
O sucesso da Deepseek destaca o potencial de empresas independentes de IA bem financiadas para competir com os gigantes do setor. No entanto, suas realizações estão enraizadas em investimentos substanciais, avanços tecnológicos e uma equipe forte. A reivindicação do "orçamento revolucionário" para o desenvolvimento do modelo é, portanto, uma simplificação excessiva. No entanto, seus custos permanecem significativamente menores que os concorrentes; Por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões para treinar, em comparação com os US $ 100 milhões do ChatGPT4.