Início Tecnologia Relatório: O mais novo modelo de Deepseek atrasado pelas restrições de exportação...

Relatório: O mais novo modelo de Deepseek atrasado pelas restrições de exportação da GPU

13
0

A principal empresa de inteligência artificial da China Deepseek Ltd. supostamente se soltou em seus esforços para desenvolver seu modelo de raciocínio R2 de última geração, porque ele não pode colocar as mãos no suficiente das unidades de processamento gráfico da Nvidia Corp., de acordo com um relatório.

A informação Citou duas fontes anônimas familiarizadas com os esforços da Deepseek, dizendo que a empresa está trabalhando no próximo modelo R2 há vários meses, mas o diretor executivo Liang Wengfeng ainda não está satisfeito com isso. No entanto, a empresa não pode melhorar seus recursos com o número limitado de GPUs à sua disposição.

Deepseek disparou para a fama no início deste ano, quando estreou seu modelo de raciocínio original R1. Ele provou ser mais do que uma correspondência para os modelos mais avançados desenvolvidos por empresas americanas como OpenAI, Anthropic PBC e Meta Plataforms Inc., apesar de ter sido construída por uma fração do custo.

De acordo com as informações, a Deepseek treinou R1 em um agrupamento de 50.000 GPUs de tremonha, que incluiu cerca de 10.000 H100s, 10.000 H800s e cerca de 30.000 das GPUs H20 de menor potência que foram construídas para o mercado chinês.

As empresas chinesas nunca foram capazes de comprar as GPUs H100 ou H800 legalmente. Acredita-se que alguns deles fossem secretamente fornecidos à Deepseek por seu investidor em gestão de capital de alto giro, enquanto outros foram adquiridos por meio de empresas de shell que acessam serviços de infraestrutura de nuvem pública. As GPUs H20 foram obtidas legalmente, mas desde então se tornaram difíceis de encontrar por causa de novas sanções do governo dos EUA que proíbem sua exportação para a China.

Parte do problema é que muitas das GPUs H20 na China já estão sendo usadas pelos clientes da Deepseek. As informações dizem que o modelo R1 foi amplamente adotado por empresas chinesas e agências governamentais, e a maioria as executa nas GPUs H20 na nuvem. Portanto, não há mais capacidade disponível para a DeepSeek treinar seu modelo mais recente.

Aparentemente, a escassez de GPU H20 já está causando problemas com R1, limitando como é usada por empresas chinesas. Se o modelo R2 melhorar significativamente no R1, espera -se que a demanda pelo modelo aumente além do que os provedores de infraestrutura em nuvem chineses podem lidar, de acordo com a equipe entrevistada pelas informações.

O processador H20 é comparável à GPU H100 que a NVIDIA vende para as empresas ocidentais, mas sua largura de banda e conectividade foram elaboradas para atender às restrições anteriores sobre os tipos de chips que poderiam ser exportados para a China. No entanto, o governo do presidente Donald Trump decidiu que mesmo esse chip reduzido é poderoso demais para ser enviado ao seu rival geopolítico, e prontamente deu um tapa em novas restrições ao país em abril, proibindo sua exportação para lá.

Essa decisão teria jogado uma chave importante nas obras dos desenvolvedores de IA chineses. Embora existam algumas alternativas domésticas disponíveis, como o Chipset 910b da Huawei Technologies Co. Ltd., eles são ainda menos poderosos que o H20 e não têm suporte para a pilha de software CUDA da NVIDIA – uma arquitetura de programação usada para otimizar aplicativos e modelos de IA para executar o NVIDIA da NVIDIA GPUS. Isso é problemático porque praticamente todos os desenvolvedores de IA chineses estão usando o software CUDA.

As informações dizem que os modelos R1 e R2 da Deepseek também são otimizados para os chips da NVIDIA, e sua incapacidade de acessá -los pode ser um grande revés em seus esforços para acompanhar seus rivais nos EUA.

Imagem: Siliconangle/Dreamina

Apoie nosso conteúdo gratuito aberto compartilhando e envolvendo nosso conteúdo e comunidade.

Junte -se ao theCube Rede de confiança de ex -alunos

Onde os líderes de tecnologia se conectam, compartilham inteligência e crie oportunidades

11.4K+

Rede de ex -alunos do Cube

N-LEVEL E TÉCNICO

Especialistas em domínio

Conecte -se a 11.413 mais líderes do setor de nossa rede de líderes de tecnologia e negócios, formando um efeito de rede confiável único.

A Siliconangle Media é um líder reconhecido em inovação de mídia digital, que serve públicos e marcas inovadoras, reunindo tecnologia de ponta, conteúdo influente, idéias estratégicas e envolvimento do público em tempo real. Como empresa controladora de SiliconangleAssim, Rede de TheCubeAssim, THECUBE PESQUISAAssim, Cube365Assim, thecube ai e TheCube Superstudios – como os estabelecidos no Vale do Silício e na Bolsa de Valores de Nova York (NYSE) – Siliconangle Media opera na interseção da mídia, tecnologia e IA. .

Fundada pelos visionários de tecnologia John Furrier e Dave Vellante, a Siliconangle Media construiu um poderoso ecossistema de marcas de mídia digital líder do setor, com um alcance de mais de 15 milhões de profissionais de tecnologia de elite. O novo e proprietário da empresa, a nuvem de vídeo AI está abrindo a interação do público, alavancando a rede neural thecubaii.com para ajudar as empresas de tecnologia a tomar decisões orientadas a dados e permanecer na vanguarda das conversas do setor.

fonte