Gigante da tecnologia chinesa Grupo Alibaba Holding Ltd. Anunciou a QWEN3, uma nova família de modelos de inteligência synthetic que, segundo ele, pode superar modelos concorrentes de empresas como o OpenAI e o Google LLC.
O novo lançamento ressalta o rápido ritmo de desenvolvimento na indústria de IA da China desde a Deepseek Ltd. primeiro entrou em cena no closing do ano passado.
A gigante do comércio eletrônico disse que os novos modelos QWEN3 superam os recursos dos melhores modelos de Deepseek em várias áreas, incluindo problemas de codificação e matemática. Ele está liberando vários modelos da família QWEN3 sob uma licença de código aberto, variando em tamanho de 600 milhões a 235 bilhões de parâmetros, o que é uma medida que corresponde aproximadamente a habilidades de solução de problemas. Como regra, quanto mais parâmetros um modelo tiver, melhor o desempenho.
Dentro da nova série QWEN3, há dois modelos “Mistura de Expertos” ou MOE que o Alibaba diz que são capazes de competir com os modelos de raciocínio mais avançados lançados pelo Google e PBC antropal. Os modelos de raciocínio são projetados para imitar a maneira como os humanos pensam em problemas, dedicando mais tempo para considerar as coisas e executar a verificação de fatos quanto à precisão.
Ao usar a técnica MOE, os modelos de IA podem aprimorar suas habilidades de raciocínio dividindo uma tarefa em segmentos menores, semelhante à maneira como uma empresa pode empregar equipes de especialistas para se concentrar em partes específicas de um problema mais desafiador. Ao dividir as tarefas em diferentes partes do modelo, o processo de resolução de problemas se torna mais eficiente.
“Temos modos de pensamento e sem pensamento integrados perfeitamente, oferecendo aos usuários a flexibilidade para controlar o orçamento de pensamento”, disse a equipe de Qwen de Alibaba em um Postagem do blog. “Esse design permite que os usuários configurem orçamentos específicos da tarefa com maior facilidade.”
Alibaba disse que os modelos QWEN3 suportam 119 idiomas e foram treinados em um conjunto de dados contendo quase 36 trilhões de tokens, que são os pedaços de dados brutos que processam enquanto são “ensinados”. Um milhão de tokens é equivalente a cerca de 750.000 palavras e, neste caso, os dados foram extraídos de vários livros didáticos, trechos de código, dados gerados pela IA, pares de perguntas e respostas e outras fontes.
Em vários testes de benchmark, os modelos QWEN3 da Alibaba forneceram alguns resultados impressionantes, superando os recentes modelos “de ponta” de empresas de IA baseadas nos EUA, como os modelos O3-Mini e O4-Mini da OpenAi.
Por exemplo, no benchmark da Codeforces, que mede a capacidade dos modelos de escrever o código, o maior modelo QWEN-3-235B-A22B superou O3-mini e o Gemini 2.5 Professional do Google. Ele também venceu 03-mini no benchmark de matemática de Aime, bem como no teste BFCL que avalia as habilidades de raciocínio dos modelos de IA.
Desde que o modelo de raciocínio R1 de Deepseek entrou em cena no closing de dezembro, no uppaging Openai, apesar de ter sido desenvolvido a apenas uma fração do custo, os líderes de tecnologia chineses lançaram uma enxurrada de modelos de IA igualmente poderosos. A Alibaba lançou os modelos da série QWEN-2.5 apenas algumas semanas antes, observando que eles podem processar formatos de dados multimodais, incluindo texto, imagens, áudio e vídeo. Esses modelos são notavelmente leves, projetados para executar diretamente em smartphones e laptops.
O surgimento de modelos de IA chineses poderosos e de código aberto aumentou a aposta para as empresas de IA, que até recentemente eram vistas como líderes da indústria. Mas o standing deles está ameaçado, especialmente porque os modelos fabricados nos americanos geralmente são treinados a custos muito mais altos do que seus colegas chineses.
O governo dos EUA também respondeu, introduzindo outras sanções que visam impedir que as empresas chinesas coloquem as mãos nas poderosas unidades de processamento de gráficos usados para treinar e administrar modelos de IA. Em sua jogada mais recente, os EUA cobraram uma licença de exportação na GPU H20 da Nvidia Corp., que havia sido projetada especificamente para cumprir as sanções anteriores à China.
O Openai respondeu dizendo que lançará um modelo de raciocínio de “pesos abertos” nos próximos meses, marcando uma reversão dramática de sua abordagem common, onde o funcionamento interno de seus modelos é essencialmente uma “caixa preta”.
O diretor executivo da Alibaba, Eddie Wu, disse em fevereiro que o principal objetivo da empresa é construir um sistema de “inteligência geral synthetic” que acabará por superar as capacidades intelectuais dos seres humanos.
Imagem: Alibaba
Seu voto de apoio é importante para nós e nos ajuda a manter o conteúdo livre.
Um clique abaixo suporta nossa missão de fornecer conteúdo gratuito, profundo e relevante.
Junte -se à nossa comunidade no YouTube
Junte -se à comunidade que inclui mais de 15.000 especialistas em #Cubealumni, incluindo o CEO da Amazon.com, Andy Jassy, o fundador e CEO da Dell Applied sciences, Michael Dell, o CEO da Intel Pat Gelsinger e muito mais luminárias e especialistas.
OBRIGADO