Notícias

DeepSeek aposta em novo método de treinamento para impulsionar eficiência da IA na China

DeepSeek aposta em novo método de treinamento para impulsionar eficiência da IA na China

Imagem Gerada por IA

A DeepSeek publicou um novo artigo científico detalhando uma abordagem mais eficiente para o desenvolvimento de inteligência artificial, reforçando os esforços da indústria chinesa para competir com gigantes globais como a OpenAI, mesmo diante das restrições impostas pelos Estados Unidos ao acesso a chips avançados da Nvidia.

O estudo, coassinado pelo fundador Liang Wenfeng, apresenta um framework chamado Manifold-Constrained Hyper-Connections. Segundo os autores, a técnica foi projetada para aumentar a escalabilidade dos modelos de IA ao mesmo tempo em que reduz significativamente os custos computacionais e o consumo de energia durante o treinamento dois dos principais gargalos da IA moderna.

Publicações técnicas da DeepSeek costumam antecipar lançamentos relevantes. Em 2024, a empresa surpreendeu o mercado com o modelo de raciocínio R1, desenvolvido a uma fração do custo de concorrentes do Vale do Silício. Desde então, a startup sediada em Hangzhou lançou versões menores de seus sistemas, mas a expectativa agora gira em torno do próximo modelo principal, informalmente chamado de R2, previsto para ser apresentado durante o Festival da Primavera, em fevereiro.

O novo artigo também evidencia como startups chinesas vêm sendo forçadas a inovar fora do padrão. Com o bloqueio ao acesso aos semicondutores mais avançados, considerados essenciais para treinar e executar modelos de IA de grande escala, pesquisadores passaram a explorar arquiteturas alternativas e métodos não convencionais. No caso da DeepSeek, isso significa repensar desde a concepção até a infraestrutura de treinamento dos modelos.

Divulgado por meio do repositório aberto arXiv e da plataforma open source Hugging Face, o estudo conta com 19 autores e aborda desafios como instabilidade no treinamento e limitações de escala. Os testes foram realizados em modelos que variam de 3 bilhões a 27 bilhões de parâmetros, com base em pesquisas anteriores da ByteDance publicadas em 2024 sobre arquiteturas de hiperconexão.

Segundo os pesquisadores, a técnica pode representar um passo importante para a evolução dos chamados modelos fundacionais, indicando que eficiência e criatividade arquitetural podem se tornar diferenciais estratégicos em um cenário global cada vez mais restritivo e competitivo.

fonte: Bloomberg

fonte https://santotech.com.br/deepseek-aposta-em-novo-metodo-de-treinamento-para-impulsionar-eficiencia-da-ia-na-china/

COMPARTILHE:

PUBLICIDADE