Anúncios
tendências de IA estão evoluindo rapidamente e você precisa de uma visão clara e prática para decidir o que testar e quando.
Executivos da Conferência TMT 2025 do Morgan Stanley nomearam cinco frentes — raciocínio, silício personalizado, migração para a nuvem, sistemas de avaliação e sistemas de agência — que são importantes para os tomadores de decisão nos EUA. Essas mudanças técnicas, somadas a custos de inferência mais baixos e modelos de MoE esparsos, estão mudando a forma como o trabalho é organizado em todo o mundo. indústrias e como pessoas usará os sistemas no dia a dia.
Este breve relatório mostra o que você deve priorizar: alinhar modelos a cargas de trabalho, definir práticas de avaliação e migrar de pilotos para produção com forte governança. Fazemos referência ao IBM Granite, Claude 3.7 Sonnet, Gemini 2.5 e a sinais de pesquisa de que desenvolvimentos agênticos e soberanos estão aumentando.
Use isto como uma bússola prática para o futuro próximo: comece pequeno, avalie os resultados que importam para sua missão e adapte-se às restrições locais, como energia, escassez de GPU e residência de dados. Isso ajudará você a moldar como a inteligência artificial afeta seu trabalho e o mundo em geral, sem prometer resultados exagerados.
Introdução: Por que as tendências de IA agora moldam seus próximos movimentos
As empresas americanas enfrentam um cenário operacional diferente este ano, onde desempenho, segurança e custo moldam os próximos passos.
Anúncios
Esta seção explica o contexto dos EUA, o que mudou em relação ao ano passado e como usar o relatório.
Contexto e relevância para organizações dos EUA
Em 2025, o foco empresarial se concentra em plataformas que equilibram lucratividade, desempenho e segurança.
Grandes parcerias tecnológicas entre chips, hiperescaladores e grandes modelos são importantes, mas a incerteza no controle de exportação e os limites da GPU adicionam restrições reais para muitas organizações.
Anúncios
O que mudou no ano passado e o que isso significa para você
Os custos de inferência caíram substancialmente, e modos híbridos de “pensamento” surgiram entre os provedores.
Isso significou que os executivos mudaram a atenção das demonstrações para o uso seguro em nível de produção. A adoção em larga escala de pilotos deve durar vários anos, enquanto a governança e as operações de agentes amadurecem.
Como este relatório é organizado e como usá-lo
Leia para ação: analise cada seção para obter fatos rápidos e, em seguida, use as etapas de ação para criar pequenos experimentos vinculados aos seus objetivos de negócios.
- Concentre-se em um ou dois casos de uso e defina métricas de sucesso por trimestre.
- Observe a latência, a precisão e a economia de unidade ao alinhar o modelo e a pilha — mudanças apoiadas por pesquisas, como o MoE esparso, afetam essas compensações.
- Preste atenção à governança: trilhas de auditoria e intervenção humana são importantes para fluxos de trabalho de alto risco.
Você verá uso desigual entre as funções: algumas equipes priorizam conteúdo e codificação, enquanto outras se concentram em análise e suporte.
A base da computação: chips, nuvem e a nova corrida de infraestrutura de IA
A batalha pelos chips e pela capacidade da nuvem molda onde e como você executa cargas de trabalho pesadas.
Silício personalizado pode proporcionar grandes ganhos de eficiência para trabalhos estáveis e de alto volume. Utilize ASICs quando um modelo e uma carga de trabalho específicos forem executados por meses ou anos e você puder justificar os custos de aquisição e integração.
As GPUs continuam sendo valiosas quando você precisa de flexibilidade entre aplicações, iteração rápida ou cargas de trabalho mistas. Os prazos de entrega da Foundry continuam longos, portanto, esteja preparado para fornecimento limitado e reservas multirregionais.
Hiperscaladores, despesas de capital e compensações práticas
Investimento em hiperescala Reduz os custos unitários, mas monitora os tempos de fila, a rede e os SLAs — não apenas o desempenho bruto. Ganhos de eficiência geralmente aumentam o consumo geral, portanto, dimensione os clusters para trabalho em rajadas e meça a latência de ponta a ponta.
“Invista na correspondência de variantes de modelo com famílias de instâncias e defina proteções de dimensionamento automático para proteger tarefas prioritárias durante picos.”
Pressões de poder, largura de banda e conhecimento aberto
Picos de largura de banda devido à extração de caches e data centers; os downloads de multimídia da Wikimedia aumentaram cerca de 50% desde janeiro de 2024. Defesas como quebra-cabeças computacionais ajudam, mas você deve projetar sistemas de recuperação que reduzam a rotatividade.
Seja um bom cidadão: respeite o robots.txt e use conjuntos de dados confiáveis ou feeds de parceiros para reduzir o risco legal e a demanda imprevisível de recursos.
Etapas de ação: alinhar modelo, dados e carga de trabalho
- Classifique cada modelo por tolerância de latência e teto de custo.
- Mapeie cargas de trabalho para hardware: GPUs para flexibilidade, ASICs para tarefas constantes de alto volume.
- Planeje a capacidade multirregional, reserve recursos e faça um orçamento para energia e refrigeração com antecedência.
- Dê preferência a fontes de dados confiáveis em vez de rastreamento amplo para proteger pipelines de conhecimento e reduzir choques de largura de banda.
Modelos de raciocínio, pensamento híbrido e arquiteturas eficientes
Nem toda solicitação precisa de muita deliberação; escolher quando um modelo deve “pensar” economiza tempo e dinheiro. Use o raciocínio seletivamente para planejamento complexo, depuração ou decisões de alto risco.
Escala de inferência aumenta o custo e a latência. À medida que você aumenta o contexto ou as etapas da cadeia, o uso de tokens aumenta e o contexto disponível diminui. Isso pode prejudicar a taxa de transferência e a experiência do usuário.
Compensações de escala de inferência: custo, latência e janelas de contexto
Execute uma análise rápida primeiro. Em seguida, habilite um raciocínio mais aprofundado somente se a confiança estiver baixa ou se a tarefa exigir lógica em várias etapas. Isso mantém a computação e os custos previsíveis.
Modos de raciocínio híbridos: alternar o “pensamento” apenas quando vale a pena
Vários modelos agora permitem alternar a deliberação. Teste prompts de cadeia curta, limite tokens de pensamento e compare resultados em tarefas de codificação ou planejamento.
Ressurgimento do MoE esparso e por que isso importa para o desempenho por dólar
MoE esparso ativa partes da rede por token, reduzindo a computação para muitas entradas. O DeepSeek-R1 e pesquisas recentes mostram que o MoE pode competir com modelos de fronteira densa em benchmarks importantes.
Além dos transformadores: Mamba e arquiteturas híbridas para um contexto mais amplo
Abordagens no estilo Hybrid Mamba escalam linearmente com o contexto. Para documentos longos, elas geralmente oferecem melhor desempenho por dólar do que o escalonamento ingênuo de modelos de linguagem densa.
“Comece pequeno, meça o ROI e defina caminhos eficientes como padrão; avance para um raciocínio mais profundo apenas com base em gatilhos claros.”
- Defina métricas específicas da tarefa (taxa de resolução, compilações sem bugs).
- Registre falhas e meça ganhos incrementais do raciocínio.
- Computação do tamanho certo: prefira recuperação + validação quando os ganhos forem pequenos.
De copilotos a agentes: construindo sistemas seguros e orientados a objetivos
Passe de copilotos a agentes orientados a objetivos, elaborando tarefas pequenas e mensuráveis que permaneçam dentro de limites de segurança claros. Comece com aplicações específicas para que você possa observar o comportamento, medir resultados e reforçar os controles antes de uma adoção mais ampla.
Casos de uso de alto impacto
Concentre-se em trabalhos onde o feedback é rápido e os dados são estruturados. Boas primeiras tarefas incluem triagem de tickets, reconciliação de faturas, planejamento de suprimentos e assistência de codificação em testes.
Governança do agente
Crie políticas para acesso a dados, uso de ferramentas e controle de alterações. Mantenha trilhas de auditoria para cada ação e exija aprovação humana em etapas de alto risco.
Estabelecendo “operações de agentes”
Crie planos de monitoramento, avaliações e reversão para que você possa pausar ou reverter versões quando as métricas caírem. Proteja segredos com privilégios mínimos e alterne credenciais regularmente.
- Agentes de restrição para limpar tarefas e caminhos de escalonamento.
- Medir resultados como tempo de resolução e taxas de erro em relação às linhas de base humanas.
- Use modelos configuráveis com ferramentas determinísticas primeiro, adicione autonomia gradualmente.
Mantenha as pessoas informadas, priorize a segurança e deixe que o sucesso mensurável oriente implementações mais amplas.
IA física e incorporada: de armazéns a modelos mundiais
Sistemas físicos — robôs, sensores e simulações — estão passando de demonstrações de laboratório para operações reais em logística e fábricas.
Comece onde a repetibilidade reduz o risco: linhas de fabricação, corredores de depósito e fluxos de trabalho clínicos permitem que você teste a automação com métricas claras e feedback rápido.
Onde a automação escala primeiro: logística, manufatura e saúde
Concentre-se em casos de uso simples, como movimentação de paletes, inspeção de qualidade e triagem controlada de pacientes. Essas aplicações reduzem a variabilidade e aceleram o aprendizado.
Modelos de mundo e aprendizagem incorporada: caminhos além da linguagem
Modelos mundiais de pesquisas recentes prometem planejamento mais rico e melhor controle. Acompanhe projetos como o Genie 2 e o trabalho de startups, mas vincule os investimentos ao ROI de curto prazo e às verificações de segurança.
Segurança, conformidade e aceitação pública em ambientes reais
Piloto com gêmeos digitais, intertravamentos de segurança e dispositivos de segurança auditados. Treine os operadores com antecedência e colete feedback para aumentar a aceitação entre a população e os órgãos reguladores.
- Use gêmeos digitais para simular antes da implantação.
- Piloto em células estruturadas com paradas de emergência e sensores.
- Validação de documentos para conformidade e rastreabilidade.
- Orçamento para peças de reposição, calibração e manutenção.
Testes de fase, meça a segurança e o tempo de atividade e expanda somente quando a confiabilidade atingir seus limites.
IA soberana e residência de dados: design para conformidade e confiança
As restrições soberanas não são mais teóricas; elas moldam como você armazena dados, posiciona a computação e confia em modelos de terceiros.
Comece classificando os ativos. Decida quais conjuntos de dados, pesos de modelos e registros devem permanecer no país por motivos legais ou contratuais. Identifique esses ativos e documente os caminhos de fluxo.
Arquiteturas que localizam a computação
Escolha uma combinação de padrões multi-cloud, edge e on-prem para atender às necessidades de latência e controle. A multi-cloud oferece portabilidade. A edge lida com processamento de baixa latência próximo aos usuários. On-prem oferece o controle mais rigoroso para as cargas de trabalho mais sensíveis.
Orientação setorial e controles práticos
A regulamentação afeta mais fortemente as áreas de finanças e saúde. Adicione gestão de consentimento, acesso auditável e explicabilidade onde necessário.
- Crie controles de residência: marque conjuntos de dados, bloqueie exportações internacionais e monitore a saída.
- Avalie as soluções dos fornecedores para hospedagem na região, gerenciamento de chaves e capacidade de recuperação.
- Modularize componentes e mantenha planos de saída caso as leis ou fornecedores mudem nos próximos anos.
“A soberania do design é uma arquitetura, não uma reflexão tardia.”
Alinhe aspectos legais, de segurança e de engenharia para executar testes periódicos e manter a documentação atualizada. Isso ajuda você a cumprir as normas e a construir confiança com clientes e reguladores.
Medindo o que importa: além das tabelas de classificação para avaliação de adequação aos negócios
Avalie o que importa vinculando os testes a tarefas reais, e não a tabelas de classificação públicas. Após o Open LLM Leaderboard V2 aumentar a dificuldade em 2024 e ser descontinuado em 2025, a avaliação foi ampliada para verificações de domínio e multimodais.
Após a saturação do benchmark: testes multimodais e específicos de domínio
Pontuações públicas ocultam lacunas importantes. Crie testes de domínio que reflitam seus fluxos de trabalho e dados. Inclua casos multimodais e cenários com alta demanda de recuperação para capturar a cobertura de citações e fundamentação.
Comparações qualitativas e avaliações humanas — quando e como usá-las
Combine suítes automatizadas com avaliações humanas amostradas para tom, utilidade e correção. Controle custos com um plano de amostragem e rubricas claras para que os revisores sejam consistentes.
Crie suas próprias avaliações: aterramento de tarefas, verificações de segurança e sinais de ROI
Passos práticos:
- Escolha métricas de desempenho vinculadas ao trabalho: precisão na primeira passagem, pass@K para codificação ou tempo de resolução.
- Crie pequenos conjuntos de dados valiosos a partir do seu conteúdo e dos seus tickets; alinhe a correção com as políticas e orientações legais.
- Inclua verificações de segurança para vazamentos de PII, resiliência de jailbreak e adesão a políticas.
- Execute implantações de sombra e testes A/B; monitore custos, latência e confiabilidade, além da qualidade.
“Avaliações personalizadas e baseadas em tarefas com observabilidade permitem que você rastreie mudanças nos sistemas até resultados comerciais reais.”
Realidades da adoção empresarial: uso, eficiência e momento de mercado
Colocar experimentos em operação estável requer mais do que tecnologia: pessoas, processos e capacidade de observação devem acompanhar o ritmo.

Dos pilotos à produção: gerenciamento de mudanças e pipelines de dados seguros
Muitas organizações passaram da retórica para a implementação seletiva. Esse progresso é desigual porque as lacunas de infraestrutura persistem e a demanda por GPU e potência permanece alta.
Passos práticos:
- Padronize pipelines de dados seguros: criptografe em movimento e em repouso e aplique controles de acesso fortes.
- Modelos de versão e prompts para que você possa reverter rapidamente quando o desempenho cair.
- Documente os caminhos de reversão e execute exercícios de runbook para tornar a resposta a incidentes uma rotina.
Data lakehouse e observabilidade: rastreando comportamento até resultados
O padrão lakehouse unifica dados estruturados e não estruturados para análise e treinamento de modelos. Ele reduz surpresas ao centralizar a linhagem, as verificações de qualidade e as políticas de acesso.
Crie observabilidade que mapeie entradas, chamadas de ferramentas e saídas para métricas operacionais ou do cliente. Rastreie solicitações da origem ao resultado para que você possa vincular o comportamento do modelo ao desempenho do negócio.
“Envie valor em fatias estreitas, capture vitórias e depois expanda — isso limita o raio de explosão e comprova o ROI.”
Lista de verificação operacional:
- Meça a produtividade, o custo por solicitação e os orçamentos de erro, não apenas o desempenho bruto.
- Projete capacidade e armazenamento em cache para lidar com picos e evitar perdas de limite de taxa.
- Faça parcerias com empresas que expõem ganchos de monitoramento e mecanismos de avaliação; evite caixas pretas opacas.
Para mais contexto de mercado sobre adoção e demanda empresarial, revise isto relatório de mercado empresarial.
Conclusão
Combine pequenos experimentos para resolver problemas e use métricas de sucesso simples para avaliar o valor futuro de qualquer tecnologia. Comece com pilotos com prazos definidos que limitem custos e riscos enquanto você aprende rápido.
Espere que tendências como arquiteturas híbridas, raciocínio seletivo e padrões de agência moldem os próximos anos. Meça o impacto real no trabalho e nos resultados do cliente antes de expandir.
Mantenha a soberania, a segurança e a governança em foco à medida que modelos e agentes entram em produção em todos os setores. Selecione um ou dois casos de uso, execute testes, revise os resultados com as partes interessadas e adapte seu plano.
Seja curioso, mas disciplinado: trate isso como um manual vivo para empresas que desejam potencial sustentado em um mundo em mudança.