A Google lança o Gemini Robotics ER 1.6: modelo de robótica SOTA, especialista em raciocínio visual e espacial

ChainNewsAbmedia

A Google DeepMind publicou um modelo de base totalmente novo para robôs, o Gemini Robotics ER 1.6, em que o ER significa Embodied Reasoning (raciocínio incorporado). Este modelo alcança o atual melhor nível (SOTA) em raciocínio visual e espacial e já foi disponibilizado através da Gemini API. Logan Kilpatrick, responsável pelas relações com programadores de IA na Google, divulgou esta notícia nas redes sociais. (Fonte)

O que é o Embodied Reasoning?

Embodied Reasoning refere-se à capacidade dos modelos de IA compreenderem e raciocinarem sobre o mundo físico. Ao contrário dos modelos de linguagem tradicionais, os modelos de raciocínio incorporado precisam de lidar com a posição dos objetos no espaço tridimensional, bem como com a sua forma, materiais e relações de interação física. O Gemini Robotics ER 1.6 foi otimizado especificamente para este tipo de tarefas, permitindo que os robôs compreendam com mais precisão o ambiente envolvente e tomem decisões adequadas sobre as ações a executar.

Capacidades principais

As principais vantagens do Gemini Robotics ER 1.6 concentram-se em duas vertentes:

Capacidade Descrição Raciocínio visual Capacidade de identificar objetos a partir de imagens e vídeos, compreender a estrutura do cenário e, com base nisso, tomar decisões Raciocínio espacial Compreender a posição relativa, a distância e a direção dos objetos no espaço tridimensional, apoiando a planificação de operações complexas

A combinação destas duas capacidades permite que os robôs lidem com tarefas do mundo real mais complexas. Por exemplo, num ambiente de armazém, o robô precisa de identificar simultaneamente objetos de diferentes formas e calcular o melhor ângulo de pega e a posição de colocação — exatamente o tipo de cenário em que o Gemini Robotics ER 1.6 é particularmente competente.

Utilização através da Gemini API

Ao contrário de muitos modelos de robôs do passado que ficaram apenas na fase de artigo, o Gemini Robotics ER 1.6 já disponibiliza acesso através da Gemini API. Isto significa que os programadores e os fabricantes de hardware podem integrar diretamente este modelo nos seus próprios sistemas de robôs, sem necessidade de treinar o modelo do zero.

A disponibilização da API também reduz o limiar para o desenvolvimento de IA para robôs. No passado, desenvolver um sistema de robôs com capacidades de raciocínio visual e espacial exigia uma recolha massiva de dados e trabalho de treino de modelos. Agora, os programadores podem concentrar-se no desenvolvimento do design do hardware e dos casos de uso, deixando as capacidades de raciocínio de base a cargo do Gemini Robotics ER 1.6.

O posicionamento da Google em IA para robôs

O Gemini Robotics ER 1.6 é o mais recente resultado da Google DeepMind na área da robótica. Do RT-2, numa fase inicial, até à série Gemini Robotics de hoje, a Google tem continuado a expandir as capacidades dos grandes modelos de linguagem para a interação com o mundo físico. A versão ER 1.6 melhora ainda mais a exatidão do raciocínio face aos antecessores, destacando-se particularmente em cenários que exigem manipulações mais precisas.

À medida que a indústria de robôs entra numa nova fase de crescimento, os modelos de base com fortes capacidades de raciocínio visual e espacial tornar-se-ão infraestrutura-chave. Para saber mais sobre a evolução do ecossistema Gemini, pode consultar o guia completo do Gemini.

Este artigo Google lançou o Gemini Robotics ER 1.6: modelo de robôs SOTA, especializado em raciocínio visual e espacial foi publicado pela primeira vez em Cadeia de Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Samsung SDS Expande Parceria com Google Cloud para Atender Setores Regulados com Serviços de IA e Segurança

Mensagem do Gate News, 23 de abril — A Samsung SDS expandiu sua parceria com o Google Cloud para oferecer serviços de IA, computação em nuvem e segurança a setores regulados, incluindo governo e serviços financeiros. As empresas vão implantar o Google Distributed Cloud para clientes que exigem localização de dados

GateNews7m atrás

Sullivan & Cromwell Pede Desculpas por Alucinações de IA em Petição Judicial com 40 Citações Errôneas

Mensagem do Gate News, 23 de abril — Sullivan & Cromwell, um grande escritório de advocacia de Wall Street, pediu desculpas a um juiz federal depois de apresentar uma petição judicial contendo aproximadamente 40 citações incorretas e outros erros causados por alucinações de IA. Andrew Dietderich, co-chefe da equipe global de reestruturação do escritório,

GateNews23m atrás

Tencent Lança e Disponibiliza em Código Aberto Prévia do Hunyuan Hy3 com 295B de Parâmetros

Mensagem do Gate News, 23 de abril — A Tencent revelou e disponibilizou em código aberto a prévia do Hunyuan Hy3, um modelo híbrido de linguagem mixture-of-experts (mistura de especialistas) com fusão de pensamento rápido e lento. O modelo possui 295 bilhões de parâmetros no total e 21 bilhões de parâmetros ativos, com suporte a um comprimento máximo de contexto de 256K

GateNews37m atrás

Coreia do Sul e Vietnã firmam 70+ MOUs em IA, Energia e Infraestrutura de Dados

Mensagem do Gate News, 23 de abril — A Coreia do Sul e o Vietnã assinaram mais de 70 memorandos de entendimento (MOUs) durante a visita oficial do presidente Lee Jae Myung a Hanói em 23 de abril, cobrindo IA, energia, infraestrutura e telecomunicações. Um fórum empresarial, com a participação de mais de 500 executivos, discutiu ecossistemas de IA e da indústria de energia, com grandes conglomerados coreanos, incluindo Samsung, SK, LG e Hyundai, representados.

GateNews37m atrás

Engenho de respostas por IA é alvo de poluição coletiva: 56% das respostas corretas no Gemini 3 não têm suporte de fonte

Este texto aponta que, ao consultar um mecanismo de respostas por IA, ele cita páginas da web em tempo real; se a fonte for gerada por IA ou faltar evidências, isso polui os resultados. Não é necessário mais treinar para que funcione, sendo isso chamado de contaminação por recuperação (retrieval contamination). Embora o Gemini3 tenha alta taxa de acerto, 56% das respostas não têm fontes verificáveis; casos como Lily Ray, Grokipedia etc. mostram que a IA é facilmente enganada por conteúdo inventado. A conclusão é que a camada de citação se desconecta de autores confiáveis, formando um ciclo de poluição autorreforçado; ainda assim, os usuários precisam voltar à fonte original e não devem tratar a resposta como o ponto final da verificação de fatos.

ChainNewsAbmedia46m atrás

Anthropic Diz ao Tribunal que Modelos de IA do Pentágono Implantados Não Têm 'Kill Switch'

Mensagem do Gate News, 23 de abril — A Anthropic protocolou um documento na U.S. Court of Appeals for the D.C. Circuit afirmando que, uma vez que seus modelos de IA sejam implantados em ambientes do Pentágono, a empresa não tem visibilidade nem meios técnicos para controlar ou desligar os modelos, e não existe um "kill switch"

GateNews48m atrás
Comentário
0/400
Sem comentários