A Google DeepMind publicou um modelo de base totalmente novo para robôs, o Gemini Robotics ER 1.6, em que o ER significa Embodied Reasoning (raciocínio incorporado). Este modelo alcança o atual melhor nível (SOTA) em raciocínio visual e espacial e já foi disponibilizado através da Gemini API. Logan Kilpatrick, responsável pelas relações com programadores de IA na Google, divulgou esta notícia nas redes sociais. (Fonte)

O que é o Embodied Reasoning?

Embodied Reasoning refere-se à capacidade dos modelos de IA compreenderem e raciocinarem sobre o mundo físico. Ao contrário dos modelos de linguagem tradicionais, os modelos de raciocínio incorporado precisam de lidar com a posição dos objetos no espaço tridimensional, bem como com a sua forma, materiais e relações de interação física. O Gemini Robotics ER 1.6 foi otimizado especificamente para este tipo de tarefas, permitindo que os robôs compreendam com mais precisão o ambiente envolvente e tomem decisões adequadas sobre as ações a executar.

Capacidades principais

As principais vantagens do Gemini Robotics ER 1.6 concentram-se em duas vertentes:

Capacidade Descrição Raciocínio visual Capacidade de identificar objetos a partir de imagens e vídeos, compreender a estrutura do cenário e, com base nisso, tomar decisões Raciocínio espacial Compreender a posição relativa, a distância e a direção dos objetos no espaço tridimensional, apoiando a planificação de operações complexas

A combinação destas duas capacidades permite que os robôs lidem com tarefas do mundo real mais complexas. Por exemplo, num ambiente de armazém, o robô precisa de identificar simultaneamente objetos de diferentes formas e calcular o melhor ângulo de pega e a posição de colocação — exatamente o tipo de cenário em que o Gemini Robotics ER 1.6 é particularmente competente.

Utilização através da Gemini API

Ao contrário de muitos modelos de robôs do passado que ficaram apenas na fase de artigo, o Gemini Robotics ER 1.6 já disponibiliza acesso através da Gemini API. Isto significa que os programadores e os fabricantes de hardware podem integrar diretamente este modelo nos seus próprios sistemas de robôs, sem necessidade de treinar o modelo do zero.

A disponibilização da API também reduz o limiar para o desenvolvimento de IA para robôs. No passado, desenvolver um sistema de robôs com capacidades de raciocínio visual e espacial exigia uma recolha massiva de dados e trabalho de treino de modelos. Agora, os programadores podem concentrar-se no desenvolvimento do design do hardware e dos casos de uso, deixando as capacidades de raciocínio de base a cargo do Gemini Robotics ER 1.6.

O posicionamento da Google em IA para robôs

O Gemini Robotics ER 1.6 é o mais recente resultado da Google DeepMind na área da robótica. Do RT-2, numa fase inicial, até à série Gemini Robotics de hoje, a Google tem continuado a expandir as capacidades dos grandes modelos de linguagem para a interação com o mundo físico. A versão ER 1.6 melhora ainda mais a exatidão do raciocínio face aos antecessores, destacando-se particularmente em cenários que exigem manipulações mais precisas.

À medida que a indústria de robôs entra numa nova fase de crescimento, os modelos de base com fortes capacidades de raciocínio visual e espacial tornar-se-ão infraestrutura-chave. Para saber mais sobre a evolução do ecossistema Gemini, pode consultar o guia completo do Gemini.

Este artigo Google lançou o Gemini Robotics ER 1.6: modelo de robôs SOTA, especializado em raciocínio visual e espacial foi publicado pela primeira vez em Cadeia de Notícias ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Samsung SDS Expande Parceria com Google Cloud para Atender Setores Regulados com Serviços de IA e Segurança

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A Samsung SDS expandiu sua parceria com o Google Cloud para oferecer serviços de IA, computação em nuvem e segurança a setores regulados, incluindo governo e serviços financeiros. As empresas vão implantar o Google Distributed Cloud para clientes que exigem localização de dados

GateNews7m atrás

Sullivan & Cromwell Pede Desculpas por Alucinações de IA em Petição Judicial com 40 Citações Errôneas

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — Sullivan & Cromwell, um grande escritório de advocacia de Wall Street, pediu desculpas a um juiz federal depois de apresentar uma petição judicial contendo aproximadamente 40 citações incorretas e outros erros causados por alucinações de IA. Andrew Dietderich, co-chefe da equipe global de reestruturação do escritório,

GateNews23m atrás

Tencent Lança e Disponibiliza em Código Aberto Prévia do Hunyuan Hy3 com 295B de Parâmetros

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A Tencent revelou e disponibilizou em código aberto a prévia do Hunyuan Hy3, um modelo híbrido de linguagem mixture-of-experts (mistura de especialistas) com fusão de pensamento rápido e lento. O modelo possui 295 bilhões de parâmetros no total e 21 bilhões de parâmetros ativos, com suporte a um comprimento máximo de contexto de 256K

GateNews37m atrás

Coreia do Sul e Vietnã firmam 70+ MOUs em IA, Energia e Infraestrutura de Dados

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A Coreia do Sul e o Vietnã assinaram mais de 70 memorandos de entendimento (MOUs) durante a visita oficial do presidente Lee Jae Myung a Hanói em 23 de abril, cobrindo IA, energia, infraestrutura e telecomunicações. Um fórum empresarial, com a participação de mais de 500 executivos, discutiu ecossistemas de IA e da indústria de energia, com grandes conglomerados coreanos, incluindo Samsung, SK, LG e Hyundai, representados.

GateNews37m atrás

Engenho de respostas por IA é alvo de poluição coletiva: 56% das respostas corretas no Gemini 3 não têm suporte de fonte

Notícias do setor de IA

Este texto aponta que, ao consultar um mecanismo de respostas por IA, ele cita páginas da web em tempo real; se a fonte for gerada por IA ou faltar evidências, isso polui os resultados. Não é necessário mais treinar para que funcione, sendo isso chamado de contaminação por recuperação (retrieval contamination). Embora o Gemini3 tenha alta taxa de acerto, 56% das respostas não têm fontes verificáveis; casos como Lily Ray, Grokipedia etc. mostram que a IA é facilmente enganada por conteúdo inventado. A conclusão é que a camada de citação se desconecta de autores confiáveis, formando um ciclo de poluição autorreforçado; ainda assim, os usuários precisam voltar à fonte original e não devem tratar a resposta como o ponto final da verificação de fatos.

ChainNewsAbmedia46m atrás

Anthropic Diz ao Tribunal que Modelos de IA do Pentágono Implantados Não Têm 'Kill Switch'

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A Anthropic protocolou um documento na U.S. Court of Appeals for the D.C. Circuit afirmando que, uma vez que seus modelos de IA sejam implantados em ambientes do Pentágono, a empresa não tem visibilidade nem meios técnicos para controlar ou desligar os modelos, e não existe um "kill switch"

GateNews48m atrás

Comentário

0/400

Sem comentários