Início Tecnologia Ai aprende o senso comum com o toque, não apenas a visão

Ai aprende o senso comum com o toque, não apenas a visão

1
0

 

Autores:

(1) Samson Yu, Departamento de Ciência da Computação, Universidade Nacional de Cingapura ([email protected]);

(2) Kelvin Lin. Departamento de Ciência da Computação, Universidade Nacional de Cingapura;

(3) Anselhando Xiao, Departamento de Ciência da Computação, Universidade Nacional de Cingapura;

(4) Jiafei Duan, Universidade de Washington;

(5) Harold Soh, Departamento de Ciência da Computação, Universidade Nacional de Cingapura e Instituto de Sistemas Smarts NUS ([email protected]).

Vi. Resultados experimentais

Para abordar as perguntas acima, avaliamos o Octopi usando (i) precisão nas tarefas de entendimento físico no conjunto de testes da Physiclear, (ii) precisão nas tarefas de raciocínio do cenário, (iii) taxa de sucesso da tarefa em um robô real e (iv) precisão de previsão de propriedades em objetos invisíveis. Testamos duas versões de Octopi, Octopi-7b e Octopi-13b, que usam Vicuna7b v1.5 e Vicuna-13b v1.5 como LLMS, respectivamente.

” alt=”” aria-hidden=”true” />Tabela VII. Resultados em tarefas de raciocínio do cenário físico. Durante o raciocínio do cenário, não fornecemos descrições de propriedades na verdade no solo. Nossos experimentos mostram que a alavancagem das propriedades do objeto melhora significativamente o raciocínio do cenário para o Octopi.Tabela VII. Resultados em tarefas de raciocínio do cenário físico. Durante o raciocínio do cenário, não fornecemos descrições de propriedades na verdade no solo. Nossos experimentos mostram que a alavancagem das propriedades do objeto melhora significativamente o raciocínio do cenário para o Octopi.

A. Entendimento físico fundido tátil com descrições de propriedades do objeto

Durante o alinhamento do recurso tátil e o ajuste fino de ponta a ponta, treinamos Octopi com tarefas de comparação (ou seja, PC, PSS e POM) para alinhar seu entendimento físico de nossas propriedades e objetos físicos com nossos rótulos. Avaliamos o entendimento físico da Octopi com os mesmos avisos de etapa usados ​​durante o treinamento e em 500 pares de respostas de perguntas no total nas três tarefas. Os resultados para a compreensão física dos objetos de teste invisíveis são mostrados na Tabela VI.

Nossos resultados mostram que o Octopi-7b e o Octopi-13b têm um bom desempenho nas três tarefas de entendimento físico quando são treinadas para prever as descrições de propriedades. Usando descrições de propriedades físicas, o Octopi-7b alcança precisão de 48,10% no PC, 74,67% no PSS e 44,39% no POM. O Octopi13b supera o Octopi-7b em 6,96% no PC, 9,33% no PSS e 16,04% no POM. Isso sugere que o entendimento físico de Octopi melhora significativamente com o tamanho do LLM.

Além disso, exploramos o efeito do uso de descrições de propriedades físicas, ajustando o Octopi-7b e o Octopi13b nas tarefas de entendimento físico sem previsões intermediárias de propriedades físicas. Descobrimos que as previsões baseadas nas propriedades do objeto melhoram notavelmente o entendimento físico no Octopi-7b e no Octopi-13b.

B. Raciocínio de cenário

Avaliamos a utilidade de nossas categorias de propriedades físicas testando como o Octopi pode raciocinar sobre cenários diários usando as propriedades físicas. Para referência, as diferentes perguntas do cenário são fornecidas na Tabela V com os avisos mostrados na Tabela IV.

Nossos resultados estão resumidos na Tabela VII. Para Octopi7b e Octopi-13b, incluindo a propriedade do objeto melhora significativamente o desempenho, o que suporta nossa hipótese geral de que alavancar essas propriedades é útil para essas tarefas. Curiosamente, observamos que o modelo 7B superou marginalmente o modelo 13B.

Fornecemos dois exemplos qualitativos para mostrar o Octopi-13b executando o raciocínio físico de senso comum de maneira eficaz. Na primeira tarefa, fornecemos um vídeo tátil de uma colher de arroz não cozido e primeiro o instruímos a descrever o vídeo tátil. Em seguida, acompanhamos uma instrução para o Oclopi-13b para determinar se o arroz é não cozido ou cozido. O Octopi-13b é capaz de raciocinar que a colher de arroz é não cozida devido à sua superfície áspera, como mostrado na Fig. 4.

Em seguida, demos a dois vídeos táteis de Octopi -13b correspondentes a duas partes diferentes da mesma escova de dentes – a alça e as cerdas. É instruído a descrever os dois objetos usando

Fig. 4. Raciamento de arroz (cozido vs não cozido). O Octopi-13b é solicitado a raciocinar se uma colher de arroz tem mais probabilidade de ser cozida ou não cozida com base em um vídeo tátil de uma colher em arroz não cozido. Raciocina sobre o estado de arroz corretamente, sem ser treinado para fazê -lo.Fig. 4. Raciamento de arroz (cozido vs não cozido). O Octopi-13b é solicitado a raciocinar se uma colher de arroz tem mais probabilidade de ser cozida ou não cozida com base em um vídeo tátil de uma colher em arroz não cozido. Raciocina sobre o estado de arroz corretamente, sem ser treinado para fazê -lo.

Fig. 5. Raciocínio da parte da escova de dentes. Dado um vídeo tátil da alça de uma escova de dentes e das mesmas cerdas da escova de dentes, o Octopi-13b é solicitado a raciocinar quais leituras táteis pertencem à alça e que pertencem às cerdas.Fig. 5. Raciocínio da parte da escova de dentes. Dado um vídeo tátil da alça de uma escova de dentes e das mesmas cerdas da escova de dentes, o Octopi-13b é solicitado a raciocinar quais leituras táteis pertencem à alça e que pertencem às cerdas.

as propriedades físicas. Em seguida, instruímos para determinar qual vídeo tátil pertence a cada parte do objeto usando as propriedades físicas. A Fig. 5 mostra que o Octopi-13b é capaz de raciocinar sobre a correspondência de propriedade-objeto corretamente.

C. Classificação de maturação de abacate

Para avaliar a utilidade da Octopi como um sistema de raciocínio físico fundido por tátil para tarefas do mundo real, integramos dois sensores Gelsight em um robô de 7 do Franka Emika Panda e o usamos para a classificação de maturação de abacate. Enquanto abacates maduros geralmente aparecem em um tom de marrom, é difícil determinar sua maturação, é difícil determinar o uso de visão sozinho. Ao mesmo tempo, os avacados maduros são mais macios do que os verdes e, portanto, as sensações táteis podem melhorar a classificação.

Realizamos avaliações de classificação de previsão e maturação de propriedades usando um conjunto de 10 abacates com 20 amostras táteis coletadas de cada abacate (ou seja, 200 amostras totais). Durante a classificação de maturação, foram selecionados 100 pares de amostras de abacate e o Octopi foi encarregado de identificar qual abacate é ridículo. Cada par contém abacates em diferentes estágios de maturação. Na hora do teste, o robô Franka agarrou cada abacate uma vez para coletar as leituras táteis, antes de passá -lo para o modelo. O modelo deu instruções sobre qual abacate

Tabela VIII. Resultados de previsão de propriedades de abacate e materiais de maturação. O Octopi-13B prevê propriedades de abacate razoavelmente bem com apenas um movimento premente. Para a classificação de maturação de abacate, o Octopi-13b é capaz de alavancar seu conhecimento de senso comum para usar as propriedades de dureza e inconveniência.Tabela VIII. Resultados de previsão de propriedades de abacate e materiais de maturação. O Octopi-13B prevê propriedades de abacate razoavelmente bem com apenas um movimento premente. Para a classificação de maturação de abacate, o Octopi-13b é capaz de alavancar seu conhecimento de senso comum para usar as propriedades de dureza e inconveniência.

colocar na lixeira madura, e isso foi transmitido através da ROS para execução.

A Tabela VIII mostra o desempenho da Octopi-13B na previsão de propriedades de abacate e na classificação de maturação de abacate. Dividimos a avaliação em duas partes e avaliamos a classificação de previsão e maturação da propriedade de abacate separadamente.

Para previsão da propriedade de abacate, o Octopi-13b alcança uma precisão de 35,50%, o que é significativamente maior que o da linha de base aleatória (3,70%). Ao contrário do conjunto de dados físico, esses vídeos táteis são coletados apenas com prensagem e sem rotação. Isso sugere que a capacidade de previsão de propriedades físicas da Octopi-13B é robusta para diferenças nos procedimentos exploratórios táteis.

O Octopi-13b obtém uma precisão de previsão de maturação de 63,00%. Para configurar essa tarefa, primeiro provocamos o raciocínio do senso comum de Octopi para a maturidade do abacate usando nossas propriedades, consultando “Você receberá descrições táteis que consistem em três propriedades físicas: dureza, rugosidade, rugosidade. Bumps. Octopi-13b responde com “as propriedades que ajudam a determinar a maturação do abacate são dureza e inconveniência. A rugosidade não é um indicador confiável da maturação do abacate. Em termos de dureza, um abacate maduro será moderado, enquanto um abacate não resistente. Essa troca é fornecida como contexto para o Octopi-13b durante a classificação de maturação.

Para comparação, avaliamos um modelo de VisionLanguage fisicamente fundamentado, PG-Instructblip [17]nas previsões de propriedades de nossos abacates. PG-InstructBlip foi treinado para inferir um conjunto predeterminado de propriedades físicas a partir de imagens visuais de objetos reais no conjunto de dados EgoObjects [65]. A Tabela VIII mostra o desempenho do PG-Instructblip na previsão de propriedades para nossos abacates foi ruim. As possíveis razões para isso são que (i) as definições das propriedades físicas podem não ser bem alinhadas com físico e/ou (ii) as propriedades físicas dos abacates não são claramente aparentes usando apenas a modalidade visual. Não foi possível convencer o modelo PG-Instructblip para classificar diretamente a maturação de abacate, apesar de tentar várias instruções; Sempre escolheria o primeiro objeto.

Tabela IX. Resultados no conjunto de testes da propriedade do objeto físico. O clipe FT é a combinação do codificador visual de clipe de ajuste fino e as três camadas de classificação treinadas separadas. Octopi-7b e Oclopi-13b têm um desempenho acima da linha de base aleatória para previsões de propriedades do objeto e têm desempenho semelhante ao clipe FinetUned. O Octopi-13b tem um desempenho melhor que o Octopi-7b na tarefa de previsão.Tabela IX. Resultados no conjunto de testes da propriedade do objeto físico. O clipe FT é a combinação do codificador visual de clipe de ajuste fino e as três camadas de classificação treinadas separadas. Octopi-7b e Oclopi-13b têm um desempenho acima da linha de base aleatória para previsões de propriedades do objeto e têm desempenho semelhante ao clipe FinetUned. O Octopi-13b tem um desempenho melhor que o Octopi-7b na tarefa de previsão.

Tabela X. Clipe A ablação de ajuste fina resulta na previsão da propriedade do objeto. Ft refere-se a ajustes finos. O uso do clipe ajustado na previsão de propriedades melhora o desempenho da Octopi na previsão de propriedades.Tabela X. Clipe A ablação de ajuste fina resulta na previsão da propriedade do objeto. Ft refere-se a ajustes finos. O uso do clipe ajustado na previsão de propriedades melhora o desempenho da Octopi na previsão de propriedades.

D. Propriedade do objeto Descrição Previsão

O entendimento físico e os recursos de raciocínio do cenário da Octopi depende de suas previsões iniciais de propriedades físicas. Avaliamos a previsão de propriedades físicas da Octopi no conjunto de testes físico e mostramos os resultados na Tabela IX. O Octopi-7b e o Octopi-13b têm um desempenho bem acima da linha de base aleatória para previsão de propriedades combinadas e individuais e têm desempenho semelhante ao modelo de clipe de ajuste fino, indicando que o Octopi pode ser usado para a previsão da propriedade de objeto. O Octopi-13b tem uma precisão combinada mais alta (ou seja, todas as três propriedades físicas são previstas corretamente para um determinado objeto) quando comparadas ao Octopi-7b, sugerindo que há ganhos de desempenho com LLMs maiores para aterramento de sinal tátil (além da propriedade de inconveniência).

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui