Resumo : O sistema possui dificuldade com relações espaciais básicas – dentro, em cima, por baixo – sugerindo que não aprende os tipos de representações que permitem estruturar o mundo – a compreensão relacional é um componente fundamental da inteligência humana e se manifesta já na infância. A pesquisa estudou se o DALL-E poderia se beneficiar de reCAPTCHA, porém no processo de engenharia reversa é possível perceber que a junção de elementos tão distintos é uma habilidade ‘consciencial humana’.
Um novo trabalho de pesquisa da Universidade de Harvard sugere que a estrutura de texto para imagem do OpenAI, DALL-E 2, tem uma dificuldade notável em reproduzir até mesmo relações de nível infantil entre os elementos que compõe em fotos sintetizadas, apesar da sofisticação deslumbrante de grande parte de seus resultados.
Os pesquisadores realizaram um estudo de usuários envolvendo 169 participantes de crowdsourcing, que foram apresentados a imagens DALL-E 2 baseadas nos princípios humanos mais básicos da semântica de relacionamento, juntamente com os prompts de texto que os criaram. Quando perguntados se os prompts e as imagens estavam relacionados, menos de 22% das imagens foram percebidas como pertinentes aos seus prompts associados, em termos das relações muito simples que DALL-E 2 foi solicitado a visualizar.
Os resultados também sugerem que a aparente capacidade do DALL-E de conjugar elementos díspares pode diminuir à medida que esses elementos se tornam menos prováveis de terem ocorrido nos dados de treinamento do mundo real que alimentam o sistema.
Por exemplo, imagens para o prompt ‘criança tocando uma tigela’ obtiveram uma taxa de concordância de 87% (ou seja, os participantes clicaram na maioria das imagens como sendo relevantes para o prompt), enquanto renderizações fotorrealistas semelhantes de ‘um macaco tocando uma iguana’ alcançaram apenas 11% de concordância:
No segundo exemplo, DALL-E 2 frequentemente erra a escala e até mesmo a espécie, presumivelmente por causa da escassez de imagens do mundo real que retratam esse evento. Por outro lado, é razoável esperar um grande número de fotos de treinamento relacionadas a crianças e comida, e que esse subdomínio/classe seja bem desenvolvido.
A dificuldade de DALL-E em justapor elementos de imagem altamente contrastantes sugere que o público está atualmente tão deslumbrado com as capacidades fotorrealistas e amplamente interpretativas do sistema que não desenvolveu um olho crítico para casos em que o sistema efetivamente apenas ‘colocou’ um elemento rigidamente em outro , como nestes exemplos do site oficial DALL-E 2:
O novo documento afirma*:
‘A compreensão relacional é um componente fundamental da inteligência humana, que se manifesta no início do desenvolvimento e é computada rápida e automaticamente na percepção .
A dificuldade de ‘DALL-E 2 até mesmo com relações espaciais básicas (como dentro, em cima, em baixo) sugere que o que quer que tenha aprendido, ainda não aprendeu os tipos de representações que permitem aos humanos estruturar o mundo de forma tão flexível e robusta.
‘Uma interpretação direta dessa dificuldade é que sistemas como DALL-E 2 ainda não possuem composicionalidade relacional.’
Os autores sugerem que sistemas de geração de imagens guiados por texto, como a série DALL-E, poderiam se beneficiar do aproveitamento de algoritmos comuns à robótica, que modelam identidades e relações simultaneamente, devido à necessidade do agente realmente interagir com o ambiente ao invés de apenas fabricar uma mistura de diversos elementos.
Uma dessas abordagens, intitulada CLIPort , usa o mesmo mecanismo CLIP que serve como elemento de avaliação de qualidade no DALL-E 2:
Os autores sugerem ainda que ‘outra atualização plausível’ pode ser para a arquitetura de sistemas de síntese de imagem como o DALL-E incorporar efeitos multiplicativos em uma única camada de computação, permitindo o cálculo de relações de uma maneira inspirada nas capacidades de processamento de informações de sistemas biológicos.
O novo artigo é intitulado Testing Relational Understanding in Text-Guided Image Generation , e vem de Colin Conwell e Tomer D. Ullman, do Departamento de Psicologia de Harvard.
Além das críticas iniciais
Comentando sobre o ‘jeitinho’ por trás do realismo e integridade da saída do DALL-E 2, os autores observam trabalhos anteriores que encontraram deficiências nos sistemas de imagem generativa do estilo DALL-E.
Em junho deste ano, UoC Berkeley notou a dificuldade que DALL-E tem em lidar com reflexos e sombras; no mesmo mês, um estudo da Coréia investigou a ‘singularidade’ e originalidade da saída do estilo DALL-E 2 com um olhar crítico ; uma análise preliminar das imagens DALL-E 2, logo após o lançamento, da NYU e da Universidade do Texas, encontrou vários problemas com composicionalidade e outros fatores essenciais nas imagens DALL-E 2; e no mês passado, um trabalho conjunto entre a Universidade de Illinois e o MIT ofereceu sugestões de melhorias arquitetônicas para tais sistemas em termos de composicionalidade.
Os pesquisadores observam ainda que os luminares do DALL-E, como Aditya Ramesh, admitiram os problemas da estrutura com ligação, tamanho relativo, texto e outros desafios.
Os desenvolvedores por trás do sistema de síntese de imagens rival do Google, Imagen, também propuseram o DrawBench , um novo sistema de comparação que mede a precisão da imagem em estruturas com diversas métricas.
Em vez disso, os autores do novo artigo sugerem que um resultado melhor pode ser obtido comparando estimativas humanas – em vez de métricas algorítmicas – contra as imagens resultantes, para estabelecer onde estão os pontos fracos e o que pode ser feito para mitigá-los.
O estudo
Para tanto, o novo projeto baseia sua abordagem em princípios psicológicos e busca recuar da atual onda de interesse pela engenharia rápida (que é, na verdade, uma concessão às deficiências do DALL-E 2, ou qualquer sistema comparável) , para investigar e potencialmente resolver as limitações que tornam essas ‘soluções alternativas’ necessárias.
O trabalho acadêmico afirma:
‘O trabalho atual concentra-se em um conjunto de 15 relações básicas previamente descritas, examinadas ou propostas na literatura cognitiva, de desenvolvimento ou linguística. O conjunto contém tanto relações espaciais fundamentadas (por exemplo, ‘X em Y’), quanto relações agênicas mais abstratas (por exemplo, ‘X ajudando Y’).
‘Os prompts são intencionalmente simples, sem complexidade ou elaboração de atributos. Ou seja, em vez de um aviso como ‘um burro e um polvo estão jogando. O burro está segurando uma corda em uma ponta, o polvo está segurando na outra. O burro segura a corda na boca. Um gato está pulando a corda’, usamos ‘uma caixa em uma faca’.
“A simplicidade ainda captura uma ampla gama de relações de vários subdomínios da psicologia humana e torna as falhas de modelo em potencial mais marcantes e específicas.”
Para o estudo, os autores recrutaram 169 participantes da Prolific, todos localizados nos EUA, com idade média de 33 anos e 59% do sexo feminino.
Os participantes viram 18 imagens organizadas em uma grade 3×6 com o prompt na parte superior e um aviso de isenção de responsabilidade na parte inferior informando que todas, algumas ou nenhuma das imagens podem ter sido geradas a partir do prompt exibido e foram solicitados a selecionar as imagens que eles achavam que estavam relacionadas dessa maneira.
As imagens apresentadas aos indivíduos foram baseadas na literatura linguística, desenvolvimental e cognitiva, compreendendo um conjunto de oito relações físicas e sete relações ‘agentes’ (isso ficará claro em breve).
Relações físicas
em, sobre, sob, cobrindo, perto, ocluídas, penduradas e amarradas .
Relações Agentes
empurrando, puxando, tocando, batendo, chutando, ajudando e atrapalhando .
Todas essas relações foram traçadas a partir dos campos de estudo não-CS mencionados anteriormente.
Doze entidades foram assim derivadas para uso nos prompts, com seis objetos e seis agentes:
Caixa de objetos
…,cilindro, cobertor, tigela, xícara de chá e faca.
Agentes
homem, mulher, criança, robô, macaco e iguana.
(Os pesquisadores admitem que incluir a iguana, não um dos pilares da pesquisa sociológica ou psicológica seca, foi ‘um deleite’)
Para cada relação, cinco prompts diferentes foram criados por amostragem aleatória de duas entidades cinco vezes, resultando em 75 prompts totais, cada um dos quais foi submetido ao DALL-E 2, e para cada um deles foram utilizadas as 18 imagens iniciais fornecidas, sem variações ou segundas chances permitidas.
Resultados
O documento afirma*:
Em média, os participantes relataram uma baixa quantidade de concordância entre as imagens do DALL-E 2 e os prompts usados para gerá-las, com uma média de 22,2% [18,3, 26,6] nos 75 prompts distintos.
‘As solicitações de agentes, com uma média de 28,4% [22,8, 34,2] em 35 solicitações, geraram maior concordância do que as solicitações físicas, com uma média de 16,9% [11,9, 23,0] em 40 solicitações.’
Para comparar a diferença entre a percepção humana e algorítmica das imagens, os pesquisadores executaram suas renderizações por meio da estrutura baseada em CLIP de código aberto ViT-L/14 da OpenAI . Fazendo a média das pontuações, eles encontraram uma ‘relação moderada’ entre os dois conjuntos de resultados, o que talvez seja surpreendente, considerando a medida em que o próprio CLIP ajuda a gerar as imagens.
Os pesquisadores sugerem que outros mecanismos dentro da arquitetura, talvez combinados com uma preponderância casual (ou falta) de dados no conjunto de treinamento, podem explicar a maneira como o CLIP pode reconhecer as limitações do DALL-E sem ser capaz, em todos os casos, de fazer qualquer coisa. muito sobre o problema.
Os autores concluem que DALL-E 2 só tem uma facilidade nocional, se houver, de reproduzir imagens que incorporem a compreensão relacional, faceta fundamental da inteligência humana que se desenvolve em nós desde muito cedo.
“A noção de que sistemas como o DALL-E 2 não têm composicionalidade pode ser uma surpresa para qualquer um que tenha visto as respostas surpreendentemente razoáveis do DALL-E 2 a perguntas como ‘um desenho de um rabanete daikon bebê em um tutu andando com um poodle’. Prompts como esses geralmente geram uma aproximação sensata de um conceito composicional, com todas as partes dos prompts presentes e presentes nos lugares certos.
‘A composicionalidade, no entanto, não é apenas a capacidade de colar as coisas – até mesmo coisas que você pode nunca ter observado juntas antes. A composicionalidade requer uma compreensão das regras que unem as coisas. As relações são essas regras.
Homem morde T-Rex
Opinião Como o OpenAI abrange umnúmero maior de usuáriosapós sua recente monetização beta do DALL-E 2, e como agora é preciso pagar pela maioria das gerações, as deficiências no entendimento relacional do DALL-E 2 podem se tornar mais aparentes à medida que cada ‘falhou ‘ tem um peso financeiro para isso e os reembolsos não estão disponíveis.
Aqueles de nós que receberam um convite um pouco antes tiveram tempo (e, até recentemente, maior lazer para brincar com o sistema) para observar algumas das ‘falhas de relacionamento’ que DALL-E 2 pode emitir.
Por exemplo, para um fã de Jurassic Park , é muito difícil fazer um dinossauro perseguir uma pessoa em DALL-E 2, mesmo que o conceito de ‘perseguição’ não pareça estar no sistema de censura de DALL-E 2 , e mesmo que a longa história dos filmes de dinossauros deva fornecer abundantes exemplos de treinamento (pelo menos na forma de trailers e fotos publicitárias) para esse encontro de espécies de outra forma impossível.
Percebe-se que as imagens acima são típicas para variações no design do prompt ‘[dinossauro] perseguindo [uma pessoa]’ , e que nenhuma quantidade de elaboração no prompt pode fazer com que o T-Rex realmente cumpra. Na primeira e na segunda fotos, o homem está (mais ou menos) perseguindo o T-Rex; no terceiro, abordando-o com um desrespeito casual pela segurança; e na imagem final, aparentemente correndo paralelamente à grande besta. Em cerca de 10 a 15 tentativas nesse tema, descobri que o dinossauro é similarmente ‘distraído’.
Pode ser que os únicos dados de treinamento que DALL-E 2 pudesse acessar estivessem na linha de ‘homem luta contra dinossauro’ , de fotos publicitárias para filmes mais antigos como One Million Years BC (1966), e que o famoso vôo de Jeff Goldblum do rei dos predadores é simplesmente uma exceção nessa pequena parcela de dados.
Conclusão : a geração de imagens sempre dependerá de um humano para criar as assimilações, alterar as junções e indicar os parâmetros que devem ser seguidos, a inteligência artificial não consegue criar independência sem seres humanos a programando para que sigam passo a passo.
Fonte : Unite.ai – First published 4th August 2022.
Luz P’ra Nós!
Luz p’ra nós!
Luz p’ra nós!
Luz p’ra nós!
Luz p’ra nós 🙏🏻🕊
Luz P’ra Nós 🍎
Luz p’ra nós!
#LuzPraNos
Fascinante, Luz pra nós.
Luz p’ra nós!
Luz p’ra nós.
Luz p’ra nós
Luz p’ra nós!
Luz p’ra nós!
Luz p’ra nós!