Pesquisadores do MIT introduzem um método que utiliza inteligência artificial para automatizar a explicação de redes neurais complexas.
Explicar o comportamento de redes neurais treinadas continua sendo um quebra-cabeça cativante, especialmente à medida que esses modelos crescem em tamanho e sofisticação. Como em outros desafios científicos ao longo da história, desvendar como os sistemas de inteligência artificial funcionam requer uma quantidade substancial de experimentação: fazer hipóteses, intervir no comportamento e até mesmo dissecar grandes redes para examinar neurônios individuais. Até o momento, a maioria dos experimentos bem-sucedidos envolveu grande supervisão humana. Explicar cada computação dentro de modelos do tamanho do GPT-4 e maiores quase certamente exigirá mais automação – talvez até mesmo usando modelos de IA eles próprios.
Facilitando esse empreendimento oportuno, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT desenvolveram uma abordagem inovadora que utiliza modelos de IA para conduzir experimentos em outros sistemas e explicar seu comportamento. Seu método utiliza agentes construídos a partir de modelos de linguagem pré-treinados para produzir explicações intuitivas das computações dentro de redes treinadas.
Central para essa estratégia está o “agente de interpretabilidade automatizada” (AIA), projetado para imitar os processos experimentais de um cientista. Agentes de interpretabilidade planejam e realizam testes em outros sistemas computacionais, que podem variar em escala de neurônios individuais a modelos inteiros, para produzir explicações desses sistemas em uma variedade de formas: descrições em linguagem do que um sistema faz e onde ele falha, e código que reproduz o comportamento do sistema. Ao contrário dos procedimentos de interpretabilidade existentes que classificam ou resumem passivamente exemplos, o AIA participa ativamente da formação de hipóteses, testes experimentais e aprendizado iterativo, refinando assim sua compreensão de outros sistemas em tempo real.
Complementando o método AIA está o novo benchmark “interpretação e descrição de funções” (FIND), uma plataforma de testes de funções que se assemelham a computações dentro de redes treinadas, e descrições acompanhantes de seu comportamento. Um desafio-chave na avaliação da qualidade das descrições dos componentes de rede do mundo real é que as descrições são tão boas quanto seu poder explicativo: os pesquisadores não têm acesso a rótulos de verdade básica das unidades ou descrições das computações aprendidas. O FIND aborda esse problema de longa data no campo, fornecendo um padrão confiável para avaliar os procedimentos de interpretabilidade: explicações de funções (por exemplo, produzidas por um AIA) podem ser avaliadas em comparação com descrições de função no benchmark.
Por exemplo, o FIND contém neurônios sintéticos projetados para imitar o comportamento de neurônios reais dentro de modelos de linguagem, alguns dos quais são seletivos para conceitos individuais como “transporte terrestre”. Os AIAs recebem acesso de caixa preta aos neurônios sintéticos e projetam entradas (como “árvore”, “felicidade” e “carro”) para testar a resposta de um neurônio. Depois de notar que um neurônio sintético produz valores de resposta mais altos para “carro” do que outras entradas, um AIA pode projetar testes mais refinados para distinguir a seletividade do neurônio para carros de outras formas de transporte, como aviões e barcos. Quando o AIA produz uma descrição como “este neurônio é seletivo para transporte terrestre, e não aéreo ou marítimo”, essa descrição é avaliada em relação à descrição de verdade do neurônio sintético (“seletivo para transporte terrestre”) no FIND. O benchmark pode então ser usado para comparar as capacidades dos AIAs com outros métodos na literatura.
Sarah Schwettmann, PhD ’21, co-autora principal de um artigo sobre o novo trabalho e cientista de pesquisa no CSAIL, enfatiza as vantagens dessa abordagem. “A capacidade dos AIAs de geração e teste autônomos de hipóteses pode ser capaz de revelar comportamentos que seriam difíceis para os cientistas detectarem. É notável que modelos de linguagem, quando equipados com ferramentas para sondar outros sistemas, sejam capazes desse tipo de design experimental”, diz Schwettmann. “Benchmarks limpos e simples com respostas de verdade têm sido um grande impulsionador de capacidades mais gerais em modelos de linguagem, e esperamos que o FIND possa desempenhar um papel semelhante na pesquisa de interpretabilidade”.
Automatizando a interpretabilidade
Os grandes modelos de linguagem ainda mantêm seu status como celebridades procuradas no mundo da tecnologia. Os avanços recentes nos LLMs destacaram sua capacidade de realizar tarefas de raciocínio complexo em diversos domínios. A equipe do CSAIL reconheceu que, dadas essas capacidades, os modelos de linguagem podem servir como espinha dorsal de agentes generalizados para interpretabilidade automatizada. “A interpretabilidade tem sido historicamente um campo muito multifacetado”, diz Schwettmann. “Não há uma abordagem única; a maioria dos procedimentos é muito específica para perguntas individuais que podemos ter sobre um sistema e para modalidades individuais como visão ou linguagem. As abordagens existentes para rotular neurônios individuais dentro de modelos de visão exigiram o treinamento de modelos especializados em dados humanos, onde esses modelos realizam apenas essa única tarefa. Agentes de interpretabilidade construídos a partir de modelos de linguagem podem fornecer uma interface geral para explicar outros sistemas – sintetizando resultados entre experimentos, integrando diferentes modalidades, até mesmo descobrindo novas técnicas experimentais em um nível muito fundamental”.
Ao entrarmos em um regime onde os modelos que fazem as explicações são caixas-pretas eles próprios, avaliações externas de métodos de interpretabilidade estão se tornando cada vez mais vitais. O novo benchmark da equipe aborda essa necessidade com uma série de funções com estrutura conhecida, modeladas após comportamentos observados na natureza. As funções dentro do FIND abrangem uma diversidade