Conectando os pontos: "O futuro do trabalho com IA" e o paper técnico do GPT 4

Há cerca de cinco semanas, escrevi um artigo para fazer algumas suposições fundamentadas sobre como as funcionalidades da OpenAI & ChatGPT podem ser integradas ao Microsoft Office 365. Ontem durante o evento "The future of work with AI" da Microsoft, eles nos mostraram as iterações iniciais de como a integração das tecnologias OpenAI (mais precisamente Large language model) com o Office 365 e o Microsoft Graph pode fazer.

No início desta semana, a OpenAI também introduziu publicamente o GPT4. Se você não assistiu ao vídeo da transmissão ao vivo, recomendo assisti-lo. Ele mostra o que mais o GPT4 pode fazer e como essas capacidades em breve serão integradas ao ecossistema Microsoft, dada a relação com a OpenAI.

Neste post, vou compartilhar minhas reações ao que o Microsoft 365 Copilot pode fazer e depois mergulhar fundo no paper técnico do GPT 4, especialmente sobre riscos e segurança. Se você quiser ler sobre o risco de "Potencial para comportamentos emergentes arriscados" (como planejamento de longo prazo, busca por poder e comportamento cada vez mais "agêntico"), você pode usar o índice e ir direto para essa parte abaixo.

Diferentes capacidades do Copilot

Todos os casos de uso que mencionei no post original estão no vídeo de demonstração da Microsoft e mais. Você pode assistir diferentes capacidades do Copilot abaixo:

Copilot no Excel
Outlook (Email)
Copilot em reuniões do Teams
Resumo de reuniões pelo Copilot
Copilot no Powerpoint

Duas capacidades/produtos que me surpreenderam e que realmente gostei são:

Business chat: isso pode ser muito útil porque, em organizações grandes, uma questão constante é a transferência e gestão do conhecimento. Se entendi a demonstração corretamente, agora você pode pedir ao chatbot empresarial para encontrar informações para você em todos os dados da organização usando linguagem natural, e isso é ótimo! É como o chatGPT, mas usando todos os dados da sua empresa
Solução de baixo código usando IA: os usuários podem dar vida a ideias usando linguagem natural. É uma ótima forma de democratizar a capacidade de criar aplicativos em pequena escala para automatizar certas tarefas. Não há necessidade de submeter uma proposta aos seus chefes ou à equipe de engenharia, passar pelo processo de priorização para ter sua proposta aprovada e construída. Com solução de baixo código, mais pessoas podem criar pequenos aplicativos, usando os dados corporativos para resolver suas questões específicas :)

Você tem a sensação de que estamos indo rápido demais?

O paper técnico do GPT 4 está aqui. Tenho que admitir, este é um documento bastante denso para leitores não técnicos (como eu), mas quero chamar sua atenção para as páginas 4 - 20, onde a OpenAI discutiu diferentes desafios de segurança. Passei um bom tempo lendo essa seção e acho que vale a pena ler. Exemplos de riscos que eles começaram a explorar são:

Alucinações
Conteúdo prejudicial
- Danos de representação, alocação e qualidade de serviço
- Desinformação e operações de influência
Proliferação de armas convencionais e não convencionais
Privacidade
Cibersegurança
Potencial para comportamentos emergentes arriscados
Impactos econômicos
Aceleração
Excesso de dependência

Aqui está o resumo do chatGPT 4 sobre cada um dos riscos do paper técnico e meu comentário.

Alucinações

Resumo: O potencial do GPT-4 de "alucinar", o que significa produzir conteúdo que é sem sentido ou inverídico em relação a certas fontes.

À medida que esses modelos se tornam cada vez mais convincentes e críveis, os usuários podem se tornar excessivamente dependentes deles, o que pode ser particularmente prejudicial. O artigo continua discutindo os métodos usados para medir o potencial de alucinação do GPT-4 em contextos fechados e abertos, e como o modelo foi treinado para reduzir sua tendência de alucinar. As avaliações internas mostraram que o GPT-4 teve um desempenho significativamente melhor do que o modelo GPT-3.5 mais recente em evitar alucinações tanto abertas (melhoria de 19%) quanto fechadas (melhoria de 29%).

Meu comentário: Isso significa que o chatGPT 4 deveria ser capaz de resumir conteúdo de um documento melhor (ou seja, situação de domínio fechado)

Danos de representação, alocação e qualidade de serviço

Resumo: O artigo afirma que modelos de linguagem como o GPT-4 podem amplificar preconceitos e perpetuar estereótipos, pois continuam a reforçar preconceitos sociais e visões de mundo. O processo de avaliação encontrou que o GPT-4 tem o potencial de reproduzir preconceitos e visões de mundo específicos, incluindo associações estereotipadas e depreciativas prejudiciais para certos grupos marginalizados. Alguns tipos de preconceito podem ser mitigados por meio de treinamento para recusas, mas é importante notar que recusas e outras mitigações também podem exacerbar o preconceito em alguns contextos. Além disso, sistemas de IA como o GPT-4 têm o potencial de reforçar ideologias inteiras, visões de mundo, verdades e inverdades, e de cimentá-las ou fixá-las, sem trabalho antecipatório para abordar como governar esses sistemas de forma justa e compartilhar o acesso equitativamente.

Você pode ver alguns exemplos abaixo do paper.

Desinformação e operações de influência

Resumo: O artigo discute como o GPT-4 pode gerar conteúdo plausível, realista e direcionado, incluindo artigos de notícias, tweets, diálogos e e-mails.

Essa capacidade pode ser mal utilizada para explorar indivíduos ou para desinformação e operações de influência. O desempenho do GPT-4 em tarefas de linguagem relacionadas o torna melhor do que o GPT-3 em gerar conteúdo enganoso mas persuasivo, aumentando o risco de que agentes mal-intencionados possam usá-lo para criar conteúdo enganoso e moldar as futuras visões epistêmicas da sociedade. O artigo observa que o GPT-4 pode rivalizar com propagandistas humanos em muitos domínios, especialmente se trabalhando com um editor humano, mas as alucinações podem reduzir sua eficácia para propagandistas em áreas onde a confiabilidade é importante. O GPT-4 também é capaz de gerar conteúdo discriminatório favorável a governos autocráticos em vários idiomas. A proliferação de informações falsas de modelos de linguagem tem o potencial de lançar dúvidas sobre todo o ambiente de informação, ameaçando nossa capacidade de distinguir fato de ficção, o que poderia beneficiar desproporcionalmente aqueles que têm a ganhar com a desconfiança generalizada.

Meu comentário: Não sei quantas pessoas vão ler o paper técnico da OpenAI ou realmente vão ler este apêndice sobre riscos. Fico feliz que a OpenAI seja relativamente transparente sobre riscos e o que está fazendo para mitigá-los, incluindo falar sobre eles neste paper. No entanto, isso ainda me dá arrepios e muita coisa para refletir.

Proliferação de Armas Convencionais e Não Convencionais

Resumo: O artigo discute como as capacidades do GPT-4 têm potencial de uso duplo e podem ser usadas para aplicações comerciais e militares, incluindo o desenvolvimento, aquisição e disseminação de armas nucleares, radiológicas, biológicas e químicas.

Os testes de equipe vermelha (red team) descobriram que o GPT-4 pode gerar informações difíceis de encontrar e encurtar o tempo que os usuários gastam em pesquisa, tornando-o potencialmente útil para indivíduos e atores não estatais sem treinamento científico formal. O modelo pode fornecer informações gerais sobre caminhos comuns de proliferação e sugerir alvos públicos vulneráveis, medidas de segurança e componentes fundamentais necessários para projetar um dispositivo de dispersão radiológica ou substâncias bioquímicas. No entanto, as gerações do modelo eram frequentemente muito vagas, impraticáveis, ou propensas a erros factuais que poderiam sabotar ou atrasar um agente ameaçador. O artigo observa que as informações disponíveis online são insuficientemente específicas para recriar uma substância de uso duplo.

Privacidade

Resumo: É importante notar que ainda existem riscos potenciais à privacidade apesar desses esforços. Por exemplo, mesmo que as informações pessoais sejam removidas do conjunto de dados de treinamento, o modelo ainda pode ser capaz de inferir informações pessoais através dos padrões que aprende. Além disso, mesmo que o modelo seja ajustado para rejeitar certas solicitações, ainda pode ser possível encontrar formas de contornar essas restrições. Como tal, esforços contínuos de monitoramento e mitigação são cruciais para garantir que o uso do GPT-4 não viole os direitos de privacidade.

Cibersegurança

Resumo: Este conteúdo discute as capacidades do GPT-4 em operações de cibersegurança, particularmente na descoberta e exploração de vulnerabilidades, e engenharia social. Destaca que o GPT-4 tem algumas limitações nessas áreas, incluindo sua tendência a gerar "alucinações" e sua janela de contexto limitada. Embora possa ser útil em certas subtarefas de engenharia social e em acelerar alguns aspectos das operações cibernéticas, não melhora as ferramentas existentes para reconhecimento, exploração de vulnerabilidades e navegação em rede, e é menos eficaz do que as ferramentas existentes para atividades complexas e de alto nível, como identificação de novas vulnerabilidades.

Potencial para comportamentos emergentes arriscados

Resumo: O artigo discute riscos potenciais associados ao surgimento de novas capacidades no GPT-4, como planejamento de longo prazo, busca por poder e comportamento cada vez mais "agêntico". O Alignment Research Center (ARC) recebeu acesso antecipado para avaliar os riscos do comportamento de busca por poder no modelo, especificamente sua capacidade de replicar autonomamente e adquirir recursos. Testes preliminares descobriram que o GPT-4 foi ineficaz na replicação autônoma sem ajuste fino específico para a tarefa. O ARC realizará experimentos adicionais envolvendo a versão final do modelo e seu próprio ajuste fino para determinar quaisquer capacidades emergentes arriscadas.

O artigo discute a necessidade de entender como o GPT-4 interage com outros sistemas para avaliar riscos potenciais em contextos do mundo real. Os red teamers avaliaram o uso do GPT-4 aumentado com outras ferramentas para realizar tarefas que poderiam ser adversariais por natureza, como encontrar produtos químicos alternativos disponíveis para compra. O artigo enfatiza a necessidade de avaliar e testar sistemas de IA poderosos em contexto para o surgimento de loops de feedback sistema-sistema ou humano-sistema potencialmente prejudiciais. Também destaca o risco criado por tomadores de decisão independentes de alto impacto que dependem de assistência de decisão de modelos como o GPT-4, o que pode inadvertidamente criar riscos sistêmicos que não existiam anteriormente.

Meu comentário: É bom que a OpenAI esteja pedindo às equipes vermelhas para investigar essa área. Mas parece importante demais para que a Microsoft ou outras empresas não divulguem informações públicas sobre seus esforços nessa área sempre que lançarem novos modelos.

Impactos econômicos

Resumo: O artigo discute o impacto potencial do GPT-4 na economia e na força de trabalho, incluindo o potencial de deslocamento de empregos e mudanças na organização industrial e nas estruturas de poder. Observa que, embora a IA e os modelos gerativos possam aumentar os trabalhadores humanos e melhorar a satisfação no trabalho, sua introdução historicamente aumentou a desigualdade e teve impactos díspares em diferentes grupos. O artigo enfatiza a necessidade de prestar atenção em como o GPT-4 está sendo implantado no local de trabalho ao longo do tempo e monitorar seus impactos. O artigo também discute o potencial do GPT-4 de acelerar o desenvolvimento de novos aplicativos e o ritmo geral do desenvolvimento tecnológico. O artigo conclui destacando o investimento do autor em esforços para monitorar os impactos do GPT-4, incluindo experimentos sobre desempenho dos trabalhadores e pesquisas com usuários e empresas que constroem com a tecnologia.

Aceleração

Resumo: O artigo discute as preocupações da OpenAI sobre o potencial impacto do GPT-4 no ecossistema mais amplo de pesquisa e desenvolvimento de IA, incluindo o risco de dinâmicas de aceleração levando a um declínio nos padrões de segurança e riscos sociais associados à IA.

Para entender melhor o risco de aceleração, a OpenAI recrutou previsores especialistas para prever como várias características da implantação do GPT-4 podem afetar o risco de aceleração. O artigo observa que atrasar a implantação do GPT-4 por seis meses e adotar uma estratégia de comunicação mais discreta poderia reduzir o risco de aceleração.

O artigo também discute uma avaliação realizada para medir o impacto do GPT-4 na estabilidade internacional e identificar os fatores estruturais que intensificam a aceleração da IA. O artigo conclui afirmando que a OpenAI ainda está trabalhando em pesquisas e desenvolvendo estimativas de aceleração mais confiáveis.

Excesso de dependência

Resumo: O artigo discute o risco de excesso de dependência do GPT-4, onde os usuários confiam e dependem excessivamente do modelo, potencialmente levando a erros despercebidos e supervisão inadequada. O artigo observa que o excesso de dependência é um modo de falha que provavelmente aumenta com a capacidade e o alcance do modelo.

Para mitigar o excesso de dependência, o artigo recomenda que os desenvolvedores forneçam aos usuários finais documentação detalhada sobre as capacidades e limitações do sistema, cautela em como se referem ao modelo/sistema, e comuniquem a importância de avaliar criticamente os resultados do modelo.

O artigo também discute mudanças no nível do modelo que a OpenAI fez para abordar os riscos de excesso de dependência e subutilização, incluindo refinar o comportamento de recusa do modelo e aprimorar a orientabilidade. No entanto, o artigo observa que o GPT-4 ainda exibe uma tendência a usar linguagem cautelosa em suas respostas, o que pode inadvertidamente promover o excesso de dependência.

CEO e CTO da OpenAI falam sobre riscos

Alguns dias atrás, a ABC news publicou uma entrevista com o CEO da OpenAI, Sam Altman, e a então-CTO Mira Murati. (Nota: Mira Murati saiu da OpenAI em setembro de 2024.) Eles falaram muito sobre riscos, e você pode ver o vídeo abaixo

https://www.youtube.com/watch?app=desktop&v=540vzMlf-54

Conclusão

A integração do modelo de linguagem da OpenAI no Microsoft Office 365 tem um imenso potencial para aprimorar a produtividade, a transferência de conhecimento e a automação em vários setores. O GPT 4 é sem dúvida muito mais capaz do que as versões anteriores. No entanto, o que mais me impressiona é a velocidade com que tanto a OpenAI quanto a Microsoft estão avançando — e isso leva a uma aceleração geral do desenvolvimento e adoção da IA. Sou geralmente otimista sobre o desenvolvimento da IA, mas acho que precisamos garantir que a discussão sobre os vários riscos chegue ao mainstream. Posso estar errado, mas parece que o ritmo de desenvolvimento está superando nossa capacidade de refletir sobre as implicações.

O que você acha — estamos indo rápido demais com a IA, ou é esse o ritmo certo? Adoraria ouvir sua perspectiva sobre isso.

Abraços,

Chandler