Conectando os pontos: "O futuro do trabalho com IA" e o paper técnico do GPT 4
Mergulhei fundo no paper técnico do GPT-4 para descobrir os riscos que a OpenAI está monitorando — do comportamento agêntico emergente à busca por poder — enquanto a Microsoft integra rapidamente IA em todo o Office 365.
Este post foi escrito em 2023. Alguns detalhes podem ter mudado desde então.
Há cerca de cinco semanas, escrevi um artigo para fazer algumas suposições fundamentadas sobre como as funcionalidades da OpenAI & ChatGPT podem ser integradas ao Microsoft Office 365. Ontem durante o evento "The future of work with AI" da Microsoft, eles nos mostraram as iterações iniciais de como a integração das tecnologias OpenAI (mais precisamente Large language model) com o Office 365 e o Microsoft Graph pode fazer.
No início desta semana, a OpenAI também introduziu publicamente o GPT4. Se você não assistiu ao vídeo da transmissão ao vivo, recomendo assisti-lo. Ele mostra o que mais o GPT4 pode fazer e como essas capacidades em breve serão integradas ao ecossistema Microsoft, dada a relação com a OpenAI.
Neste post, vou compartilhar minhas reações ao que o Microsoft 365 Copilot pode fazer e depois mergulhar fundo no paper técnico do GPT 4, especialmente sobre riscos e segurança. Se você quiser ler sobre o risco de "Potencial para comportamentos emergentes arriscados" (como planejamento de longo prazo, busca por poder e comportamento cada vez mais "agêntico"), você pode usar o índice e ir direto para essa parte abaixo.
Diferentes capacidades do Copilot
Todos os casos de uso que mencionei no post original estão no vídeo de demonstração da Microsoft e mais. Você pode assistir diferentes capacidades do Copilot abaixo:
- Copilot no Excel
- Outlook (Email)
- Copilot em reuniões do Teams
- Resumo de reuniões pelo Copilot
- Copilot no Powerpoint
Duas capacidades/produtos que me surpreenderam e que realmente gostei são:
- Business chat: isso pode ser muito útil porque, em organizações grandes, uma questão constante é a transferência e gestão do conhecimento. Se entendi a demonstração corretamente, agora você pode pedir ao chatbot empresarial para encontrar informações para você em todos os dados da organização usando linguagem natural, e isso é ótimo! É como o chatGPT, mas usando todos os dados da sua empresa
- Solução de baixo código usando IA: os usuários podem dar vida a ideias usando linguagem natural. É uma ótima forma de democratizar a capacidade de criar aplicativos em pequena escala para automatizar certas tarefas. Não há necessidade de submeter uma proposta aos seus chefes ou à equipe de engenharia, passar pelo processo de priorização para ter sua proposta aprovada e construída. Com solução de baixo código, mais pessoas podem criar pequenos aplicativos, usando os dados corporativos para resolver suas questões específicas :)
Você tem a sensação de que estamos indo rápido demais?
O paper técnico do GPT 4 está aqui. Tenho que admitir, este é um documento bastante denso para leitores não técnicos (como eu), mas quero chamar sua atenção para as páginas 4 - 20, onde a OpenAI discutiu diferentes desafios de segurança. Passei um bom tempo lendo essa seção e acho que vale a pena ler. Exemplos de riscos que eles começaram a explorar são:
- Alucinações
- Conteúdo prejudicial
- Danos de representação, alocação e qualidade de serviço
- Desinformação e operações de influência
- Proliferação de armas convencionais e não convencionais
- Privacidade
- Cibersegurança
- Potencial para comportamentos emergentes arriscados
- Impactos econômicos
- Aceleração
- Excesso de dependência
Aqui está o resumo do chatGPT 4 sobre cada um dos riscos do paper técnico e meu comentário.
Alucinações
Resumo: O potencial do GPT-4 de "alucinar", o que significa produzir conteúdo que é sem sentido ou inverídico em relação a certas fontes.
À medida que esses modelos se tornam cada vez mais convincentes e críveis, os usuários podem se tornar excessivamente dependentes deles, o que pode ser particularmente prejudicial. O artigo continua discutindo os métodos usados para medir o potencial de alucinação do GPT-4 em contextos fechados e abertos, e como o modelo foi treinado para reduzir sua tendência de alucinar. As avaliações internas mostraram que o GPT-4 teve um desempenho significativamente melhor do que o modelo GPT-3.5 mais recente em evitar alucinações tanto abertas (melhoria de 19%) quanto fechadas (melhoria de 29%).
Meu comentário: Isso significa que o chatGPT 4 deveria ser capaz de resumir conteúdo de um documento melhor (ou seja, situação de domínio fechado)
Danos de representação, alocação e qualidade de serviço
Resumo: O artigo afirma que modelos de linguagem como o GPT-4 podem amplificar preconceitos e perpetuar estereótipos, pois continuam a reforçar preconceitos sociais e visões de mundo. O processo de avaliação encontrou que o GPT-4 tem o potencial de reproduzir preconceitos e visões de mundo específicos, incluindo associações estereotipadas e depreciativas prejudiciais para certos grupos marginalizados. Alguns tipos de preconceito podem ser mitigados por meio de treinamento para recusas, mas é importante notar que recusas e outras mitigações também podem exacerbar o preconceito em alguns contextos. Além disso, sistemas de IA como o GPT-4 têm o potencial de reforçar ideologias inteiras, visões de mundo, verdades e inverdades, e de cimentá-las ou fixá-las, sem trabalho antecipatório para abordar como governar esses sistemas de forma justa e compartilhar o acesso equitativamente.
Você pode ver alguns exemplos abaixo do paper.
Desinformação e operações de influência
Resumo: O artigo discute como o GPT-4 pode gerar conteúdo plausível, realista e direcionado, incluindo artigos de notícias, tweets, diálogos e e-mails.
Essa capacidade pode ser mal utilizada para explorar indivíduos ou para desinformação e operações de influência. O desempenho do GPT-4 em tarefas de linguagem relacionadas o torna melhor do que o GPT-3 em gerar conteúdo enganoso mas persuasivo, aumentando o risco de que agentes mal-intencionados possam usá-lo para criar conteúdo enganoso e moldar as futuras visões epistêmicas da sociedade. O artigo observa que o GPT-4 pode rivalizar com propagandistas humanos em muitos domínios, especialmente se trabalhando com um editor humano, mas as alucinações podem reduzir sua eficácia para propagandistas em áreas onde a confiabilidade é importante. O GPT-4 também é capaz de gerar conteúdo discriminatório favorável a governos autocráticos em vários idiomas. A proliferação de informações falsas de modelos de linguagem tem o potencial de lançar dúvidas sobre todo o ambiente de informação, ameaçando nossa capacidade de distinguir fato de ficção, o que poderia beneficiar desproporcionalmente aqueles que têm a ganhar com a desconfiança generalizada.
Meu comentário: Não sei quantas pessoas vão ler o paper técnico da OpenAI ou realmente vão ler este apêndice sobre riscos. Fico feliz que a OpenAI seja relativamente transparente sobre riscos e o que está fazendo para mitigá-los, incluindo falar sobre eles neste paper. No entanto, isso ainda me dá arrepios e muita coisa para refletir.
Proliferação de Armas Convencionais e Não Convencionais
Resumo: O artigo discute como as capacidades do GPT-4 têm potencial de uso duplo e podem ser usadas para aplicações comerciais e militares, incluindo o desenvolvimento, aquisição e disseminação de armas nucleares, radiológicas, biológicas e químicas.
Os testes de equipe vermelha (red team) descobriram que o GPT-4 pode gerar informações difíceis de encontrar e encurtar o tempo que os usuários gastam em pesquisa, tornando-o potencialmente útil para indivíduos e atores não estatais sem treinamento científico formal. O modelo pode fornecer informações gerais sobre caminhos comuns de proliferação e sugerir alvos públicos vulneráveis, medidas de segurança e componentes fundamentais necessários para projetar um dispositivo de dispersão radiológica ou substâncias bioquímicas. No entanto, as gerações do modelo eram frequentemente muito vagas, impraticáveis, ou propensas a erros factuais que poderiam sabotar ou atrasar um agente ameaçador. O artigo observa que as informações disponíveis online são insuficientemente específicas para recriar uma substância de uso duplo.
Privacidade
Resumo: É importante notar que ainda existem riscos potenciais à privacidade apesar desses esforços. Por exemplo, mesmo que as informações pessoais sejam removidas do conjunto de dados de treinamento, o modelo ainda pode ser capaz de inferir informações pessoais através dos padrões que aprende. Além disso, mesmo que o modelo seja ajustado para rejeitar certas solicitações, ainda pode ser possível encontrar formas de contornar essas restrições. Como tal, esforços contínuos de monitoramento e mitigação são cruciais para garantir que o uso do GPT-4 não viole os direitos de privacidade.
Cibersegurança
Resumo: Este conteúdo discute as capacidades do GPT-4 em operações de cibersegurança, particularmente na descoberta e exploração de vulnerabilidades, e engenharia social. Destaca que o GPT-4 tem algumas limitações nessas áreas, incluindo sua tendência a gerar "alucinações" e sua janela de contexto limitada. Embora possa ser útil em certas subtarefas de engenharia social e em acelerar alguns aspectos das operações cibernéticas, não melhora as ferramentas existentes para reconhecimento, exploração de vulnerabilidades e navegação em rede, e é menos eficaz do que as ferramentas existentes para atividades complexas e de alto nível, como identificação de novas vulnerabilidades.
Potencial para comportamentos emergentes arriscados
Resumo: O artigo discute riscos potenciais associados ao surgimento de novas capacidades no GPT-4, como planejamento de longo prazo, busca por poder e comportamento cada vez mais "agêntico". O Alignment Research Center (ARC) recebeu acesso antecipado para avaliar os riscos do comportamento de busca por poder no modelo, especificamente sua capacidade de replicar autonomamente e adquirir recursos. Testes preliminares descobriram que o GPT-4 foi ineficaz na replicação autônoma sem ajuste fino específico para a tarefa. O ARC realizará experimentos adicionais envolvendo a versão final do modelo e seu próprio ajuste fino para determinar quaisquer capacidades emergentes arriscadas.
O artigo discute a necessidade de entender como o GPT-4 interage com outros sistemas para avaliar riscos potenciais em contextos do mundo real. Os red teamers avaliaram o uso do GPT-4 aumentado com outras ferramentas para realizar tarefas que poderiam ser adversariais por natureza, como encontrar produtos químicos alternativos disponíveis para compra. O artigo enfatiza a necessidade de avaliar e testar sistemas de IA poderosos em contexto para o surgimento de loops de feedback sistema-sistema ou humano-sistema potencialmente prejudiciais. Também destaca o risco criado por tomadores de decisão independentes de alto impacto que dependem de assistência de decisão de modelos como o GPT-4, o que pode inadvertidamente criar riscos sistêmicos que não existiam anteriormente.
Meu comentário: É bom que a OpenAI esteja pedindo às equipes vermelhas para investigar essa área. Mas parece importante demais para que a Microsoft ou outras empresas não divulguem informações públicas sobre seus esforços nessa área sempre que lançarem novos modelos.
Impactos econômicos
Resumo: O artigo discute o impacto potencial do GPT-4 na economia e na força de trabalho, incluindo o potencial de deslocamento de empregos e mudanças na organização industrial e nas estruturas de poder. Observa que, embora a IA e os modelos gerativos possam aumentar os trabalhadores humanos e melhorar a satisfação no trabalho, sua introdução historicamente aumentou a desigualdade e teve impactos díspares em diferentes grupos. O artigo enfatiza a necessidade de prestar atenção em como o GPT-4 está sendo implantado no local de trabalho ao longo do tempo e monitorar seus impactos. O artigo também discute o potencial do GPT-4 de acelerar o desenvolvimento de novos aplicativos e o ritmo geral do desenvolvimento tecnológico. O artigo conclui destacando o investimento do autor em esforços para monitorar os impactos do GPT-4, incluindo experimentos sobre desempenho dos trabalhadores e pesquisas com usuários e empresas que constroem com a tecnologia.
Aceleração
Resumo: O artigo discute as preocupações da OpenAI sobre o potencial impacto do GPT-4 no ecossistema mais amplo de pesquisa e desenvolvimento de IA, incluindo o risco de dinâmicas de aceleração levando a um declínio nos padrões de segurança e riscos sociais associados à IA.
Para entender melhor o risco de aceleração, a OpenAI recrutou previsores especialistas para prever como várias características da implantação do GPT-4 podem afetar o risco de aceleração. O artigo observa que atrasar a implantação do GPT-4 por seis meses e adotar uma estratégia de comunicação mais discreta poderia reduzir o risco de aceleração.
O artigo também discute uma avaliação realizada para medir o impacto do GPT-4 na estabilidade internacional e identificar os fatores estruturais que intensificam a aceleração da IA. O artigo conclui afirmando que a OpenAI ainda está trabalhando em pesquisas e desenvolvendo estimativas de aceleração mais confiáveis.
Excesso de dependência
Resumo: O artigo discute o risco de excesso de dependência do GPT-4, onde os usuários confiam e dependem excessivamente do modelo, potencialmente levando a erros despercebidos e supervisão inadequada. O artigo observa que o excesso de dependência é um modo de falha que provavelmente aumenta com a capacidade e o alcance do modelo.
Para mitigar o excesso de dependência, o artigo recomenda que os desenvolvedores forneçam aos usuários finais documentação detalhada sobre as capacidades e limitações do sistema, cautela em como se referem ao modelo/sistema, e comuniquem a importância de avaliar criticamente os resultados do modelo.
O artigo também discute mudanças no nível do modelo que a OpenAI fez para abordar os riscos de excesso de dependência e subutilização, incluindo refinar o comportamento de recusa do modelo e aprimorar a orientabilidade. No entanto, o artigo observa que o GPT-4 ainda exibe uma tendência a usar linguagem cautelosa em suas respostas, o que pode inadvertidamente promover o excesso de dependência.
CEO e CTO da OpenAI falam sobre riscos
Alguns dias atrás, a ABC news publicou uma entrevista com o CEO da OpenAI, Sam Altman, e a então-CTO Mira Murati. (Nota: Mira Murati saiu da OpenAI em setembro de 2024.) Eles falaram muito sobre riscos, e você pode ver o vídeo abaixo
https://www.youtube.com/watch?app=desktop&v=540vzMlf-54
Conclusão
A integração do modelo de linguagem da OpenAI no Microsoft Office 365 tem um imenso potencial para aprimorar a produtividade, a transferência de conhecimento e a automação em vários setores. O GPT 4 é sem dúvida muito mais capaz do que as versões anteriores. No entanto, o que mais me impressiona é a velocidade com que tanto a OpenAI quanto a Microsoft estão avançando — e isso leva a uma aceleração geral do desenvolvimento e adoção da IA. Sou geralmente otimista sobre o desenvolvimento da IA, mas acho que precisamos garantir que a discussão sobre os vários riscos chegue ao mainstream. Posso estar errado, mas parece que o ritmo de desenvolvimento está superando nossa capacidade de refletir sobre as implicações.
O que você acha — estamos indo rápido demais com a IA, ou é esse o ritmo certo? Adoraria ouvir sua perspectiva sobre isso.
Abraços,
Chandler









