Minha mãe me ligou num domingo à tarde. Estava preocupada porque ouviu no jornal que "a inteligência artificial vai substituir todo mundo".
Eu ri. Não porque a preocupação fosse boba — é uma preocupação real. Ri porque percebi que ela, como muita gente, estava imaginando robôs de filme, telas com códigos verdes e um futuro onde as máquinas pensam sozinhas.
Passei a tarde explicando pra ela. E no meio da conversa, sem querer, usei uma comparação com o rádio que fez ela entender na hora.
Foi aí que percebi: a melhor forma de explicar IA é esquecendo a tecnologia e voltando pra coisas que todo mundo viveu.
O rádio. A televisão. A locadora de VHS da esquina.
Se você entende essas três coisas — e eu sei que entende — você já tem tudo que precisa pra entender como a IA funciona. De verdade.
O ChatGPT é um roteirista de rádio
(e isso explica tudo)
Pensa na década de 40. O rádio era o centro de tudo. As famílias sentavam ao redor daquele aparelho de madeira e ouviam novelas, noticiários, programas de humor. Não tinha imagem nenhuma. Nada.
Mas mesmo assim, as pessoas "viam" tudo. O roteirista descrevia uma tempestade e você sentia o frio. Ele narrava um crime e seu coração disparava. Tudo acontecia na sua cabeça, porque as palavras eram tão bem escritas que a imagem se formava sozinha.
O ChatGPT faz exatamente isso. Ele é um roteirista de rádio absurdamente talentoso que leu todos os livros, artigos e textos que já existiram. Ele trabalha com uma coisa só: palavras.
Quando você pede pro ChatGPT escrever alguma coisa — um email, uma legenda, um resumo — ele vai nessa biblioteca mental enorme, pega os padrões de linguagem que aprendeu, e monta uma resposta.
Não tem câmera. Não tem cenário. Não tem iluminação. Só palavras encaixadas com lógica.
E o melhor:
- Pediu um email e ficou formal demais? Pede pra reescrever mais casual. Leva 3 segundos.
- A legenda ficou comprida? Manda encurtar. Ele refaz na hora.
- Escreveu uma informação errada? Você corrige e segue em frente.
No rádio, se o roteirista errava uma fala, bastava riscar e reescrever. Com IA de texto é a mesma coisa. O erro é barato. Você ajusta e pronto.
Mas aí um dia eu quis dar o próximo passo. Quis sair do rádio e ir pra televisão.
E foi aí que tudo ficou completamente diferente.
A IA de vídeo é um diretor de TV dos anos 80
(e isso muda tudo)
Lembra quando a TV chegou? De repente, não bastava mais a voz. O público via tudo. O apresentador precisava estar arrumado. O cenário precisava convencer. A iluminação não podia falhar. O operador de câmera precisava enquadrar direito.
E o diretor? O diretor precisava coordenar tudo isso ao mesmo tempo.
Quando comecei a mexer com IA de vídeo — Veo, Sora, Kling, Runway — achei que ia ser tão simples quanto escrever texto. Escrevo uma frase, aperto um botão, sai um vídeo bonito.
Não foi.
IA de texto pensa em palavras.
IA de vídeo pensa em física.
Pra criar 5 segundos de vídeo, a IA precisa calcular coisas que a gente nem percebe no dia a dia:
- Como a luz do sol bate no vidro — e o reflexo muda quando a câmera se move
- Como o vento mexe cada fio de cabelo — de forma diferente, porque na vida real é assim
- O peso de uma garrafa na mesa — ela não pode flutuar nem atravessar a superfície
- Como as sombras se projetam — e mudam de formato quando a pessoa se move
Criar vídeo com IA é como produzir um filme de ação nos anos 80. Você precisa do cenário montado, a iluminação preparada, os efeitos especiais funcionando — e ainda garantir que o microfone não apareça na cena.
A IA faz tudo isso sozinha. Mas faz "desenhando" pixel por pixel, frame por frame. Se você não der direção clara, ela improvisa. E quando improvisa... sai estranho.
No texto, o erro é uma palavra trocada. Você reescreve e pronto.
No vídeo, o erro é o braço derretendo, a mão ganhando 7 dedos, o rosto se fundindo com a cadeira.
Mas por que isso acontece? Essa parte é fascinante.
A IA aprendeu assistindo VHS
(bilhões deles)
Toda vez que alguém me pergunta "como a IA sabe o que é um carro?" ou "como ela sabe a aparência de uma praia?", eu conto a história da locadora.
Lembra das locadoras de VHS? Aquele lugar nos anos 80 e 90, cheio de prateleiras com milhares de fitas, onde você passava meia hora escolhendo um filme na sexta à noite?
Agora imagina a maior locadora do universo.
Não uma com mil fitas. Nem dez mil. Uma locadora com bilhões de gravações — cada vídeo, filme, documentário, comercial, vídeo caseiro e gravação de câmera de segurança que já existiu.
Pegaram essa mega-locadora digital e sentaram a IA na frente da TV. Por anos. Ela assistiu a tudo. Filmes de ação, novelas, documentários do National Geographic, vídeos de receita, comerciais de TV dos anos 70, tutoriais de maquiagem, gravações de câmeras de trânsito... tudo que tinha imagem em movimento.
E enquanto assistia, ela fez algo que nenhum ser humano consegue: memorizou padrões visuais em cada frame.
- "Quando tem sabão em cima de um carro" — os reflexos de luz ficam desse jeito
- "Quando alguém sorri" — os músculos do rosto se movem nessa sequência
- "Quando o sol está se pondo" — o céu vai ficando com essas cores, nessa ordem
- "Quando alguém anda na areia" — o pé afunda assim e a areia respinga assim
Ela nunca lavou um carro. Nunca sentiu areia nos pés. Nunca viu um pôr do sol de verdade.
Mas sabe exatamente como essas coisas parecem — porque viu milhões de exemplos.
Então quando você escreve "homem lavando um carro azul num dia de sol", ela vai nessa biblioteca mental, puxa tudo que "lembra" sobre sabão, carros azuis, mãos humanas e luz solar, e pinta um vídeo novo misturando essas memórias — em segundos.
O problema é que às vezes essa memória falha. E quando falha...
Os 7 dedos e o braço que derrete
(e como evitar isso)
Você já viu esses vídeos na internet. A pessoa está normal, tudo lindo, e de repente a mão tem 7 dedos. Ou o braço parece derreter como sorvete. Ou o rosto fica com aquele ar de boneco de cera que dá arrepio.
No começo eu achava que era bug. Que a tecnologia "ainda não estava pronta". Mas o motivo é mais interessante que isso.
A IA nunca tocou em nada. Ela nunca segurou um copo. Nunca abriu uma porta. Nunca sentiu o peso de uma moeda na palma da mão.
Ela sabe que mãos são "manchas cor de pele perto de objetos" — porque foi isso que ela viu nos vídeos. Mas ela não sabe quantos dedos tem, nem como eles dobram.
Pensa na sua própria mão. Quando você pega um copo, seu cérebro usa décadas de experiência. Você sabe a força certa. Sabe que o polegar fica de um lado e os dedos do outro. Sabe que se inclinar demais, o líquido derrama.
A IA não tem nada disso. Quando ela precisa inventar o movimento — frame por frame — ela chuta. E quando chuta errado, os dedos derretem.
Pedir pro ator pegar o produto da mesa. A IA tenta calcular 5 dedos agarrando algo com peso e forma. Resultado: dedos derretidos.
Deixar o produto parado na mesa e o ator só olhando pra ele. Sem contato físico. Resultado: vídeo perfeito.
"Deixe o objeto na mesa e não encoste nele."
Parece simples demais, eu sei. Mas quando comecei a aplicar isso, os resultados mudaram da água pro vinho. A IA não precisa calcular a física de dedos agarrando um rótulo, de líquido balançando dentro de um frasco, ou de uma tampa girando.
Menos movimento = resultado cinematográfico.
- Ator respirando e piscando — parece filme
- Ator pegando, girando e lançando objetos — parece pesadelo
- Produto parado com luz bonita — parece comercial da Globo
- Produto sendo manipulado por mãos — parece cena de terror
Prompt é o texto que orienta o vídeo
(e faz diferença de verdade)
Durante um bom tempo eu achei que "prompt" era coisa de programador. Uma palavra técnica que não tinha nada a ver comigo.
Até que eu entendi uma coisa simples:
Prompt é só a forma de você orientar a IA. Se você escreve "crie um vídeo", ela decide o resto sozinha. Se você descreve a cena (câmera, luz, movimento), ela tem bem menos espaço pra inventar.
Pensa num produtor de cinema, daqueles que chegam no set com um caderno cheio de anotações. Ele não diz "faz um filme bonito aí". Ele diz exatamente o que quer:
"Crie um vídeo de uma mulher na academia."
Saiu uma mulher genérica, câmera tremida, luz inconsistente, e num ponto eu jurava que ela tinha três pernas.
"Mulher de 35 anos, cabelo preso, camiseta cinza e legging preta. Parada em frente a um espelho de academia, respirando calmamente. Lente 50mm, f/1.8. Iluminação quente lateral. Câmera estática."
Saiu uma cena que eu achei que era real quando vi a miniatura.
A diferença? No primeiro caso, eu disse "faz aí". No segundo, eu dirigi a cena.
As 5 instruções que uso em todo prompt de vídeo
-
Quem está em cena?
Roupa, aparência, idade. A IA precisa saber exatamente, senão inventa. -
Que câmera estamos usando?
"Lente 24mm, leve tremor de mão" muda completamente o visual. É a diferença entre cinema, documentário e celular. -
O que está se movendo?
"Ela está apenas respirando e piscando." Menos movimento = menos chance de erro. -
De onde vem a luz?
"Iluminação natural da janela lateral esquerda." Sem isso, a IA chuta e as sombras ficam estranhas. -
O que estamos ouvindo?
"Sem música de fundo, apenas a voz próxima ao microfone." As IAs avançadas geram som também.
Quando preencho essas cinco coisas, a IA para de adivinhar. Ela não precisa inventar a luz. Não precisa chutar o enquadramento. Não decide sozinha se a câmera treme ou fica parada.
Eu decidi tudo. Ela só executa.
E quando ela não precisa adivinhar... ela não erra.
O mapa completo
IA de Texto = Roteirista de Rádio. Trabalha com palavras. Rápida. Erros baratos de corrigir.
IA de Vídeo = Diretor de TV. Trabalha com física. Complexa. Precisa de direção clara pra não improvisar.
O Prompt = seu briefing. Quanto mais claro e específico, melhor o resultado. Quem dirige é você.
O que eu levei semanas pra entender se resume a isso: a IA não "adivinha intenção". Ela segue o que você escreve. Quanto mais clara a sua descrição, menos ela improvisa.
Agora que você sabe como a coisa funciona por dentro, vem ver como dar ordens de cinema profissional:
Quer receber o próximo?
Uma vez por semana eu mando um email com algo que testei e funcionou. Sem firula. Sem sequência de vendas. Só conteúdo.