Eu lembro exatamente do momento.

Tinha acabado de gerar meu primeiro vídeo com IA. Escrevi algo tipo "um chef preparando comida numa cozinha moderna". Apertei o botão. Esperei. E quando o resultado apareceu...

Parecia um cutscene de PlayStation 2.

A pele do chef brilhava de um jeito estranho, como se fosse feita de plástico. A iluminação era achatada, sem sombra, sem direção. O fundo parecia aquelas fotos genéricas de banco de imagem que a gente vê em site de dentista.

Minha primeira reação foi: "a tecnologia ainda não está pronta".

Minha segunda reação, umas semanas depois, foi perceber que o problema não era a IA. O problema era eu.

Eu estava tratando ela como uma caixa mágica — joga um pedido e espera milagre. Mas ela não é isso. Ela é uma equipe de filmagem inteira esperando ordens. E eu não estava dando nenhuma.

Foram semanas testando, errando, comparando resultados, até que cheguei em 4 coisas que fazem a diferença entre um vídeo amador e um que as pessoas perguntam "isso foi filmado de verdade?".

Pare de descrever tudo de uma vez
(a IA pira)

O meu erro mais teimoso era tentar enfiar tudo num prompt só. A roupa do personagem, os móveis da sala, o que tinha na janela, o clima lá fora — tudo junto, tudo misturado.

E o resultado vinha sempre com aquela cara de "tentei fazer tudo e não fiz nada direito".

Até que um dia eu cortei tudo. Tirei 80% do prompt. Deixei só o essencial. E o vídeo que saiu foi absurdamente melhor.

O que eu escrevia

"Um homem tomando café na cozinha moderna com vista para a praia de manhã, com sol entrando pela janela."

O que funciona

"Close-up no rosto de um homem cansado tomando café. Fundo completamente desfocado. Luz natural suave da janela lateral."

No primeiro, eu quis cozinha, praia, sol, café — tudo. A IA tentou renderizar cada detalhe e nenhum ficou convincente.

No segundo, eu disse: foca no rosto, desfoca o resto. A IA concentrou toda a capacidade dela num detalhe só. E ficou real.

O princípio que eu sigo agora

Um ambiente. Uma roupa. Um momento. A IA tem poder computacional limitado por prompt — se você divide a atenção dela em 10 coisas, cada uma recebe 10% do cuidado. Se foca numa coisa só, ela recebe 100%.

Menos informação — mais capricho visual em cada detalhe
Fundo desfocado — a IA não precisa inventar cenário, e o resultado parece câmera profissional
Imperfeições são suas amigas — poros, assimetrias, texturas fazem parecer real

As "palavras mágicas" que mudam tudo
(copie e cole sem medo)

Isso foi a coisa mais surpreendente que descobri.

As IAs de vídeo — Veo, Kling, Runway — foram treinadas em milhões de filmes e fotografias. Elas conhecem o vocabulário técnico de cinema. Se você usar as palavras certas, a estética do vídeo muda na hora.

Eu não entendo nada de câmera. Nunca segurei uma lente anamórfica na vida. Mas quando colei essas frases no final dos meus prompts, os resultados mudaram completamente.

Pra ficar com cara de filme de ação

"Shot on 35mm anamorphic lens, Arri Alexa 65. Teal and orange cinematic color grading."

Pra ficar com cara de documentário

"Shot on RED V-Raptor, 16mm film grain, natural available lighting, handheld slight camera shake."

Pra ficar com cara de celular (TikTok, vlog)

"Shot on smartphone front camera, 12mm wide-angle, authentic amateur framing, slight motion blur."

Não precisa saber o que "anamórfico" significa. Eu também não sabia. Mas a IA sabe — porque viu milhões de frames filmados com essas lentes.

Você copia, cola no final do prompt, e pronto. É como escolher um filtro do Instagram, só que em vez de mudar a cor, muda toda a linguagem visual.

O que está no ar faz toda a diferença
(literalmente)

Essa eu demorei pra perceber.

Eu criava vídeos com personagem bom, enquadramento bom, iluminação razoável — mas ainda faltava alguma coisa. O vídeo ficava com ar de estúdio limpo demais. Artificial. Como se tivessem filmado dentro de uma caixa branca.

Até que vi um vídeo profissional e percebi: tinha poeira flutuando no feixe de luz. Não era sujeira. Era atmosfera. Era o que fazia a cena parecer um lugar real, com ar, com textura, com vida.

Comecei a adicionar essas instruções no final dos prompts:

"Poeira volumétrica flutuando no feixe de luz" — pra cenas internas, aquela luz de domingo de manhã
"Neblina cinematográfica rasteira" — pra dar profundidade e mistério
"Reflexos de neon no asfalto molhado pela chuva" — pra cenas urbanas noturnas, fica incrível
"Marcas de dedo na lente da câmera" — parece estranho, mas dá uma sensação de câmera real que a IA adora

E o som também entra

IAs como o Veo geram áudio junto com o vídeo. Se eu peço "ondas quebrando, gaivotas distantes, brisa leve no microfone", o vídeo chega com esses sons. Sem precisar editar depois. Mudou meu workflow completamente.

Parece detalhe, mas é esse tipo de coisa que faz alguém olhar pro seu vídeo e pensar "isso foi filmado de verdade" em vez de "isso foi gerado".

A trava que blinda contra o visual de plástico
(copie e cole em tudo)

Essa é a peça que juntou tudo.

Mesmo depois de aprender sobre foco, lentes e atmosfera, de vez em quando ainda saía um vídeo com aquele brilho de plástico. Especialmente na pele — ficava liso demais, perfeito demais, com aquele ar de manequim.

Até que montei uma frase que funciona como um seguro contra isso. Eu colo no final de todo prompt que escrevo. Sem exceção.

Trava Anti-Plástico — cole no final de todo prompt Absolutely NO 3D renders, NO CGI appearance, NO plastic skin textures, NO flat stock-footage lighting. Must feature natural imperfections, authentic real-world physics, and hyper-realistic optical properties.

Sim, é em inglês. Porque as IAs foram treinadas majoritariamente em inglês e entendem termos técnicos com mais precisão nesse idioma. Mas relaxa — você não precisa traduzir nem entender cada palavra. Copia, cola, e funciona.

Na prática, essa frase diz pra IA: "não quero nada que pareça computador. Quero poros, rugas, sujeira, luz real. Quero que pareça que alguém foi lá e filmou."

Desde que comecei a usar, o índice de vídeos que preciso refazer caiu pra quase zero.

O "Prompt Sanduíche" — minha estrutura pra todo vídeo

Sempre que vou gerar um vídeo, monto o prompt nessa ordem. Virou automático.

O que está acontecendo?
"Um chef fatiando tomates numa tábua de madeira."
Qual é o visual?
"Lente macro 100mm, iluminação quente e dramática, fundo desfocado."
Como a câmera se move?
"Câmera lenta a 120fps, leve aproximação suave."
O que está no ar?
"Vapor subindo da comida, som de faca batendo na tábua."
Trava Anti-Plástico
Cola a frase do Pilar 4. Sempre.

Olhando pra trás, o que mudou não foi a tecnologia. A IA era a mesma. O que mudou foi como eu falava com ela.

Quando eu pedia "faz um vídeo bonito", ela improvisava. E improvisação de máquina é plástico, liso, genérico.

Quando eu passei a dirigir — dizendo exatamente a lente, a luz, a atmosfera e a trava — ela parou de adivinhar.

E quando ela para de adivinhar, o resultado impressiona.

Quer mais técnicas como essas?

Toda semana eu mando um email com algo novo que testei. Um atalho, uma técnica, um prompt que funcionou. Sem sequência de vendas. Só conteúdo.

Direção de Cinema com IA: Como Parei de Criar Vídeos com Cara de Plástico

Pare de descrever tudo de uma vez (a IA pira)

As "palavras mágicas" que mudam tudo (copie e cole sem medo)

O que está no ar faz toda a diferença (literalmente)

A trava que blinda contra o visual de plástico (copie e cole em tudo)