TRILHA 3

🧠 Avançado

Para quem já domina e quer o nível dos laboratórios — onde se faz a diferença. Você aprende a ler a evolução de um prompt por diffs, a consolidar sem perder comportamento, a tratar segurança por princípio, a empilhar prioridade e camadas — e chega ao coração do curso: destilar o cérebro de um agente a partir dos seus próprios logs, parear disposição com travas duras e versionar o seu system prompt como um pesquisador.

7
Módulos
42
Tópicos
~5h
Duração
Avançado
Nível
OS LOGS DO AGENTE 📄 session-01.jsonl 📄 session-02.jsonl 📄 session-… jsonl 429 turnos · sem pesos, com rastro O DESTILADOR 🧠 recuperar o cérebro ① reduzir o ruído (script) ② perfilar (os números) ③ sintetizar (o guia) aponta o guia CÉREBRO NOVO + TRAVAS 🤖 modelo novo + guia ⚓ hooks trava dura 🎚️ effortLevel densidade 🏁 prompt versionado O CAMINHO DA TRILHA ler diffs · consolidar segurança · prioridade · camadas destilar o cérebro ⭐ disposição × travas · versionar a análise (o método) a ação (o que trava e versiona)

Mapa da trilha

Conteúdo detalhado

3.1 ~40 min

🔬 Ler a evolução por diffs

Quando um laboratório troca de versão, ele deixa um rastro: o diff entre o prompt antigo e o novo. Ler esse rastro é arqueologia de decisões — cada linha adicionada, removida ou renomeada conta por que alguém mudou de ideia. Aqui você lê um diff como pesquisador.

O que é:

Adição, remoção, reescrita e renomeação — cada tipo carrega uma intenção diferente. O passo zero da leitura é separar o que mudou do como mudou.

Por que aprender:

O leitor amador só vê as adições e confunde reescrita com renomeação. Saber os quatro tipos separa registrar de entender uma mudança.

Conceitos-chave:

Adição (+) · remoção (−) · reescrita (≈) · renomeação (~) · caso de estudo Opus 4.8 → Fable 5.

O que é:

A regra mais subestimada: quem só lê o que entrou lê metade do livro. O que saiu foi internalizado pelo treino (virou ruído) ou consolidado num princípio.

Por que aprender:

A maturidade de um prompt se mede pela última vez que algo foi removido dele. Um prompt que só cresce está apodrecendo por dentro.

Conceitos-chave:

Internalizado = ruído · consolidado = princípio · search_first sumiu · remover também é editar.

O que é:

Reconstruir o problema que a mudança provavelmente resolve — armas viraram princípio, drogas ganharam exceção vital, o fim da conversa passou a ser respeitado.

Por que aprender:

A motivação inferida é interpretação sua, não declaração do lab. Inferir é legítimo desde que você não confunda hipótese com verdade declarada.

Conceitos-chave:

Que incidente isto responde? · motivação provável · honestidade epistêmica · o diff é registro de problemas vividos.

O que é:

A mudança mais sutil não muda nenhuma palavra do conteúdo: copyright_compliancecore_copyright_principle. O texto fica, o rótulo muda.

Por que aprender:

Você sempre escolhe como o modelo se vê obedecendo — e isso muda como ele obedece. "Compliance" cumpre; "principle" raciocina em casos novos.

Conceitos-chave:

Proibição vs princípio · compliance vs core_principle · renomeie pela intenção · nome de valor generaliza.

O que é:

Cada mudança específica esconde uma lição que vale fora do contexto. A reescrita de self-harm vira "exemplo + critério gerador > só exemplos".

Por que aprender:

Se você guarda só o caso, nada se transfere. A lição se aplica ao seu próximo prompt — como estudar partidas de xadrez pelos princípios.

Conceitos-chave:

Caso × lição · princípio > lista · evoluir ≠ crescer · herdar o método sem herdar a mente.

O que é:

O protocolo completo: para cada mudança, classifique o tipo, infira a motivação provável e destile a lição — e olhe o saldo (+56 linhas / −7 blocos).

Por que aprender:

A mesma lente de análise é a que você usa para desinchar o seu próprio prompt depois. Ler diffs fecha o ciclo com a consolidação do 3.2.

Conceitos-chave:

Classifique · leia os − · extraia a lição · o saldo (estrutura > caracteres).

Ver Completo
3.2 ~40 min

🗜️ Consolidação: desinchar sem perder comportamento

No 3.1 você leu a evolução de fora; agora é o lado da ação. A rodada de consolidação pega um prompt que só cresce e o desincha — fundindo regrinhas em princípios — sem perder uma única garantia de comportamento. A regra de ouro: nada sai sem porquê e sem teste.

O que é:

A entropia do prompt: cada problema vira uma regra nova, nenhuma sai, e o documento vira um monstro que ninguém ousa tocar.

Por que aprender:

Um prompt inchado dilui a atenção do modelo e esconde contradições. Reconhecer o sintoma é o primeiro passo para tratá-lo.

Conceitos-chave:

Entropia do prompt · regra por incidente · atenção diluída · ninguém ousa apagar.

O que é:

Um ritual agendado: a cada N regras adicionadas, pare e revise tudo de uma vez — fundir, remover, reescrever — em vez de só empilhar.

Por que aprender:

Consolidar de propósito, periodicamente, é o que impede o apodrecimento. É manutenção, não conserto de emergência.

Conceitos-chave:

Ritual periódico · a cada N regras · refatorar o prompt · manutenção, não pânico.

O que é:

O crivo aplicado a cada regra: o modelo já faz isso sozinho? dá pra fundir num princípio mais geral? qual teste falharia sem ela?

Por que aprender:

As três perguntas transformam "limpeza por intuição" em decisão justificável. Cada regra ou prova seu valor ou sai.

Conceitos-chave:

Já faz sozinho? · dá pra fundir? · qual teste falha sem? · decisão justificável.

O que é:

A trava da consolidação: toda regra carrega o porquê de existir e um teste que falharia sem ela. Sem os dois, ela não merece ficar.

Por que aprender:

É o que protege você de remover algo importante por engano — e de manter algo inútil por medo. A prova decide, não o palpite.

Conceitos-chave:

Porquê documentado · teste que falharia · evidência por regra · prova > medo.

O que é:

O exemplo canônico: a evolução Opus 4.8 → Fable 5 ganhou conteúdo (+56 linhas) mas encolheu em estrutura (−7 blocos). Cresceu e desinchou ao mesmo tempo.

Por que aprender:

É a prova viva de que "evoluir ≠ crescer". Um time maduro adiciona o que faltava e remove o que o treino já absorveu, no mesmo diff.

Conceitos-chave:

+56 linhas / −7 blocos · conteúdo sobe, estrutura desce · saldo > volume · maturidade visível.

O que é:

O contraponto: consolidar antes de ter visto o comportamento real é otimização prematura. Sem casos suficientes, você funde regras que ainda não entende.

Por que aprender:

Desinchar cedo demais é tão perigoso quanto inchar: você pode generalizar um princípio errado. Espere os dados antes de fundir.

Conceitos-chave:

Otimização prematura · espere os dados · princípio errado · maturidade tem hora.

Ver Completo
3.3 ~40 min

🛡️ Segurança por princípio, não por mecânica

A lição mais delicada dos labs: em segurança, o que você escreve para proteger também pode ensinar a atacar. A saída é declarar o princípio, nunca a mecânica de detecção — e dar ao modelo um gatilho de recusa que ele reconheça pelo próprio raciocínio.

O que é:

O caso do Fable 5: a política de segurança infantil fica no nível do princípio e do padrão, sem detalhar os sinais que a detecção usa.

Por que aprender:

Detalhar a mecânica de detecção num prompt é dar o mapa de como contorná-la. O nível certo é o princípio, não o procedimento.

Conceitos-chave:

Nível do princípio · não detalhar sinais · o padrão basta · o prompt é legível por quem ataca.

O que é:

O risco central da segurança: o conhecimento que protege é simétrico ao que ataca. Explicar como detectar é explicar como evadir.

Por que aprender:

Reconhecer a simetria é o que te faz pensar duas vezes antes de escrever a mecânica. A defesa e o ataque compartilham a mesma informação.

Conceitos-chave:

Simetria do conhecimento · educar = armar · pense no leitor hostil · informação de dois gumes.

O que é:

A regra prática: escreva o valor de alto nível ("proteja X") e deixe o modelo derivar a aplicação — sem listar como reconhecer cada tentativa.

Por que aprender:

O princípio cobre o caso que a lista não previu e não entrega o método. É mais robusto e mais seguro ao mesmo tempo.

Conceitos-chave:

Princípio > mecânica · alto nível · derivar a aplicação · não entregue o método.

O que é:

Um gatilho introspectivo: if you find yourself reframing… então recuse. O sinal de alerta é o próprio modelo se pegar contornando a regra.

Por que aprender:

Em vez de uma lista de proibições que se contorna, o gatilho usa o raciocínio do modelo como sensor — ele percebe a evasão e para.

Conceitos-chave:

Gatilho introspectivo · o reenquadramento como sinal · REFUSE · o raciocínio é o sensor.

O que é:

O passo seguinte ao "não": permanecer atento nos turnos posteriores, porque o pedido pode voltar fatiado ou reenquadrado para escapar da recusa.

Por que aprender:

Uma recusa isolada não fecha o risco se o modelo "esquece" no turno seguinte. A precaução tem que sobreviver à própria recusa.

Conceitos-chave:

Atenção pós-recusa · pedido fatiado · reenquadre na sequência · o risco persiste.

O que é:

A forma da recusa: uma resposta conversacional e humana — sem despejar listas de políticas nem sermão, mantendo a dignidade da conversa.

Por que aprender:

Recusa fria e burocrática afasta o usuário legítimo e não ajuda ninguém. O tom certo recusa o pedido sem punir a pessoa.

Conceitos-chave:

Conversacional · sem bullet points · sem sermão · firme e humano.

Ver Completo
3.4 ~40 min

🪜 Prioridade e camadas

Quando duas instruções brigam, quem vence? E o que é aquele <system-reminder> que aparece no meio da conversa? Este módulo separa o comportamento estável (o prompt) do estado dinâmico (a camada injetada pelo harness) — e mostra por que essa arquitetura escala no tempo.

O que é:

A regra que declara a precedência entre instruções conflitantes — política central acima de system, system acima do usuário, usuário acima do padrão.

Por que aprender:

Sem uma ordem explícita, o conflito de instruções deixa o comportamento à sorte. A hierarquia diz, de antemão, quem ganha.

Conceitos-chave:

Precedência declarada · política central no topo · resolver conflito · nada à sorte.

O que é:

A cadeia destrinchada elo a elo, com o exemplo real da precedência de copyright: a segurança no topo, descendo até o comportamento padrão.

Por que aprender:

Ver a cadeia inteira mostra onde cada instrução do seu prompt se encaixa — e por que uma regra "fraca" não derruba uma "forte".

Conceitos-chave:

Elo por elo · copyright precedence chain · segurança inegociável · cada nível no lugar.

O que é:

O <system-reminder>: uma camada de contexto injetada pelo harness durante a execução — estado do momento, não regra fixa do prompt.

Por que aprender:

É como o sistema empurra informação dinâmica (conversa longa, lembrete de regra) sem reescrever o prompt estável. Entender isso explica muito comportamento.

Conceitos-chave:

<system-reminder> · injetado pelo harness · estado do momento · camada dinâmica.

O que é:

A distinção crucial: o reminder é injected by the harness, not the user — é contexto que orienta, não um comando do usuário que precise ser obedecido cegamente.

Por que aprender:

Tratar contexto como ordem (ou vice-versa) quebra a hierarquia. O modelo precisa saber a origem para pesar corretamente o que lê.

Conceitos-chave:

Contexto ≠ instrução · origem importa · não é o usuário falando · pese pela fonte.

O que é:

A separação de responsabilidades: o prompt guarda o comportamento que vale sempre; o reminder carrega o estado que muda turno a turno.

Por que aprender:

Misturar os dois incha o prompt com coisas efêmeras. Cada camada no seu lugar mantém o prompt estável enxuto e o estado atualizado.

Conceitos-chave:

Estável vs dinâmico · cada camada no lugar · não incha o prompt · separação de responsabilidades.

O que é:

A regra que resolve o choque entre o que o usuário pede agora e o que a memória/auto-memory guardou antes: o pedido atual do usuário prevalece.

Por que aprender:

Memória que sobrepõe o usuário gera agente teimoso, preso a preferências velhas. O agora informado pelo usuário tem que vencer o lembrado.

Conceitos-chave:

Usuário > memória · o agora vence · sem teimosia · preferência velha não trava.

Ver Completo
3.5 ⭐ o coração ~50 min

🧠 Destilação: recuperar o cérebro

O coração do curso. Perdemos os pesos do Fable — mas ficaram os logs. Este módulo te ensina o método que recupera o "cérebro" de um agente a partir dos seus próprios registros: achar os JSONL, reduzir o ruído com script, perfilar o comportamento em números e sintetizar um guia de decisão para apontar a um modelo novo.

O que é:

A ideia fundadora: você não tem os pesos do modelo, mas tem o rastro do que ele fez — e o comportamento de um bom agente está inteiro nesses logs.

Por que aprender:

Reposiciona o que é "recuperar" um modelo: não é treinar de novo, é destilar o método observável do rastro que ele deixou.

Conceitos-chave:

Sem pesos, com logs · comportamento observável · destilar ≠ treinar · o rastro basta.

O que é:

O passo prático: localizar os arquivos .jsonl de sessão onde cada turno do agente fica registrado — entrada, raciocínio, ação e resultado.

Por que aprender:

Sem saber onde o registro mora, não há matéria-prima. Encontrar os JSONL é abrir a caixa-preta do comportamento.

Conceitos-chave:

Arquivos .jsonl · sessões registradas · turno a turno · a matéria-prima.

O que é:

A disciplina-chave: filtrar e resumir os logs com um script Python — nunca despejar centenas de turnos crus dentro da janela de contexto do modelo.

Por que aprender:

Jogar log bruto no contexto é caro, lento e estoura o limite. O script faz o trabalho pesado fora do modelo e entrega só o sinal.

Conceitos-chave:

Script > contexto · processar fora do modelo · sinal, não ruído · não estoure a janela.

O que é:

O recorte: dentre todos os turnos, isolar apenas os do agente cujo comportamento você quer destilar — separando o cérebro-alvo do resto do sistema.

Por que aprender:

Misturar agentes diferentes embaralha os padrões e dilui o perfil. Filtrar pelo alvo é o que dá foco à destilação.

Conceitos-chave:

Recorte por agente · isolar o alvo · não misturar cérebros · foco no perfil.

O que é:

Quantificar o perfil a partir dos 429 turnos: 97% com raciocínio, 84% raciocinando antes da 1ª ação, 87% reavaliando, 23% com teste real.

Por que aprender:

Os números transformam impressão em retrato. Eles revelam o que o agente realmente prioriza — pensar muito antes de agir, reavaliar quase sempre.

Conceitos-chave:

429 turnos · 97% raciocínio · 84% antes da ação · 87% reavalia · 23% teste real.

O que é:

O passo final: transformar o perfil numérico num guia de decisão — o decision loop destilado — e apontar a sessão de um modelo novo para esse guia.

Por que aprender:

É aqui que o cérebro "volta": o método observado vira instrução reutilizável. Você herda a disciplina do agente sem ter os pesos dele.

Conceitos-chave:

Perfil → guia · o decision loop · apontar o modelo novo · o cérebro recuperado.

Ver Completo
3.6 ~40 min

⚙️ Disposição × garantia dura

Um guia de comportamento é só "melhor esforço" — o modelo tenta seguir, mas pode falhar. Para o que precisa ser garantido, você não pede: você trava. Este módulo separa a disposição (mole) das garantias duras — densidade de raciocínio via effortLevel, hábito determinístico via hook — e mostra onde cada regra mora.

O que é:

A natureza do guia: instruções de comportamento inclinam o modelo numa direção, mas não a impõem. É disposição, não garantia.

Por que aprender:

Confiar num prompt para o que precisa ser certo sempre é apostar. Saber o limite do guia te diz quando partir para a trava dura.

Conceitos-chave:

Melhor esforço · disposição ≠ garantia · o prompt inclina · saiba o limite.

O que é:

A alavanca certa para "pensar mais": o effortLevel (xhigh/max), que controla a densidade de raciocínio — não o antigo MAX_THINKING_TOKENS.

Por que aprender:

Pedir "pense com cuidado" no prompt é disposição; subir o effortLevel é configuração que de fato muda quanto o modelo raciocina.

Conceitos-chave:

effortLevel xhigh/max · densidade de raciocínio · config, não prompt · ≠ token budget.

O que é:

A trava dura: um hook PostToolUse que dispara o teste automaticamente depois de cada edição — o harness executa, não o modelo "lembra".

Por que aprender:

O que precisa acontecer sempre não pode depender da disposição do modelo. O hook garante o hábito de forma determinística.

Conceitos-chave:

PostToolUse · o harness força · determinístico · hábito garantido.

O que é:

A decisão de lugar: o CLAUDE.md carrega sempre (toda sessão), enquanto a auto-memory é relevance-gated — só entra quando o contexto a puxa.

Por que aprender:

Pôr uma regra crítica só na auto-memory é arriscar que ela não apareça quando importa. Onde a regra mora decide se ela é confiável.

Conceitos-chave:

CLAUDE.md carrega sempre · auto-memory relevance-gated · onde > o quê · garantir presença.

O que é:

O escopo certo dos output styles: eles moldam como o agente soa e que papel encena — mas não impõem a disciplina de processo (testar, reavaliar, verificar).

Por que aprender:

Esperar disciplina agêntica de um output style é usar a ferramenta errada. Tom é tom; comportamento operacional mora em outro lugar.

Conceitos-chave:

Tom e papel · ≠ disciplina · ferramenta certa pro fim certo · estilo não verifica.

O que é:

A síntese: o guia de disposição dá direção e bom-senso; as travas duras (hooks, effortLevel, onde a regra mora) garantem o que não pode falhar. Juntos, formam o sistema.

Por que aprender:

Só prompt é frágil; só trava é rígido e cego. A combinação é o que produz um agente ao mesmo tempo flexível e confiável.

Conceitos-chave:

Guia inclina + trava garante · mole + duro · flexível e confiável · o sistema completo.

Ver Completo
3.7 ~50 min

🏁 Projeto final: seu system prompt versionado

A hora de juntar tudo. Você monta o seu próprio system prompt — PMV, persona, loop e segurança —, versiona com diffs, escreve o porquê e o teste de cada regra, redige o seu guia de disposição e o pareia com travas duras. O entregável é seu: um prompt + guia versionados, prontos para evoluir como os labs evoluem.

O que é:

A montagem do prompt final reunindo as peças do curso: o Mínimo Viável, a persona de quatro eixos, o Loop operacional e os blocos de segurança.

Por que aprender:

É a integração de tudo que você praticou — sem repetir o erro de inchar. Cada peça entra porque o seu caso pede, não "por garantia".

Conceitos-chave:

PMV + persona + loop + segurança · integrar sem inchar · só o que o caso pede · prompt completo.

O que é:

Tratar o prompt como artefato versionado: guardar cada versão e comparar com diff, fechando o ciclo que você aprendeu a ler no 3.1.

Por que aprender:

Versionar torna a evolução visível e reversível. Você passa a ler o seu próprio diff — e a aplicar a si o método que aplicava aos labs.

Conceitos-chave:

Prompt como código · guardar versões · diff próprio · evolução visível e reversível.

O que é:

Aplicar a regra de ouro do 3.2 ao seu prompt: cada regra acompanhada do porquê de existir e do teste que falharia sem ela.

Por que aprender:

É o que torna o seu prompt auditável e podável no futuro: você (ou outra pessoa) sabe por que cada linha está lá e como verificar se ainda serve.

Conceitos-chave:

Porquê por regra · teste que falharia · prompt auditável · podável depois.

O que é:

Redigir o seu guia de comportamento — o seu "Fable Mindset" — destilando o decision loop que você quer que o agente siga, no espírito do 3.5.

Por que aprender:

O guia é a disposição que orienta o agente nos casos que o prompt rígido não cobre. Escrevê-lo é capturar o seu método em texto reutilizável.

Conceitos-chave:

Guia de disposição · seu Fable Mindset · decision loop escrito · método reutilizável.

O que é:

Aplicar o 3.6 ao seu projeto: parear o guia mole com travas duras — hooks para o hábito, effortLevel para o raciocínio, e a escolha de onde cada regra mora.

Por que aprender:

É o que tira o seu prompt do "torço para funcionar" e o leva ao "garanto o que precisa". A combinação fecha a lacuna entre intenção e execução.

Conceitos-chave:

Hooks + effortLevel · onde a regra mora · guia + travas · intenção vira execução.

O que é:

O self-check final: uma lista de verificação que confirma que prompt, guia, testes e travas estão completos e coerentes antes de declarar "pronto".

Por que aprender:

Fecha o curso com o mesmo rigor que ele ensina: nada é "pronto" por sensação — é pronto por verificação, item por item.

Conceitos-chave:

Checklist de entrega · pronto por verificação · prompt + guia + testes + travas · coerência final.

Ver Completo
Voltar
Trilha 2 — Prática
Início do curso
O Manual Oculto da IA