a minha tese principal é que a melhor forma de utilizar AI em empresas atualmente é discretizando os processos com maior gargalo e automatizar com AI, e os principais lideres atualmente tmb acreditam nisso mas acredito que eles estão errados na execução: atualmente estamos com uma ideia muito distorcida de agentes, nn existe uma definição clara doq é um agente mas considerando que a definição de agentes é "llm as a human" (acredito que a maioria das pessoas tem essa ideia) isso é mt instável, como q agente com os modelos halucinando em casos q podem ser extremamente críticos? no caso por mais que a minha ideia esteja alinhada a execução difere pois acredito que a melhor forma de automatizar um processo é tratando ele como um processo (uma abstração com varias lógicas inerentes e casos que temos que tratar, definindo uma heurística segura com guardrails) mas como fazemos isso? Com o principio da computação I/O, definimos a lógica do sistema com base no Input e no Output onde o objetivo é construir um algoritimo no meio desses dois que atenda os nossos requisitos e métricas para cadar par de input e output, ai que entra a beleza: EVALS
Com Evals conseguimos ter observalidade sobre o processo e escolher os melhores hiperparametros (prompt, modelos, temperatura, reasoning_effort, ...) que maximizam uma reward function que definimos (por exemplo quero q esse processo tenha 99% de acurácia na extração de dados desse conjunto de documentos), veja que é como se estivéssemos colocando um muro no modelo para que ele nn faca merda e que sempre funcione de maneira correta com os nossos casos, e é assim que conseguimos domar a lógica probabilística dos modelos atualmente :)
Mas ai vc me fala poxa isso é o q a tela está fazendo, e sim é mesmo, trabalhando lá vi o qual util essa abstração é e pq essa abstração é uma das únicas que esta funcionando no mercado corportate te llms atualmente (mts vezes isso já está sendo implementado no interior das empresas, muitas vezes fora tmb), esse problema é tão bom q a tela sem produto conseguiu captar 20m, a enter com todos os problemas que fiquei sabendo (sim, eles nn são td q agente imagina, uma graduaçõ de Harvard/stanford nn te faz um gênio, talvez te de labia, mas um gênio isso com ctz nn é garantido) +50m, portanto é importante observarmos esses signals (é legal vermos o capitalismo como um modelo gigantesco de vários nodos onde cada um é uma pessoa e cada pessoa está funcionando com uma heurística extremamente diferentes (pessoas mais próximas tem heurísticas mais próximas) onde podemos abstrair todos esses outros nodos (menos vc) como um grande bloco onde colocamos vários inputs e respondem vários outputs e com isso podemos observar signals para melhorar nossos pesos atingir melhores rewards nas próximas iterações (mts vezes esses signals podem ser enganosos pois podem levar para mínimos locais e ai q esta a importante de ter "contrariant truths" como diria o Peter Thiel (incrível o paralelo q pode ser traçado com a jogada 37 do alphago))
conclusão:
A ideia q eu implementaria seria: Uma plataforma tipo a tela onde é possível ter controle de vários projetos, cada projeto possui vários fluxos de orchestração, nessa unicidade de orchestração é onde podemos ter inicialmente uma AI que cria vários módulos (de código, de llm, if, ...) e vários testes mais granulares para cada módulo de llm e testes gerais (q verificam tanto com exact_match, fuzzy_match, llm_match (uma ai q vai verificar com o contexto se a resposta esta correta) e posteriormente gerar uma api para que a pessoa consiga chamar com os parâmetros dos arquivos e etc... e todo esse fluxo estará rodando (aqui temos uma barreira imensa, pois devs no br são em sua maioria mt ruins e por incrível q pareca mts deles demorariam até 2 semanas para conseguir criar um POST em uma API (já presenciei isso)) e o ponto é se conseguirmos fazer esse fluxo rodar com uma interface gerada para q seja possível colocar os inputs e já saber os resultados (isso agrega mt, tipo o trabalho de um solutions engineer automatizado) e isso é possível com bolt (e nn é preciso construir isso do zero, tem código opensource) logo é possível colocar essa solução na mão de uma pessoa q manja na regra de negocio e ela vai voar por q no começo do dia ela vai ter na mesa um problema de um processo q precisaria de +10 funcionários e no final do dia ele tem um fluxo funcionando com uma interface (frontendzinho) que atende os problemas dele e sempre q ele precisar rodar esse fluxo ele vai colocar os inputs ali (em um dia ele poupou 10 funcionários, isso é AGI para mim)
Logo vc me pergunta, Godoy se essa ideia é tão genial pq vc nn está implementando isso? R: Não tenho canal de distribuição, para uma ideia dar certo é preciso de 3 coisas:
1. produto bom (nesse caso nn é tão difícil fazer algo minimamente util),
2. dor do usuário (nesse caso tmb funciona pq todo mundo td hora está querendo automatizar as coisas (ainda mais quando podemos automatizar 10 estags em um dia, oq mais tem no mercado atualmente é gente atolada de coisas repetitivas) logo essa dor faz o produto ser um analgésico nn uma vitamina e isso é extremamente importante ainda mais no contexto q todo mundo atualmente quer usar AI, mts vezes só pelo titulo) e na minha opinião a mais importante
3. canal de distribuição, se vc tem isso vc tem tudo (olha para o Kanye, virginia, ...) e no caso nn to com saco de ficar mandando cold email para as empresas e acho mt difícil q grandes empresas vao confiar em um mlk de 20 anos com uma startup q nem captou (mercado é meio dumb in general, pessoal olha mt para credentials), se vc fizer isso vc vai ter a reputação e a força da adapta como canal de distribuição e isso é killer
Outro ponto interessante para refletir é a quantidade de problemas q são resolvidos com uma solução (é uma bala de prata) (um pitch bom para o hackaton é: Se todo mundo q participou do hackaton tivesse usado nossa plataforma talvez agente até perdesse (provavelmente as soluções q o pessoal vai fazer são coisas muito sharped e focadas em problemas mais sensíveis tipo: "Chatbot para contabilidade"), ent meio q se posicionar como a IDE da próxima geração e etc é algo legal (e nn fale mal de agentes tente incorporar a ideia aqui, pessoas nn gostam de ser contrariadas e gostam de ter suas "verdades" reafirmadas, ainda mais essa glr...)