O Casamento Perfeito: IA + Go, nasce o Neural Chat

Uma arquitetura distribuída de IA em tempo real utilizando Go, Python, gRPC, streaming e memória conversacional persistente.

O Início da Ideia

Huhuuu, finalmente tenho o prazer de apresentar o primeiro protótipo do MVP: Neural Chat MVP • Go + Python + gRPC + Cohere.

Comecei o desenvolvimento precisamente em 03/05/2026 e desde então a ideia do projeto era muito clara: construir uma arquitetura moderna para aplicações de IA em tempo real, separando corretamente cada responsabilidade do sistema.

A motivação principal nasceu da vontade de unir duas tecnologias que sempre admirei por motivos completamente diferentes: Go pela performance absurda e concorrência nativa, e Python pelo ecossistema gigantesco voltado para inteligência artificial.

Foi aí que surgiu a ideia do Neural Chat: um sistema distribuído onde o Go atuaria como gateway realtime e o Python concentraria toda a inteligência conversacional.

O objetivo nunca foi apenas consumir uma API de IA e devolver respostas. A proposta era construir uma base sólida, preparada para crescer futuramente com autenticação, RAG, agentes, ferramentas externas e múltiplos usuários simultâneos.

Desenvolvimento

A primeira grande decisão técnica foi separar completamente o sistema em serviços independentes. Eu não queria um backend monolítico centralizando WebSocket, persistência e IA ao mesmo tempo.

O frontend ficou responsável pela experiência realtime do usuário, utilizando WebSocket bidirecional para streaming contínuo das respostas da IA. Além disso, implementei persistência automática da sessão usando UUID salvo diretamente no navegador, permitindo continuidade da conversa mesmo após atualizar a página.

O backend em Go foi construído como um gateway extremamente leve e performático. Sua única responsabilidade é orquestrar o fluxo entre frontend e microserviço Python utilizando gRPC streaming.

Uma das partes mais interessantes do projeto foi justamente implementar o streaming token-by-token entre todos os serviços. Em vez de esperar a IA concluir toda a resposta, o sistema transmite cada token em tempo real até o frontend, criando uma experiência muito mais natural e fluida.

No microserviço Python concentrei toda a inteligência do sistema: integração com a Cohere, gerenciamento da memória conversacional, recuperação do histórico e construção do contexto enviado ao modelo.

A memória conversacional foi um dos pontos que mais quis desenvolver corretamente desde o início. Cada mensagem enviada pelo usuário é persistida em SQLite juntamente com as respostas da IA. Sempre que uma nova interação acontece, o histórico completo é recuperado para manter continuidade conversacional.

Para manter a organização do projeto, também estruturei o microserviço Python em camadas separadas utilizando database layer, models, repositories e services, garantindo separação clara entre persistência e regras de negócio.

Outro ponto importante foi preparar a arquitetura para futuras evoluções. Mesmo sendo um MVP, o sistema já possui base estrutural para múltiplos usuários simultâneos, PostgreSQL, observabilidade, rate limiting, RAG, embeddings, function calling e integração com ferramentas externas.

Principais pontos de engenharia do projeto:

Arquitetura Distribuída: Separação completa entre frontend, gateway realtime em Go e microserviço de IA em Python.
Streaming Realtime: Implementação token-by-token utilizando WebSocket + gRPC streaming.
Memória Conversacional: Persistência de histórico completo por sessão utilizando SQLite.
Performance: Backend Go atuando exclusivamente como gateway leve e concorrente.
Desacoplamento: Comunicação entre serviços utilizando contratos protobuf via gRPC.
Escalabilidade: Estrutura preparada para futuras implementações como RAG, embeddings e agentes.

Resultado

O resultado foi uma arquitetura distribuída funcional operando com streaming realtime, memória persistente, sessões conversacionais contínuas e comunicação desacoplada entre serviços.

Mais do que apenas um chat funcional, o Neural Chat já representa uma fundação sólida para evolução de um produto de IA mais avançado, preparado para crescer sem necessidade de reescrever sua estrutura principal.

← Voltar para todos os projetos