Voltar ao Portfolio
ProdutividadeFerramenta + IA Local2 meses

Transcritor CUDA

Ferramenta de transcrição de vídeo e áudio que roda localmente com Whisper acelerado por GPU (RTX 5070 via CUDA). Inclui diarização por falante, geração automática de atas de reunião via LLM e streaming de resultados em tempo real via Server-Sent Events. Toda a operação acontece on-premise, garantindo privacidade total dos dados.

10xmais rápido que CPU

O Desafio

APIs de transcrição em nuvem são caras para uso em alto volume e levantam preocupações de privacidade para reuniões sensíveis. A transcrição por CPU era lenta demais para ser prática no dia a dia.

A Solução

Desenvolvemos uma solução on-premise que utiliza o Whisper rodando em GPU local, com diarização por falante e geração automática de resumos e atas via LLM. Todos os dados permanecem na máquina local, eliminando custos de API e riscos de privacidade.

Resultados

10x

Velocidade

Transcrição 10 vezes mais rápida que processamento por CPU

Zero

Dependência de nuvem

Processamento inteiramente local, sem envio de dados para servidores externos

Tempo real

Streaming

Resultados transmitidos em tempo real via SSE durante o processamento

Funcionalidades Principais

  • Whisper acelerado por GPU (CUDA)
  • Diarização por falante
  • Geração automática de atas de reunião
  • Streaming em tempo real via SSE
  • Suporte a múltiplos formatos de áudio e vídeo
  • Arquitetura privacy-first — dados 100% locais

Stack Técnico

PythonFastAPIWhisperCUDAReact