Vaga de emprego de Bolsista Mestre ( Cientista De Dados – NLP E Sistemas De Busca Semântica) ICT ITAÚ em Todo Brasil

Projeto de inovação da ICT ITAÚ em parceria Inova Talentos . Pré-Requisitos: Perfil do bolsista: mestrado Formação: mestrado cursando ou concluído. Cursos: Ciência da Computação, Engenharia de Computação/Software, Sistemas de Informação, Estatística, Matemática Aplicada, Engenharia Elétrica, Ciência de Dados ou áreas correlatas das Ciências Exatas e Engenharias. Atividades: 1. Pré-processamento e enriquecimento de textos Limpeza, tokenização, lematização e remoção de ruídos em documentos textuais. Extração de características (features) relevantes para modelos de NLP. 2. Geração e gestão de embeddings Criar embeddings de documentos e consultas usando modelos como Sentence-BERT, OpenAI ada ou similares. Armazenar e indexar embeddings em bancos vetoriais (FAISS, ChromaDB, Qdrant ou Pinecone). 3. Construção de pipelines de busca semântica, recuperação de informação e aplicações com RAG Desenvolver pipelines que combinam: consulta ? embedding ? busca vetorial ? re-ranking (opcional) ? uso do contexto recuperado em aplicações com RAG. Avaliar a qualidade da recuperação e das respostas geradas em cenários de NLP e RAG, utilizando métricas como recall@k e MRR. 4. Adaptação e experimentação com modelos em PyTorch ou TensorFlow Utilizar modelos pré-treinados e adaptá-los para tarefas específicas, como classificação, similaridade e extração de informação, com ajustes simples quando necessário. Experimentar com diferentes arquiteturas (transformers, redes neurais simples). 5. Documentação e versionamento Documentar pipelines, decisões técnicas e resultados de experimentos. Utilizar Git para controle de versão do código. Conhecimentos necessários • Programação em Python com domínio de tipagem, manipulação de dados (pandas/polars) e uso de ambientes virtuais. • Experiência prática com NLP incluindo: tokenização, stemming/lematização, remoção de stopwords, vetorização (TF IDF, word2vec ou embeddings). • Conhecimento aplicado de embeddings, busca semântica e técnicas de RAG (ex.: Sentence BERT, modelos de embeddings atuais ou similares), além de familiaridade com bancos vetoriais (ex.: FAISS, ChromaDB, Pinecone, Qdrant). • Experiência com pelo menos um framework de deep learning (PyTorch ou TensorFlow) – suficiente para carregar modelos pré treinados e fine tuning simples. • Noção de pipelines analíticos e experimentação em ciência de dados aplicada a NLP (ex.: extração ? pré processamento ? embedding ? busca/classificação ? geração com contexto) e versionamento com Git. Requisitos desejáveis (diferenciais) • Experiência com modelos gerativos (LLMs), engenharia de prompts e avaliação de respostas será um diferencial importante. • Conhecimento de bancos relacionais (PostgreSQL) e NoSQL (MongoDB, Redis). • Vivência em projetos reais (acadêmicos ou profissionais) com documentação e testes. Informações adicionais: Disponibilidade: 40h semanais Duração: 12 meses Bolsa Auxílio: R$ 9.000,00 Atuação: Remota Conheça o INOVA TALENTOS https://vimeo.com/676464243/165a0bf5f5 https://vimeo.com/fabrikafilmes/review/680121344/b5b3c6e91d

Número de vagas: 1

Tipo de contrato e Jornada: Outros - Período Integral

Área Profissional: Trainee em Informática, TI, Telecomunicações - Análise de Sistema

Exigências

Escolaridade Mínima: Pós-graduação - Mestrado