Uma das verdades mais ignoradas por quem está começando com análise de dados é que pelo menos metade do tempo de qualquer análise real é gasto limpando e preparando os dados antes de começar a analisar de verdade. Dados chegam de sistemas com formatos inconsistentes, com erros de digitação, com colunas que misturam informações diferentes e com valores em branco nos piores lugares possíveis. Se você tentar analisar dados sujos, os resultados serão incorretos — e resultados incorretos levam a decisões incorretas, que é pior do que não ter dado nenhum. Neste artigo iremos mostrar como limpar e preparar dados no Excel antes da análise, com as ferramentas e fórmulas que resolvem os problemas mais comuns.
Os problemas mais comuns nos dados que comprometem a análise
O primeiro problema e o mais traiçoeiro é o espaço em branco invisível. Textos que parecem idênticos mas têm um espaço extra no começo ou no final são tratados pelo Excel como textos completamente diferentes. “São Paulo” e “São Paulo ” (com espaço depois) são coisas diferentes para o SOMASES, para o PROCV e para a tabela dinâmica. O resultado é que você filtra por “São Paulo” e metade dos registros da cidade não aparece, porque estão registrados com espaço extra. Você não vê o espaço olhando para a célula, mas ele está lá causando problemas.
O segundo problema é a inconsistência de formato dentro da mesma coluna. Uma coluna de datas que tem algumas células como 01/03/2025, outras como 1-3-2025, outras como Março/2025 e outras como texto “primeiro de março” não pode ser filtrada, ordenada ou usada em fórmulas de data corretamente. Uma coluna de valores que tem alguns números formatados como texto (aparecem alinhados à esquerda em vez de à direita) vai ser ignorada pelo SOMA e pelo SOMASES, gerando totais incorretos. Uma coluna de categorias que registra a mesma coisa de formas diferentes — “São Paulo”, “SP”, “S. Paulo”, “sao paulo” — vai fragmentar os dados em múltiplas categorias quando deveria ser uma só.
O terceiro problema são os valores duplicados. Quando a mesma linha de dados é inserida duas vezes (por erro de importação do sistema, por dupla digitação manual ou por consolidação de arquivos diferentes), cada análise conta aquele registro duas vezes, inflando artificialmente os totais. Uma tabela de clientes com o mesmo cliente cadastrado com ligeiras variações no nome — “João da Silva” e “João Silva” — vai contá-los como dois clientes diferentes, distorcendo as análises de base de clientes e de faturamento por cliente.
Limpando textos com ARRUMAR, MAIÚSCULA e SUBSTITUIR
A função ARRUMAR é a solução para o problema de espaços extras. Ela remove os espaços do início e do final do texto e reduz múltiplos espaços entre palavras para um único espaço. Para usar, crie uma coluna auxiliar ao lado da coluna com problema e aplique: =ARRUMAR(A2). O resultado é o texto limpo sem espaços extras. Depois, copie os resultados da coluna auxiliar, cole como valores sobre a coluna original (Ctrl+Shift+V > Valores) e delete a coluna auxiliar. Agora os textos estão limpos e as análises vão encontrar as correspondências corretas.
Para padronizar a capitalização de textos inconsistentes, use as funções de texto do Excel. MAIÚSCULA(texto) converte tudo para maiúsculas. MINÚSCULA(texto) converte tudo para minúsculas. PRI.MAIÚSCULA(texto) converte a primeira letra de cada palavra para maiúscula e as demais para minúsculas. Para uma coluna de nomes de cidades onde algumas estão em maiúsculas e outras em minúsculas, aplicar PRI.MAIÚSCULA garante que todas fiquem no mesmo formato. Depois de aplicar em uma coluna auxiliar, siga o mesmo processo de colar como valores e deletar a coluna auxiliar.
A função SUBSTITUIR resolve inconsistências específicas de texto. Por exemplo, se parte dos dados usa “SP” e outra parte usa “São Paulo” para a mesma cidade, use SUBSTITUIR para padronizar: =SUBSTITUIR(A2; “SP”; “São Paulo”). Para substituições em massa sem fórmula, use o Localizar e Substituir do Excel (Ctrl+H), que é mais rápido quando a substituição é simples e direta. O Ctrl+H tem a opção de fazer diferenciação entre maiúsculas e minúsculas e de coincidir com o conteúdo da célula inteira, evitando substituições acidentais de partes de outras palavras.
Convertendo números e datas armazenados como texto
Números armazenados como texto são um dos problemas mais comuns ao importar dados de sistemas para o Excel. Você reconhece esse problema pelo alinhamento à esquerda (números reais ficam à direita por padrão) e pelo pequeno triângulo verde no canto superior esquerdo das células. A função SOMA ignora esses “números texto” e retorna zero ou um total menor do que o esperado, o que é extremamente perigoso em análises financeiras.
Para converter números armazenados como texto em números reais, a solução mais simples é selecionar as células afetadas, clicar no ícone de alerta que aparece (o triângulo verde) e escolher “Converter em Número”. Para conversão em fórmula, use a função VALOR: =VALOR(A2) converte o texto “1500” no número 1500. Para converter toda uma coluna de uma vez sem fórmula, selecione a coluna, vá em Dados > Texto para Colunas, clique em Concluir diretamente (sem alterar nada) — esse atalho força o Excel a reanalisar os valores da coluna e converter automaticamente os que parecem números.
Datas armazenadas como texto são o problema análogo para campos de data. Uma data como “01/03/2025” pode estar armazenada como texto se o sistema de origem exportou assim. A função DATEVAL converte esse texto em uma data real: =DATEVAL(“01/03/2025”) ou =DATEVAL(A2). Mas atenção: o DATEVAL interpreta o formato de data de acordo com as configurações regionais do Excel. No Brasil, o formato padrão é DD/MM/AAAA. Se os dados vieram de um sistema americano no formato MM/DD/AAAA, você precisa reorganizar as partes da data com EXT.TEXTO e DATA antes de converter, para evitar que meses e dias sejam trocados.
Identificando e removendo duplicatas
O Excel tem um recurso específico para eliminar linhas duplicadas: Dados > Remover Duplicatas. Ao clicar, você seleciona quais colunas devem ser consideradas para determinar se uma linha é duplicada. Se marcar todas as colunas, o Excel remove apenas as linhas que são identicamente iguais em todos os campos. Se marcar apenas a coluna de CPF ou de ID do cliente, o Excel remove todas as linhas com o mesmo CPF/ID, mantendo apenas a primeira ocorrência.
Antes de remover as duplicatas diretamente, é uma boa prática identificá-las primeiro para entender por que existem e se todas devem ser removidas ou apenas algumas. Para identificar duplicatas sem removê-las, use formatação condicional: selecione a coluna que deveria ter valores únicos (como CPF ou código do produto), vá em Página Inicial > Formatação Condicional > Realçar Regras das Células > Valores Duplicados. As células duplicadas ficam destacadas em vermelho, permitindo que você as examine antes de decidir o que fazer com elas.
A função CONT.SE também ajuda a identificar duplicatas: =CONT.SE($A$2:$A$1000; A2) conta quantas vezes o valor de A2 aparece no intervalo A2:A1000. Se retornar 1, é único. Se retornar 2 ou mais, está duplicado. Aplicando essa fórmula em uma coluna auxiliar e filtrando pelas linhas onde o resultado é maior que 1, você vê todas as duplicatas agrupadas para análise antes de removê-las. Esse cuidado extra evita a remoção acidental de registros legítimos que coincidem em alguns campos mas são diferentes em outros.
Usando o Power Query para automatizar a limpeza de dados
Quando a limpeza de dados precisa ser repetida regularmente — por exemplo, toda semana você recebe um arquivo exportado do sistema e precisa fazer os mesmos ajustes antes de analisar —, o Power Query é a ferramenta que transforma esse processo manual em uma automação de um clique. O Power Query é um editor visual de transformação de dados integrado ao Excel que registra cada passo da limpeza e os reproduz automaticamente quando você clica em Atualizar.
Para acessar o Power Query, vá em Dados > Obter Dados > De Arquivo (se o dado vem de um arquivo) ou De Outras Fontes (para bancos de dados, web etc.). O editor do Power Query abre com uma prévia dos dados e um painel de passos aplicados do lado direito. Cada transformação que você faz — remover espaços, corrigir capitalização, converter tipos de dados, filtrar linhas — é registrada como um passo. Na próxima vez que o arquivo de dados for atualizado, clique em Atualizar Tudo e o Power Query aplica todos os passos automaticamente ao novo arquivo, entregando os dados já limpos e prontos para análise sem nenhum trabalho manual.
Para leigos que fazem análise de dados com Excel de forma recorrente, aprender o básico do Power Query é um dos investimentos de tempo com maior retorno. As primeiras horas de aprendizado são facilmente recuperadas já na primeira ou segunda semana de uso, quando o processo de limpeza que levava horas passa a levar segundos. É exatamente o tipo de automação que transforma analistas de dados de profissionais que passam o tempo limpando planilhas para profissionais que passam o tempo interpretando os resultados e gerando valor real para a organização.
Se você curtiu esse artigo onde mostramos como limpar e preparar dados no Excel para análise de dados para leigos, compartilhe com as suas redes sociais e não se esqueça de deixar um comentário aqui embaixo caso você tenha ficado com alguma dúvida.