ETL é um tipo de data integration realizado em três etapas (extração, transformação, carregamento) usado para combinar dados de diversas fontes.
Ele é comumente utilizado para construir um data warehouse. Nesse processo, os dados são retirados (extraídos) de um sistema-fonte, convertidos (transformados) em um formato que possa ser analisado, e armazenados (carregados) em um armazém ou outro sistema. Extração, carregamento, transformação (ELT) é uma abordagem alternativa, embora relacionada, projetada para jogar o processamento para o banco de dados, de modo a aprimorar a performance.
ETL no mundo de hoje
Os dados em fluxos velozes de hoje (streaming data) podem ser coletados e analisados em tempo real por meio de análises das transmissões. Essa abordagem apresenta a oportunidade de agir imediatamente, com base no que está acontecendo em um dado momento. Mas a visão histórica fornecida pelo ETL coloca os dados em um contexto. Por sua vez, as organizações obtêm um entendimento completo do negócio ao longo do tempo. Essas duas abordagens precisam trabalhar juntas.
Como o ETL é usado?
Ferramentas centrais de ETL e ELT trabalham em conjunto com outras ferramentas de data integration e com outros vários aspectos do gerenciamento de dados – como data quality, data governance, virtualização e metadados. As utilizações populares de hoje incluem:
ETL e usos tradicionais
ETL é um método comprovado com o qual muitas empresas contam todos os dias – como varejistas, que precisam olhar os dados de vendas regularmente, ou operadoras de saúde procurando por um quadro preciso de seu uso. O ETL pode combinar e exibir dados de transações de um data warehouse ou outro banco de dados, de modo que eles estejam sempre prontos para analistas de negócios os visualizarem em um formato compreensível. O ETL também é utilizado para migrar dados de sistemas arcaicos para sistemas modernos, com diferentes formatos possíveis. É frequentemente usado para consolidar dados de fusões de empresas e para coletar e unir dados de fornecedores ou parceiros externos.
ETL com big data – transformações e adaptadores
Vence quem conseguir o maior número de dados. Embora isso não seja, necessariamente, uma verdade, ter acesso fácil a um amplo escopo de dados pode dar às empresas uma vantagem competitiva. Hoje, elas precisam de acesso a todo tipo de big data – vídeos, mídias sociais, a Internet das Coisas (IoT), logs do servidor, dados espaciais, dados abertos ou de crowdsource e muito mais. Fornecedores de ETL frequentemente adicionam novas transformações às suas ferramentas para suportar essas requisições emergentes e novas fontes de dados. Adaptadores oferecem acesso a uma ampla variedade de fontes de dados, e as ferramentas de data integration interagem com esses adaptadores para extrair e carregar dados de modo eficaz.
ETL para hadoop – e mais
O ETL evoluiu para oferecer suporte à integração entre muito mais que data warehouses tradicionais. Ferramentas avançadas de ETL podem carregar e converter dados estruturados e não-estruturados no Hadoop. Essas ferramentas leem e escrevem múltiplos arquivos em paralelo de, e para, Hadoop, simplificando como informações são fundidas em um processo de transformação comum. Algumas soluções incorporam bibliotecas de transformações ETL pré-construídas para os dados de transação e interação que são executados em Hadoop. ETL também oferece suporte à integração entre sistemas transacionais, bancos de dados operacionais, plataformas de BI, centralizadores master data management (MDM) e a nuvem.
ETL e acesso aos dados self-service
Data preparation self-service é uma tendência de rápido crescimento que coloca o poder de acesso, mistura e transformação de dados nas mãos dos usuários organizacionais e outros profissionais não-técnicos. Sendo específico em sua natureza, essa abordagem aumenta a agilidade organizacional e libera a TI de abastecer usuários com diferentes formatos de dados. Menos tempo é desperdiçado na preparação de dados e mais tempo é gasto na geração de insights. Consequentemente, tanto profissionais de TI ou de outros ramos da organização podem melhorar sua produtividade e as empresas podem escalonar seu uso de dados para tomarem decisões melhores.
ETL e data quality
O ETL e outras ferramentas de data integration – utilizadas pra limpar, perfilar e auditar dados – garantem que os dados sejam confiáveis. As ferramentas ETL integram-se às de data quality, e fornecedores de ETL incorporam ferramentas relacionadas em suas soluções, como aquelas utilizadas para mapeamento e linhagem de dados.
ETL e metadados
Metadados nos auxiliam a entender a linhagem dos dados (de onde eles vieram) e seu impacto em outros ativos de dados na organização. Conforme arquiteturas de dados se tornam mais complexas, é importante rastrear como os diferentes elementos de dados na sua organização são utilizados e relacionados. Por exemplo, se você adiciona o nome de uma conta do Twitter à sua base de dados de clientes, você vai precisar saber o que será afetado, como, por exemplo, tarefas, aplicações ou relatórios ETL.
Algumas soluções de ETL que a ETZ trabalha:
- Microsoft Integration Service
- SAP Data Service
- SAS Data Management