O SQL Server 2008 trás uma nova tarefa no Control Flow para analisar os dados durante a carga. O Data Profile pode fazer até 8 análises nos dados gerando um relatório em XML, que pode ser visualizado em um novo aplicativo chamado Data Profile Viewer.
As 8 análises disponibilizadas pelo Data Profile podem ser divididas em dois grupos: analise do relacionamento entre colunas e analise individua de colunas.
Análise do relacionamento entre colunas:
Candidate Key – analisa se uma ou mais colunas podem ser utilizadas como chave, ou analisa se existem valores duplicados onde se espera unicidade.
Functional Dependency – analisa a dependência funcional entre colunas, por exemplo ocorrência de cidades em estados.
Value Inclusion – verifica relacionamento tipo Foreign Key entra colunas de tabelas diferentes, exemplo de ocorrência de código de cliente nas tabelas de vendas e cliente.
Análise individual das colunas:
Column Length Distribution – relação dos tamanhos distintos de string em uma coluna e o percentual de linhas de cada tamanho. Útil para identificar possíveis erros nos dados.
Column Null Ratio – retorna o percentual de ocorrências de NULL em uma coluna.
Column Pattern – retorna um conjunto de expressões regulares identificadas e o percentual de linhas de cada ocorrência.
Column Statistics – só aplicável a colunas numéricas, mostra: Min, Max, Média e Desvio Padrão.
Column Value Distribution – retorna todos os valores distintos de uma coluna e o percentual de linhas de cada ocorrência.
Tipos de dados indicados:
Você poderá combinar várias análises em uma única tarefa Data Profile, veja na imagem abaixo:
O arquivo XML gerado após a análise poderá ser visualizado com o utilitário Data Profile Viewer localizado no grupo de programas do SQL Server 2008 no submenu Integration Services. O exemplo abaixo mostra uma análise de distribuição de valores (Column Value Distribution Profile):
Até o próximo Post,
Landry.
Nenhum comentário:
Postar um comentário