Data Science, ou ciência de dados em português, é um termo relativamente novo e que ainda gera confusão quando usamos. Muitas vezes ele é confundido com ferramentas, técnicas ou áreas específicas do trabalho. Sendo que, na verdade, ele é um conjunto de métodos e práticas que possibilita o trabalho com os dados.
É importante frisar que todos os setores de uma empresa precisam saber sobre os princípios de data science. Não os cálculos ou a programação por trás. Mas como esses conceitos podem ser úteis e que tipo de respostas eles podem trazer para melhorar resultados de um negócio. Esse pensamento analítico vai te auxiliar inclusive a saber o que não deve ser resolvido com dados. O que poupa muito tempo e esforço da equipe de data science.
Nesse artigo, vamos te explicar tudo o que você precisa saber sobre data science sem usar programação ou notações matemáticas.
Histórico
Desde a década de 90 do século passado, passamos por uma verdadeira revolução em relação à capacidade de criação e armazenamento de dados. Em poucos anos, passamos de um disquete, com capacidade para 1,4 megabytes de informação, para sistemas na nuvem com capacidade de 4500 terabytes (3,6 e+10 megabytes ).
A evolução dos sistemas de informação e dos dispositivos com conexão à internet contribuiu de maneira significativa para essa explosão na geração de dados. Estima-se que nos últimos dois anos foram gerados mais dados do que em toda história da humanidade até então.
Já pensou em quantos vídeos são assistidos, quantas planilhas criadas, mensagens postadas em redes sociais, e-mails enviados, fotos tiradas. Quantas buscas e compras são realizadas a cada minuto na internet?
Será que existe alguma maneira de utilizar tudo isso para gerar conhecimento?
O conceito de data science
Data Science é a maneira como as empresas geram conhecimento para seus negócios, fazendo ciência a partir dos dados. Daí sua estreita relação com a estatística, área do conhecimento cujos métodos permitem descrever, explorar, inferir e predizer a partir dos dados.
Com a popularização do termo data science, seu sentido foi se perdendo e se misturando ao de outras expressões muito usadas como: big data, inteligência artificial, aprendizado de máquina e mineração de dados, que vamos comentar mais a frente.
Data science é um termo que vem crescendo em volume de pesquisas no Google e é considerada a profissão do futuro por alguns especialistas. Mesmo assim, até as vagas de trabalho para cientistas de dados não chegam em um consenso sobre quais os requisitos e atribuições do cargo.
Os números representam o interesse de pesquisa relativo ao ponto mais alto no gráfico de uma determinada região em um dado período. Um valor de 100 é o pico de popularidade de um termo. Um valor de 50 significa que o termo teve metade da popularidade. Da mesma forma, uma pontuação de 0 significa que o termo teve menos de 1% da popularidade que o pico.
Existem definições mais técnicas e que falam também sobre áreas específicas dento da ciência como mineração de dados e negócios, um bom exemplo é essa aqui do livro Data Science para Negócios:
“Em um nível mais elevado, data science é um conjunto de princípios fundamentais que norteiam a extração de conhecimento a partir de dados. O objetivo primordial é o aprimoramento da tomada de decisão, uma vez que isso geralmente é de interesse direto para os negócios.”
(FAWCET e PROVOST, p. 34 e 38)
Concordamos com ela, mas adotamos outra mais curta e que melhor traduz o trabalho que realizamos aqui na Oper. “Data Science é o processo de transformar dados por meio da estatística em respostas para perguntas de negócios, gerando insights, decisões eficientes e produtos valiosos.”
O fluxo de trabalho na ciência de dados
Para extrair conhecimentos valiosos de uma análise de dados é importante lembrar que essa área é multidisciplinar. Resultado da interseção de estatística, ciência da computação e conhecimento de negócio. Uma parte, sem as outras, não consegue entregar todo o valor de uma análise de dados. E nem usar os insights extraídos para mudar a realidade da empresa.
E assim como em outras ciências, a ciência de dados obedece a processos com etapas razoavelmente bem definidas. Esse esquema é bastante representativo das etapas de um projeto de data science.
Primeiro é preciso ter uma pergunta de negócios, que irá nortear todo o processo de organização e análise de dados. Depois de termos uma ideia de onde queremos chegar e quais os tipos de dados que temos disponíveis podemos importá-los e organizá-los.
Com uma base de dados organizada e relevante em mãos, entramos no ciclo analítico que transforma e visualiza os dados usando modelos estatísticos e matemáticos. Esse ciclo pode ser infinito e estar em constante mudança para monitorar dados e responder diferentes perguntas de negócios.
Por fim, é preciso apresentar esse projeto de maneira simples e acessível para todos na empresa. O foco aqui é sintetizar as informações através de gráficos e plataformas interativas para mostrar tendências e previsões que geram insights e melhoram a tomada de decisão. Ou seja, transformar todo esse trabalho em um produto de dados.
As áreas envolvidas em data science
Como dissemos, data science pode ser definido como a interseção entre ciência da computação, estatística e conhecimento de negócios. Cada área fica responsável por uma parte do trabalho e todas são igualmente importantes:
Negócios – Líderes e Gestores
É importante extrair as informações que são relevantes para o contexto em que aquela companhia está inserida. E só quem vai poder guiar essa decisão é alguém que entende profundamente do negócio.
A pessoa com conhecimento sobre o negócio, o gestor, deve entender os desafios que a empresa enfrenta e os fatores que podem impactar em seus resultados, conhecer bem o mercado em que está inserido, a legislação, as inovações na área e muito mais. Quanto mais capacitado é o gestor, mais dados são utilizados para investigar o que realmente importa.
Quando falamos do fluxo do trabalho de dados, mencionamos que ele começa com uma pergunta de negócios e é isso que motiva toda a análise. Mas o trabalho também termina com alguém especializado em negócios colocando as descobertas do cientista de dados em prática e gerando resultados. Sem isso, todas as análises, os gráficos e os relatórios não teriam motivo. O valor das análises está em oferecer as respostas que de fato irão guiar a tomada de decisão e gerar insights para melhores resultados.
Ciência da computação – Equipe de TI
Com a computação na nuvem, a tendência é que todas as informações de uma empresa fiquem armazenadas e disponíveis online. Por isso, o conhecimento na área é essencial para garantir a infraestrutura e disponibilizar os dados para análise com toda segurança. Eles precisam estar organizados e acessíveis para todos que precisam, além de serem confiáveis e estarem sempre atualizados.
Um engenheiro de dados é indispensável para compreender as necessidades do projeto e automatizar os processos de acesso aos dados. Eles são responsáveis pela matéria-prima para o trabalho de data science: os dados. Sem um bom trabalho de coleta, armazenamento, gerenciamento e disponibilização dos dados, não é possível avançar para as etapas do processo de análise. Se avançar, as mesmas poderão apresentar resultados enviesados.
Estatística – Equipe Analítica
Bons gestores e um bom time de tecnologia da informação ainda não são suficientes para trazer os resultados. Se o objetivo primordial da ciência de dados é o aprimoramento da tomada de decisão, ele só é possível devido à estatística. É por meio dela que são desenvolvidos modelos estatísticos e matemáticos que utilizam os dados para responder perguntas de negócios. Assim aumenta-se a confiabilidade na tomada de decisão levando a resultados melhores e mais previsíveis.
Com o volume de dados crescendo cada vez mais rápido, os diversos sistemas de informação disponíveis para as empresas e o mercado mais competitivo, a tomada de decisão guiada por dados é imprescindível. Não só como diferencial estratégico da empresa, mas como pré-requisito para ações mais rápidas e acertadas. A decisão orientada por dados pode evitar erros estratégicos e desperdício de recursos. Quando é acompanhada do feeling e da experiência dos gestores, leva a empresa para outro nível quando o assunto é transformação digital.
Porém, esse profissional essencial para o trabalho com dados está cada vez mais difícil de encontrar no mercado. Com o crescimento da área de ciência de dados, era esperado que o número de bacharéis em estatística crescesse também. Esse fenômeno é muito evidente em países como os EUA, em que o número de bacharéis formados em Estatística aumentou 592% em 10 anos. De 747 em 2009 para 4.428 em 2019, segundo a ASA (American Statistical Association). Já no Brasil, a quantidade de pessoas formadas na área continua a mesma há anos. O que está acarretando uma falta de profissionais qualificados num mercado que só tende a crescer.
Funcionamento dos times
Olhando para todas essas habilidades que compõe a ciência de dados, fica claro que um profissional só dificilmente poderia dominar bem todas essas capacidades. Por isso eles são chamados de profissionais unicórnio.
Como unicórnios não existem e, se existirem, são difíceis de contratar e caros para a empresa, surgiram os times multidisciplinares de data science. Assim, cada profissional consegue focar na sua área de maior experiência e trazer para o time o conhecimento necessário para construírem produtos de dados mais relevantes para o futuro da empresa.
Um time de data science pode ser formado por engenheiros de dados, desenvolvedores, estatísticos, analistas de dados, especialistas em visualização e em negócios. Os cargos podem variar, mas as habilidades necessárias serão sempre as mesmas: capacidade de pensamento analítico e estratégico com relação aos dados.
Em suma: os gestores têm perguntas estratégicas, a TI organiza e disponibiliza os dados e o estatístico conversa com eles e apresenta as respostas para os gestores tomarem boas decisões.
Os assuntos mais comentados em data science
Data science é confundido com muitas das técnicas e ferramentas que fazem parte do universo da área. E essa confusão pode acontecer porque esses assuntos acabam ficando mais famosos e comentados que a própria ciência de dados.
Machine learning
Machine learning, ou aprendizado de máquina, é uma das técnicas usadas em data science. Ele permite que computadores usem dados e algoritmos para tomarem decisões. Isso acontece porque os algoritmos reconhecem padrões e se valem disso para prever o que pode acontecer em seguida.
Quando dizemos que uma máquina usa algoritmos para “aprender” com os dados, queremos dizer que ela consegue melhorar seu desempenho de acordo com as informações recebidas. O algoritmo utiliza observações e soluções calculadas nos dados que recebeu para construir previsões com dados diferentes dos que já foram observados.
É importante deixar claro que os problemas resolvidos com machine learning precisam de previsões a partir dos dados. Então, problemas como escolher qual aluno teve a maior nota na turma ou qual o produto mais vendido em um mercado não são problemas de aprendizado de máquina. Eles podem ser resolvidos com operações simples dos dados. Agora, estimar a quantidade de determinado produto vendida nos próximos meses, aí sim, é um problema que poderia ser resolvido com algoritmos de machine learning.
Em termos gerais, o machine learning se concentra em melhorias de desempenho. Inclui áreas como robótica, visão computacional e inteligência artificial. Além disso, também se preocupa com atuação e cognição. Ou seja, como usar esse conhecimento extraído dos dados para tomar pequenas decisões.
Inteligência artificial
A inteligência artificial é um subcampo do machine learning e envolve várias tecnologias diferentes. Entre elas estão redes neurais artificiais e sistemas de aprendizado que simulam capacidades humanas como raciocínio, percepção e análise para tomada de decisão.
As IAs aprendem sozinhas por meio da análise de grandes conjuntos de dados. Eles são capazes de ampliar o conhecimento da máquina e servir de experiência. Assim como no machine learning, elas têm o objetivo de melhorar o conhecimento e desempenho de seus algoritmos ao longo do tempo. IAs operam respondendo às experiências que elas têm no mundo e reconhecendo padrões que não foram indicados de nenhuma maneira.
Ela está profundamente ligada ao reconhecimento de voz e de visão, aos sistemas de recomendação, à percepção de ambientes, à análise e tomada de decisão autônomas. Por isso a IA desempenha um papel enorme na tomada de pequenas decisões automáticas. E ajuda na escalabilidade de empresas que precisam de agilidade nos processos.
Big data
“Essencialmente, o termo big data significa conjuntos de dados que são grandes demais para os sistemas tradicionais de processamento. Portanto, exigem novas tecnologias para processá-los”. Essa é uma das definições mais aceitas sobre esse termo que já se popularizou muito.
Big data não é apenas um grande volume de dados. É uma quantidade tão grande de dados que precisa de um processamento diferente dos outros. A maioria das empresas faz a mineração de grandes volumes de dados e utiliza apenas uma fração deles para responder às perguntas de negócio.
É possível pensar no estado das tecnologias de big data fazendo uma analogia com a Web 1.0 e 2.0. Na Web 1.0 as empresas utilizavam pouca tenologia para estabelecer sua presença e melhorar a eficiência de poucas operações. No momento, é como se estivéssemos vivendo a era do big data 1.0. Salvo algumas exceções, como a Amazon ou a Google, as empresas estão preocupadas apenas em criar o ambiente necessário para processar esse volume de dados e melhorar a eficiência de alguns processos.
O que vem acontecendo é que a capacidade de processamento desse volume de dados é cada vez mais acessível. Vale sempre a reflexão: o que podemos fazer com big data agora que antes não era possível?
Business Intelligence
Outro assunto muito comentado quando se fala sobre data science é o business intelligence (BI). Apesar de trabalharem para um mesmo objetivo – gerar insights de negócios – os dois se diferem pelas abordagens, metodologias e tecnologias utilizadas para chegar nesse objetivo.
O profissional de BI cria produtos para apoiar as tomadas de decisão utilizando dados e análise exploratória. Elas mostram com clareza o que aconteceu com os dados, sem prever com modelos estatísticos as possibilidades para o futuro. Já a ciência de dados está mais interessada em usar os dados do passado e o método científico para criar hipóteses. Tenta prever os acontecimentos futuros com um certo grau de confiabilidade e se preparar eles.
Muitos problemas podem ser resolvidos com data science
O conhecimento oculto nos dados pode ajudar a resolver muitos problemas nas mais diversas áreas. Independente do ramo do negócio, os dados podem revelar uma realidade que muitas vezes passa despercebida pelos executivos.
A ciência de dados pode ser usada em literalmente todas as áreas da empresa que produzem dados. Desde atendimentos ao cliente até transações bancárias. Algumas áreas como marketing, RH e vendas geralmente são as que mais aproveitam o potencial dos dados analisando as informações que vem de redes sociais, campanhas publicitárias, pesquisas como NPS ou preço e volume de vendas. Ainda é possível medir os resultados comerciais e prever o ciclo de vendas de um produto.
É interessante notar também que o uso dos dados na tomada de decisão está ligado a melhora no desempenho e nos lucros de uma companhia.
Data science é um campo de infinitas possibilidades. Nesse artigo discutimos apenas algumas, as mais famosas, ou mais usadas no dia a dia. Quer acompanhar as novidades e saber mais sobre a área? Siga-nos nas redes sociais e fique de olho no blog da Oper.
Referências:
Fawcett, Tom; Provost, Foster. Data Science para Negócios. Alta Books. Edição do Kindle.
1 comentário em “O que é data science?”
Excelente