UFJF - Universidade Federal de Juiz de Fora

Manipulando Dados

Você está em: Material de apoio > Manipulando Dados

A escolha de um software para análise de dados

Antes de começar a analisar dados é preciso saber qual software utilizar, esta matéria tenta facilitar a escolha de um software para análise estatística de micro dados.

Quase toda pesquisa séria em análise estatística produzida hoje utiliza um dos seguintes softwares R (S-PLUS), Matlab/Octave, SAS, SPSS ou Stata. Poderíamos facilmente incluir a Python, Perl, Julia ou outra linguagem de programação na lista (C/C++, Java, Fortran, …), mas estas apresentam uma dificuldade maior para quem não é programador de formação, e também boa parte dos pacotes estatísticos mais avançados ainda estão em desenvolvimento nestas linguagens. Além disso, softwares como o R são capazes de ler estas linguagens, como o pacote rPython em que é possível usar comandos Python dentro do R.

Como o objetivo desta matéria é limitar sua opções para melhor escolha vamos nos concentrar nos já conceituados pacotes R (S-PLUS), Matlab/Octave, SAS, SPSS ou Stata. Dentro da econometria, qualquer um deste softwares é igualmente capaz de atuar, mas quando o assunto é microdados, uma plataforma leve e rápida é fundamental, por isso desconsideramos o uso de SPSS e do Matlab, estes dois softwares são muito completos mas são relativamente lentos e instáveis com grandes bancos de dados se comparados aos demais. O SPSS em especial é muito limitado em ferramentas estatísticas avançadas, e por mais que seja simples de ser usado, é o que menos oferece opções ao usuário. O Matlab por outro lado é muito completo, supera de longe os demais softwares, perdendo talvez apenas para o R, tem uma linguagem relativamente simples e de fácil aprendizagem, mas sua construção o coloca como um software lento e pesado, muito instável no uso de grandes bancos de dados.

Ficaram três softwares, R, SAS e Stata, cujas características e funcionalidades são relativamente semelhantes, são estáveis com grandes bases de dados, apresentam um conjunto de bibliotecas oficiais e não oficiais diversificadas. O Institute for Digital Research and Education (IDRE-UCLA) mantém módulos completos e gratuitos de aprendizado em manipulação dos principais softwares em manipulação de dados pelos links R, SAS e STATA ou no endereço http://www.ats.ucla.edu/stat/. Primeiro porque estes três? quando se fala em biblioteca em econometria e estatística estes softwares são os mais completos, eficazes e robustos, não há muitos softwares que possam ser inclusos nesta lista, mas se deseja mais opções o link compara a maioria dos softwares em estatísticas conhecidos. O quadro abaixo mostra a diversidade de bibliotecas em analise estatística comuns entre estes softwares.

 

 

Quadro de Características Comuns entre os Softwares

Plataformas

Windows

ANOVA métodos

One-way

Mac OS

Two-way

Linux

MA-1VA

Unix

GLM

Series de tempo

ARIMA

Mixed model

GARCH

Post-hoc

Unit root test

Latin squares

Cointegration test

Regressões

OLS

VAR

WLS

Multivariate GARCH

2SLS

Gráficos

Bar chart

NLLS

Box plot

Logistic

Correlogram

GLM

Histogram

LAD

Line chart

Stepwise

Scatterplot

Quantile

Outras opções

Descriptive statistics Base

Probit

Descriptive statistics Normality

Cox

Nonparametric statistics

Poisson

comparison, ANOVA

MLR

Quality control

 Ridge

Survival analysis

 Robust

Cluster

 Instrumental

Discriminant

 Simultaneous

Base Data Processing

Testes

 Nonparametric Tests

data sampling, transformation

 T-test

 Monte Carlo, Classic Methods

Outras opções

 Canonical Correlation Analysis

 Bootstrap & Jackknife

 Path Analysis

 Missing Data Imputation

 Structural Equation Modeling

 Outlier Diagnostics

 Stochastic Volatility Models

 Longitudinal (Panel) Data

 Splines

 Reliability Theory

 Deterministic Optimization

 Nonparametric Smoothing Methods

 Nearest Neighbor

 ROC Curves

 Markov Chain Monte Carlo

 Stochastic Optimization

 Classification & Regression Trees

 

Apesar das semelhanças, existem muitas características relativamente marcantes que podem afetar o usuário, nos quadros abaixo são listadas algumas destas e depois são apresentados links para acesso e aprendizado destes softwares, com uma melhor descrição destes. Particularmente, o ECONS adotou o Stata como software principal, por isso partimos da comparação dele com os demais softwares.

 

Características particulares

Características

Software

Stata

R

SAS

Desenvolvimento

Desenvolvedor

StataCorp

R Foundation

SAS Institute

Última Versão

Abril 7, 2015

Março 9, 2015

Julho, 2013

Licença

Comercial

Código Aberto (GNU GPL)

Comercial

Interface

Menus e Sintaxe

Sintaxe

Sintaxe

Código Aberto

Não

Sim

Não

Linguagens de leitura

ado, mata

R language, Python (by RPy), Perl (by Statistics::R module)

SAS language

Instrução

S

St

S

Escrito em

C

C, Fortran, R

C

Para o Usuário

Dificuldade de Aprendizagem

Baixa

Média/Alta

Alta

Custo de Aquisição

Médio

Gratuito

Alto

Suporte ao usuário

Sim

Sim (comunidade de usuários)

sim

Gráficos

Bons

Excelentes

Muito bons

Manipulação de dados

Muito Bom

Excelente

Excelente

Pacotes estatísticos

Diversificado

Muito diversificado

Muito diversificado

 

Limitações em Pacotes

Pacotes

Stata

R

SAS

 Boosting Classification & Regression Trees

Limitado

 Sim

 Limitado

 Random Forests

Limitado

 Sim

 Limitado

 Copula Models

Limitado

 Sim

 Limitado

 Propensity Score Matching

Limitado

 Sim

 Limitado

 Filtering

Limitado

 Sim

 Limitado

 Stochastic Volatility Models, Continuous Case

Limitado

 Sim

 Limitado

 EM Algorithm

 

 Sim

 Sim

 Cross-Validation

 

 Sim

 Sim

 Counting Processes

 

 Sim

 Sim

 Neural Networks

 

 Sim

 Sim

 Support Vector Machines

 

 Sim

 Sim

 Wavelet Analysis

 

 Sim

 Sim

 Bagging

 

 Sim

 Sim

 BaSimian Statistics

 

 Sim

 Limitado

 Experimental Design

 

 Sim

 Limitado

 Naive BaSim

 

 Sim

 

 Extreme Value Theory

 

 Sim

 

 Variance Stabilization

 

 Sim

 

 Diffusions

 

 Sim

 

 Hidden Markov Models

 

 Sim

 

 Signal Processing

 

 Sim

 

 Markov Chains

 

 Sim

 

 

O objetivo deste artigo não é definir qual programa usar, mas apresentar aos principais soluções que facilitem sua escolha. Acredito que todos os três softwares preencham muito bem pesquisas em analise econômico e estatística. Os links abaixo trazem mais informações e detalhamentos para facilitar sua escolha, além de apostilas e tutorias para cada software.

 

STATA

O Stata é um software privado, com licença onerosa, desenvolvido para pesquisas estatísticas em análise de grandes bancos de dados com uma grande diversidades de pacotes para micro dados, dados longitudinais, dados amostrais, Analise Survival e Séries de Tempo, com suporte para desenvolvimento e aplicação de ferramentas estatísticas avançadas, sendo junto com o R e o SAS um dos programas mais completos em análise de dados. O STATA é mundialmente conhecido por sua larga aplicabilidade em econometria e analise de microdados, sendo um dos preferidos entre economistas e bioestatísticos pela diversidade de opções e analises possíveis no software. O STATA é relativamente de fácil aprendizado se comparado a softwares da mesma . Atualmente o Stata é a principal ferramenta de gestão de dados utilizado pelo laboratório. Por isso o ECONS proporciona cursos à bolsistas de Treinamento Profissional e de Iniciação Científica com fim de tornar a ferramenta mas difundida entre os alunos.

STATA Training: A StataCorp LP mantém um curso completo em STATA desde os módulos básicos até programação avançada, com manuais e vídeos tutorias muitos deles com acesso gratuito para quem deseja avançar no aprendizado deste software. Para acessar clique no endereço http://www.stata.com/training/

Fontes e Links para treinamento STATA

http://www.stata.com/features/

http://www.stata.com/links/video-tutorials/

http://www.stata.com/netcourse/

http://www.stata.com/training/public/

http://www.stata.com/training/onsite-training/

http://www.ats.ucla.edu/stat/stata/

Apostila Stata mee    usp Stata apostila_2011   netofeitosa manual Stata    pgcsiamspe 2009 Apostila STATA    ECONOMETRIA_USANDO_STATA   Apostila_Microdados_Stata_FACE

 

R (programming)

O R é um software livre e gratuito desenvolvido para pesquisas e análises estatísticas em grandes bancos de dados com uma grande diversidades de pacotes (sendo de longe o mais completo software) que permite a utilização do software em diversas áreas do conhecimento estatístico e matemático. O software vai além dos paradigmas de acessar, manipular, analisar e apresentar dados permitindo construir simulações e programações matemáticas com múltiplas aplicações. O software tem hoje a maior comunidade de usuários acadêmicos e programadores voltados a análise estatística, o que permite uma forte solidez do software além de rapidez nas atualizações de novos pacotes. Adicionalmente boa parte das bases de dados do IBGE já vem com o dicionário em R para importação dos dados.

 Fontes e Links para treinamento R

Linguagem R – Universidade Johns Hopkins | Coursera

R: The R Project for Statistical Computing

Noções de Programação [Using R]

Statistical Computing

Introducing R

Linguagem de Programação R – Informática e Estatística – InfoEscola

 R (linguagem de programação)

Linguagem de Programação R – YouTube

Datacamp e blog Datacamp

R (linguagem de programação)  Wikipédia

R (linguagem de programação)/Introdução – Wikilivros

R (linguagem de programação)/Matemática – Wikilivros

 

SAS

O SAS é um software privado, com licença onerosa, desenvolvido para pesquisas estatísticas em análise de grandes bancos de dados, com suporte para desenvolvimento e aplicação de ferramentas estatísticas avançadas. O programa trabalha com quatro ações básicas e avançadas sobre os dados: acessar, manipular, analisar e apresentar. Possui uma ampla biblioteca de importação de dados que permite abrir bases de dados em diversos formatos. Adicionalmente no Brasil praticamente todos os centros de pesquisa que produzem microdados como o IBGE disponibilizam dicionários de importação dos dados para SAS.

A UFJF conta hoje com um projeto vinculado a disseminação do uso do Software pelos acadêmicos da universidade quem podem solicitar gratuitamente licença do software no endereço (http://www.ufjf.br/estatistica/eventos-e-projetos/projeto-sas). O projeto prevê a utilização do software por toda a comunidade acadêmica, após treinamento dos usuários, oferecido por tutores ligados ao Departamento de Estatística da UFJF.

 Fontes e Links para treinamento SAS

SAS Brasil

Projeto-SAS / UFJF

Apostila Unicamp SAS  Apostila UFSM SAS  Apostila USP aulas praticas SAS

SAS_o_essencial_da_linguagem

SASTechies – videos

http://statistics.ats.ucla.edu/stat/sas/notes/default.htm

http://support.sas.com/documentation/onlinedoc/91pdf/sasdoc_913/base_step_10071.pdf

http://www.fernandohrosa.com.br/br/P/aprenda-a-usar-o-sas/

SAS (software) – Wikipédia, a enciclopédia livre

 

Referências:

http://r4stats.com/articles/popularity/

http://www.analyticbridge.com/group/productreviews2/forum/topics/product-reviews-comparing-r-matlab-sas-stata-spss

http://www.princeton.edu/~otorres/RStata.pdf

http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

http://blog.datacamp.com/r-or-python-for-data-analysis/

http://blog.datacamp.com/statistical-language-wars-the-infograph/

http://brenocon.com/blog/2009/02/comparison-of-data-analysis-packages-r-matlab-scipy-excel-sas-spss-stata/

http://www.ats.ucla.edu/stat/mult_pkg/compare_packages.htm

http://stanfordphd.com/Statistical_Software.html

https://sites.google.com/a/nyu.edu/statistical-software-guide/summary