Log Transformation In Stata Forex


Stata: análise de dados e software estatístico Allen McDowell, StataCorp Nicholas J. Cox, Universidade de Durham, Reino Unido Uma solução tradicional para este problema é realizar uma transformação de logit nos dados. Suponha que sua variável dependente seja chamada y e suas variáveis ​​independentes sejam chamadas de X. Então, assume-se que o modelo que descreve y é. Se um então executa a transformação do logit, o resultado é que agora mapeamos a variável original, que foi delimitada por 0 e 1, para a linha real. Pode-se agora ajustar este modelo usando OLS ou WLS, por exemplo, usando regressão. Claro, não é possível realizar a transformação em observações onde a variável dependente é zero ou uma, o resultado será um valor faltante, e essa observação seria subsequentemente retirada da amostra de estimação. Uma alternativa melhor é estimar o uso de glm com a família (binômio). Link (logit). E robusto, este é o método proposto por Papke e Wooldridge (1996). No momento em que este artigo foi publicado, o comando Statarsquos Glm não poderia caber em tais modelos, e esse fato é notado no artigo. O glm foi desde então aprimorado especificamente para lidar com dados de resposta fracionada. Em ambos os casos, pode haver uma questão substantiva de interpretação. Concentremo-nos em interpretar zeros: o mesmo tipo de problema pode surgir para aqueles. Suponha que a variável y seja proporção dos dias em que os trabalhadores ficam doentes. Existem duas possibilidades extremas. O primeiro extremo é que todos os zeros observados estão efetivamente a zeros de amostragem: cada trabalhador tem alguma probabilidade não nula de ficar doente, e é apenas que alguns trabalhadores não estavam, de fato, doentes em nosso período de amostragem. Aqui, muitas vezes queremos incluir os zeros observados em nossa análise e a rota glm é atraente. O segundo extremo é que alguns ou possivelmente todos os zeros observados devem ser considerados como zeros estruturais: esses trabalhadores nunca se reportarão doentes, devido à saúde robusta e à dedicação exemplar. Estes são extremos, e os casos intermediários também são comuns. Na prática, muitas vezes é útil olhar para a distribuição de freqüência: um pico marcado em zero ou um pode muito bem aumentar a dúvida sobre um único modelo instalado em todos os dados. Um segundo exemplo pode ser dados sobre as relações comerciais entre países. Suponha que a variável y é proporção de importações de um determinado país. Aqui, um zero pode ser estrutural se dois países nunca trocam, digam por motivos políticos ou culturais. Um modelo que se ajuste tanto aos zeros quanto aos não-aerossóis pode não ser aconselhável, de modo que um tipo diferente de modelo deve ser considerado. Para uma excelente discussão mais ampla, veja Baum (2008). Referências Baum, C. F. 2008. Proporções de modelagem. Stata Journal 8: 299ndash303. Papke, L. E. e J. Wooldridge. 1996. Métodos econométricos para variáveis ​​de resposta fracionada com uma aplicação para 401 (k) taxas de participação do plano. Journal of Applied Econometrics 11: 619ndash632.2.10 Transformando os dados A seção final neste capítulo trata das transformações de Box-Cox Para evitar problemas com valores negativos da variável de resposta, adicionamos 12 a todas as observações: o Stata possui um poderoso comando boxcox que pode Modelos adequados onde tanto a resposta como, opcionalmente (um subconjunto), os preditores são transformados. (As versões anteriores poderiam transformar apenas o resultado, mas, em troca, forneceram algumas opções adicionais, incluindo um gráfico que agora vamos fazer à mão.) A Transformação de Box-Cox Determinaremos a transformação ideal para análise do modelo de covariância da Seção 2.8 . Se você estiver executando isso em uma sessão diferente, você precisará redefinir a macro local com os preditores: Estamos interessados ​​em transformar o resultado ou o lado esquerdo. Vou especificar o modelo de opção (lhs) para tornar isso claro, embora seja o padrão e pode ser omitido. Também especificarei nolog para suprimir o registro de iteração: Stata sugere um poder de 0.6686, o que está de acordo com o que seria de esperar da Figura 2.8 nas anotações. Vou mostrar-lhe como fazer esta figura abaixo. Por enquanto, note que salvamos o log-verossimilhável maximizado, que estava disponível como e (ll). Em um escalar chamado maxlogL. (Para ver uma lista de todas as quantidades disponíveis para extração após uma lista de ereturn do tipo de comando de estimativa). O Stata também se adapta ao modelo usando a transformação ideal e mostra os coeficientes resultantes, mas não os erros padrão. Os últimos são suprimidos porque não explicam o fato de que estimar a própria transformação introduz incertezas adicionais. Para testar o significado de um coeficiente, você pode comparar os modelos com e sem a variável correspondente usando um teste de razão de verossimilhança. Note, no entanto, que deixar cair uma variável pode alterar a transformação que está sendo usada. Minha abordagem preferida é usar o procedimento Box-Cox como orientação geral sobre se uma transformação é necessária e, em caso afirmativo, qual valor na escada de poderes faria um bom trabalho. Tendo resolvido algo como tomar raízes quadradas, registros ou reciprocais, pode-se proceder de forma condicional à transformação escolhida. A Stata pode ajudar a implementar essa abordagem de duas maneiras. Primeiro, Stata mostra testes de taxa de verossimilhança para as hipóteses de que o parâmetro Box-Cox é -1, 0 e 1, que corresponde ao recíproco, ao log e a nenhuma transformação. A última possibilidade não pode ser rejeitada no nível convencional de cinco por cento, indicando que não há evidências de que precisamos transformar a resposta. O log e as transformações recíprocas são ambos rejeitados. Se alguém insistisse em transformar os dados, provavelmente seria melhor tirar raízes quadradas. Em segundo lugar, podemos traçar uma probabilidade de perfil mostrando o mérito relativo de várias transformações. Stata 6 costumava fazer um gráfico semelhante ao que precisamos como uma opção do comando boxcox, mas a opção não está disponível em versões posteriores. Isso nos proporciona a oportunidade de fazer um pequeno exercício de programação. (Podemos, é claro, digitar a versão 6 e ter o Stata comportado como fez naquela época. Uma desvantagem dessa abordagem é que não temos controle sobre o intervalo de transformações traçadas. Além disso, a versão 6 costumava omitir uma constante do log - Probabilidade, portanto, os valores relatados precisam ser ajustados para comparação com versões posteriores.) O Log-Likelihood do Perfil Acontece que podemos calcular a probabilidade de log Box-Cox para qualquer valor do parâmetro usando duas opções do comando boxcox Que lidam com o procedimento de maximização. Especificamos a transformação como um valor inicial com a opção de (valor. Cópia). E ajuste o número máximo de iterações para zero com iteração (0). Então, a Stata simplesmente calcula a probabilidade de logar, que podemos recuperar de e (ll). Um hack, realmente, mas tem que ter que programar sua própria função. Em seguida, escrevemos um loop curto para calcular a probabilidade de log para valores de expoente entre -1 e 2 em etapas de 0,5. Também criamos duas novas variáveis, p para armazenar os expoentes e logL para armazenar as probabilidades de logs. (Se quiser saber mais sobre macros e loops Stata, veja a parte 4 do meu Tutorial do Stata.) O gráfico que se segue usa um spline para juntar os pontos usando uma curva suave. Nós também desenhamos uma linha horizontal para identificar potências que não são significativamente diferentes das melhores. Isso ocorre quando o dobro da diferença em probabilidades de log é inferior a 3.84, o valor crítico 95 para um qui-quadrado com um d. f. Na escala de logL, isso faz a linha 3.842 unidades abaixo do ponto mais alto da curva. Teste de pontuação de Atkinsons Nosso cálculo final envolve o teste de pontuação de Atkinsons, que requer a adequação da variável auxiliar dada na Equação 2.31 nas notas. Calculamos a média geométrica, armazenamo-la em um escalar chamado gmean. Use isso para calcular a variável auxiliar atkinson. E, em seguida, ajuste o modelo estendido: o coeficiente da variável auxiliar é 0,59, de modo que a potência ideal é aproximadamente 1-0,59 0,41, sugerindo novamente que algo como uma transformação de raiz quadrada pode ser indicado. A t-estatística associada é significativa no nível de dois por cento, mas a estatística de teste de razão de verossimilhança mais precisa calculada anteriormente era apenas limítrofe. Assim, não temos evidências fortes contra a manutenção da resposta na escala original. Exercício 1: experimente o procedimento Box-Tidwell descrito na Seção 2.10.4 das notas para ver se uma transformação da configuração social seria indicada. Exercício 2: Executar boxcox para estimar transformações ótimas (e possivelmente diferentes) de mudança e configuração, mas obviamente não dos dois manequins que representam os níveis de esforço copiar 2017 Germaacuten Rodriacuteguez, Princeton University

Comments