EAWP - DOCUMENTOS DE TRABAJO EN ANÁLISIS ECONÓMICO

Volumen 3 Número 16: El Ajuste de la Ecuación de Regresión en Problemas Económicos: Mínimos Cuadráticos vs. Mínima Desviación Absoluta Media.

Sira M. Allende
Universidad de La Habana

Carlos N. Bouza
Universidad de La Habana

Luis C. Martínez
Universidade da Coruña

Bikal P. Singh
Bhat & Sarkar Informatic Consultors

Reference: Received 18th October 2004; Published 30rd December 2004.
ISSN 1579-1475

Este Working Paper se encuentra recogido en DOAJ - Directory of Open Access Journals http://www.doaj.org/

Resumen

Un estudio de la ineficiencia del ajuste mínimo cuadrático respecto al de de mínima suma de desviaciones absolutas es efectuado. Se analizan los comportamientos de estos criterios al trabajar con muestras censuradas o con el problema semi-lineal, con un proceso ARMA o con el problema multivariado. Cada análisis comparativo se completa utilizando un estudio numérico.

Abstract

The inefficiency of least squares with respect to the mean absolute deviation is studied. The behaviour of them are analyzed when we are working with censored samples, semi-linear problems, ARMA process or the multivariate problem. Comparative analysis complemented with a numerical study.

1.- Introdución

El uso de los mínimos cuadráticos (L2) como método de ajuste de la regresión es universalmente utilizado . Sin embargo este solo es adecuado cuando se cumplen las hipótesis del Teorema de Gauss Markov. En la práctica es aceptado su uso sin tomar en cuenta que es frecuentemente inaceptable la hipótesis de normalidad en los datos provenientes de datos financieros y de otras fuentes económicas. Mandelbrott (1963) ya señaló este hecho. Nosotros nos proponemos explorar esta problemática.

La existencia de colas pesadas hace que otras distribuciones sean mejores para modelar estos fenómenos. Tal es el caso de la distribuciones de Cauchy (Lorentziana) y Laplace (Doble exponencial) que son mejores modelos que el Gaussiano. En ellos el uso del criterio de minimizar la suma de las desviaciones absolutas (L1) aparece como más eficaz en estos casos en relación con el del los mínimos cuadráticos. En particular para el caso Laplaciano es óptimo.

En este trabajo presentamos un estudio del comportamiento del ajuste mínimo cuadrático (L2) respecto al del criterio L1.

En la sección 2 presentamos el problema distribucional discutiendo la problemática que presenta la no normalidad junto con otros aspectos asociados a las hipótesis adicionales del Teorema de Gauss Markov. La sección 3 se dedica a modelar la regresión como un problema de optimización. Esto permite dar un tratamiento unificado a los ajustes L2 y L1 al considerarles como problemas particulares de la Programación Matemática. En las dos secciones siguientes se analizan los efectos de trabajar con muestras censuradas o que el problema no sea sino semi-lineal, en al la esperada optimalidad del ajuste L2. La sección que le sigue aborda la discusión del comportamiento de los dos criterios de ajuste cuando los datos son descritos por un proceso ARMA. Finalmente la sección 8 trata del problema multivariado haciendo un estudio similar. En cada caso los análisis comparativos se completan utilizando datos provenientes de distintas fuentes económicas.

2.- El problema de la distribución

La teoría estadística descansa en hipótesis que caracterizan los datos a través de sus propiedades. Estos son clasificados como ´buenos´ o ´malos´. Queda a discreción del analista decir que tipo es los que posee. Si decide que son malos nuevamente debe decidir si usar un método óptimo del arsenal estadístico, a sabiendas de que no lo es, utilizar uno que funciona adecuadamente con datos ´malos´ o crear un método que sea ´bueno´ para sus datos.

Los datos buenos son caracterizados usualmente por tener una distribución normal. Una tendencia es mejorar los datos malos eliminando algunos de los que estropean la normalidad. Tal es el caso al eliminar observaciones extremas o censurar los datos para lograr que las colas de la distribución no sean pesadas. Si el analista utiliza la teoría plasmada en los libros solo tendrá el método de los mínimos cuadrado para hacer el ajuste de una regresión. Si obtiene información sobre otros criterios muchos de los paquetes no brindan módulos para obtener las soluciones a partir de ellos. Algunos, al poseer un lenguaje de programación asequible al usuario, dejan abierta la puerta a la creación de los necesarios nuevos algoritmos.

En los problemas económicos el análisis de los datos sugiere la existencia de colas pesadas con mucha frecuencia. En los datos provenientes del campo de las finanzas esto es mucho más que común, es casi una regla. Mandelbrott (1963) detectó en su trabajo publicado en el Journal of Business que los precios del algodón no eran ni con mucho aproximadamente normales a pesar de trabajar con una gran cantidad de datos. Este trabajo llama la atención sobre este asunto el que es un tema de mucha actualidad. Si sumamos a esto el hecho de que los momentos de segundo orden pueden no ser convergentes el uso del modelo normal puede llevar a conclusiones que distan mucho de la realidad.

Por ejemplo para el estudio de los riesgos extremos el Bank of International Settlement ha fijado reglas que se basan en la normalidad, todas las operaciones sé de sus clientes deben utilizarles con el consiguiente prejuicio de usar un método que no es adecuado para su problema. Recuerde que en los problemas de riesgos en mercados financieros la varianza juega un rol central. Tal es el caso cuando estudiamos activos en el mercado , buscamos el portafolio optimo y hacemos un análisis de ´option-pricing´. Esto es importante para el caso normal, pero cuando las colas son pesadas no tienen porque ser crucial el comportamiento del momento de segundo orden.

Muller et. al. (1998) usaron una base de datos de más de 50 millones de entradas provenientes del Foreign Exchange y del Interbank Money Market. En su estudio usaron las series USD/DM, USD/JY, GBP/USD, USD/CHF y USD/FRF colectadas en el periodo comprendido entre el 1-1-1987 y el 30-6-1996. Al hacer agrupaciones obtuvieron los resultados en la Tabla A.1

Tabla A.1. Comportamiento de la Deformación y la Kurtosis en el estudio de Muller et. al 1998

Como se ve estas series están muy lejos de ser aceptablemente modeladas por una normal. La serie USD/CHF para siete días fue la mas parecida a una normal al tener una deformación de 0,07 y una kurtosis de 3,9.

Por su parte Mittniks-Rachev-Paelella (1998) presentaron un estudio de tres largas series de tiempo consideradas como típicas para las finanzas.
ST1. El índice compuesto de AMEX
ST2. El índice AMEX-OIL.
ST3. La tasa de cambio DM/USD.

Las dos primeras series consistieron de los reportes del 1-1-19888 al 28-7-1994, 1810 entradas, y la tercera de los obtenidos en el periodo 2-1-1978, 28-7-1994, 5401 entradas. Los cómputos realizados llevaron a que las medidas de deformación fueran -0,89 , 0,14, y -0,32 y las de kurtosis 8,12, 6,64 y 13,63 respectivamente. Es claro que la normalidad tampoco es aceptable en este caso.

Ante estos resultados y otros muchos reportados en la literatura especializada el modelo normal comienza a no ser utilizado para el estudio de datos económicos. Este modelo ha sido sustituido por el de otros modelos probabilísticos como los -estables, que son los más populares , y las distribuciones de Gumbel, Frèchet, Weibull y la Generalizada de Pareto.

Una distribución de la clase0,2[ es el exponente característico el que determina el peso de la cola, es el parámetro de deformación, cuando es igual a cero la distribución es simétrica respecto a su moda, es el parámetro de escala y el de posición. Esta no tiene una forma explícita en general sino que se obtiene en forma aproximativa usando una transformada de Fourier. Se usa operativamente su función característica

Vea una completa discusión en el libro Stable non Gaussian Random Process de Smorodnitsky-Taqqu (1994). Cuando =2 tenemos una distribución normal y si =0 una Cauchy.

Al trabajar con extremos, como es el caso en problemas de seguros y de riesgo en general, las distribuciones que generalmente modelan el fenómeno son la Gumbel

describe el fenómeno. Esta permite trabajar problemas en que el máximo no es acotado, Ver Bassi-Embrechts-Kafetzaki (1998).

Menos popular, pero completando el listado de distribuciones alternativas para valores extremos, es la de Weibull

Se pueden utilizar estas si se garantiza la existencia de constantes, dependientes del tamaño de la muestra tales de para la sucesión de extremos

Una clase de distribuciones que está comenzando a ser utilizada frecuentemente es la Pareto Generalizada, Ver Embrechts et. al. (1997). La razón es que ella es tratable con relativa facilidad desde el punto de vista numérico y es una alternativa bastante similar a ciertas distribuciones .

3.- La regresión como un problema de optimización

Si miramos el problema de la regresión sin compromisos ideológicos lo que vemos es que se tiene un conjunto de variables X1,...,Xp, regresares, y una variable de respuesta Y ligadas por un modelo

Al observar una muestra de tamaño n podemos denotar el problema en forma matricial como
Y=XB+e
es una matriz de pxn cuyas filas se corresponden con los valores de los regresores para la observación correspondiente.
Se desea estimar los parámetros en forma tal que una cierta función de los residuos

sea mínima. El problema de la M-estimación , ver Huber (1970) es aquel en solo se exige que sea convexa con diferencial acotada.

Otras condiciones garantizan propiedades interesantes de esta clase de estimadores robustos. El problema de optimización a resolver en la regresión es:

Al tomar una como una norma fijando un criterio de distancia tenemos que el problema Mínimo Cuadrático es aquel en que usamos y resolvemos el problema de programación cuadrática:

Afortunadamente su solución tiene una forma explícita y solo miramos el problema numérico. Al usar otra norma tendremos otro tipo de problema de optimización. Su optimalidad es garantizada por una larga serie de hipótesis:

1. La relación entre Y y los regresores es un modelo lineal.
Esta hipótesis puede ser la base del análisis de los datos que poseemos.
2. E(e)=0
Esta es común cuando consideramos la multiplicidad de causas que generan los errores observados en los datos.
3. Var(e) contante.
Esto es poco común cuando nuestras observaciones son en el tiempo
4. Los errores son independientes.
Cuando tratamos con fenómenos de las finanzas esto es muy dudable.
5. Los errores son normales.
Como vimos esto es harto cuestionable en muchos problemas de la econometría
6. El tamaño de la muestra es mayor que el de las variables.
Esto es muy probable.
7. Ninguna variable de diseño es una combinación de las demás.
Este es otro punto cuestionable en diversos estudios econométricos.
8. Los errores son independientes de los regresores.
Nuevamente esta es una hipótesis muy fuerte en la practica.

Un análisis de estas hipótesis vuelven poco aceptable que el método de los MC sea optimo en muchas aplicaciones. La aceptación del Teorema de Gauss Markov es tentadora pero las consecuencias del uso de sus aseveraciones a pie juntillas es muy peligroso.

El uso de otra norma como plantea un problema de programación lineal :

que no posee una solución explícita. Este es llamado de Mínima Desviación Absoluta Media (MAD), Least Absolute Deviation. Es notable que este fue propuesto a finales del siglo 19 por Edgeworth para resolver problemas econométricos y le resolvía usando las poco eficaces herramientas de la época. Hoy este es un problema bien simple, gracias al desarrollo de la computación, y nos planteamos resolver el problema lineal:

donde son las desviaciones , por encima y por debajo, de la observación t. Este estimador esta recibiendo una gran atención por tener un comportamiento mejor que el MC. En particular si se satisface el conjunto de hipótesis:

1. Los errores se distribuyen idéntica e independientemente de acuerdo una distribución F.
Esta es similar a 4 y 5 pero no se especifica la distribución.
2. El estimador es único.
Esto depende de la naturaleza del problema.
3. lim es definida positiva y de rango p.
Esta se relaciona con la solubilidad del problema
4. F es continua y tiene densidad estrictamente positiva en el origen.
Lo que es necesario para acotar la varianza de la estimación
Bajo ellas podemos usar la aproximación normal para hacer inferencias.

Otras normas pueden ser utilizadas pero han recibido, por distintos motivos, poca atención. Cuando los residuos son el resultado de la adición de errores provenientes de muchas fuentes que pueden ser aceptadas como independientes y con la misma distribución estos pueden ser caracterizados por una distribución estable, Zolotarev (1983). Por ello McCulloch (1996) sugirió utilizar como su distribución funciones del tipo -estables en su contribución al Vol. 14 del Handbook of Statistics dedicado a los modelos para las finanzas.

4.- El caso censurado

Un problema tan sencillo como el ajustar la regresión simple donde ã es la demanda latente pero deseamos describir Y la demanda actual describe muchos estudios de mercado. X es una variable explicativa como los preciso, los salarios etc. Entonces nuestra variable de respuesta es

Tobin (1958) propuso en Econometrica resolver este problema y le enfoco desde el punto de vista clásico de la estadística resolviendo el problema usando el criterio MV. Este se basa en la hipótesis de que la distribución sea conocida. En particular si los errores siguen el clásico modelo normal la solución es implementada en diversos paquetes bajo el nombre genérico de TOBIT Analysis. Por ejemplo el SAS permite hacer tal análisis de regresión censurada a partir del modelo MV en el procedimiento LIFEREG. Usarle enfrenta los mismos riesgos que el de los demás problemas al dudar de la normalidad en problemas económicos. El de la demanda clásico es esperable tenga colas pesadas pues los muy pobres y los muy ricos deben tener comportamientos muy diferentes al de la clase media.

La solución propuesta en J. of Econometrics por Powell (1984) es resolver el problema de optimización:

Este no es un programa de PL. pues Máx {0, B1 +B2 Xt} es no lineal en los parámetros. Otro problema es que las condiciones que fijan la restricción no son satisfechas necesariamente. Note que en ella solo juegan un papel las observaciones con B1 +B2 Xt>0 pues en otro caso la predicción coincide con la medición realizada de la variable dependiente, no depende de los parámetros. Este modelo ha sido fuente de múltiples trabajos . En el caso en que se tienen mas de una variable los problemas de optimización se plantean en forma similar:

El método de Powell es robusto para la normalidad y la heterocedasticidad ambas muy comunes en las aplicaciones de la econometría. Está probado que al usar datos de fuentes diferentes esto ocurre. Como la mediana de las variable censuradas no depende de la forma de la densidad de los residuos las hipótesis son más suaves para garantizar la consistencia de los estimados.

La inconsistencia de esta solución fue señalada en la misma revista por Parsch (1984) y propuso atacar directamente el problema usando PNL al introducir una función spline de . Este estudió el comportamiento de estimadores obtenido usando el criterio MV y el MAD. El MV fue mejorado solo cuando los errores son normales. El MAD mostró además ser el mejor al reducir el grado de censura y el incremento en el tamaño de la muestra. El problema encontrado fue la no-convexidad de algunas restricciones lo que obliga a hacer una búsqueda del tipo "grid". Este es el método más satisfactorio desde el punto de vista teórico.

Una propuesta de solución es la presentada en Economics and Statistics por Butler et. al. (1990). al proponer un método de gradiente para resolver el problema no censurado y adaptarle al censurado. Que este método produzca una solución "óptima " aceptable para un problema no diferenciable como el que plantea el MAD es dudable.

Otra solución fue propuesta en Econometrica por Buchinsky (1994) quien usara un enfoque deducible de la regresión quantílica. Un algoritmo llamado Iterative Linear Programming Algorithm desarrollado en su tesis doctoral fue usado. Este es:

El paso 1 es cumplimentado con facilidad por ser un problema de PL. particular. Paquetes como el S-Plus tienen algoritmos para ajustar este tipo de regresión robusta. Se espera una convergencia del algoritmo a un mínimo local pero se advierte que no es de esperar hacerlo a uno global en general. El numero de iteraciones necesarias no es tiene que ser pequeño. Otro problema que no puede garantizar que aparezcan dos estimaciones consecutivas con los mismos estimados. Deaton (1997) propuso observar si había algún ciclo en el que se observaba la repetición de algún estimado. Si esto ocurre utilizarle. Si hubiera varios similares se le asigna al analista la decisión de elegir cual es el mejor.

Otro enfoque es el presentado en Economic Studies Quart. por Nawota (1994). Este propuso el jus de una heurística para buscar el mínimo global. Esta es una línea abierta en este tema al pensar en la pléyade de estos existentes en la actualidad (genéticos, recocido simulado, hormiguero, Tabú, etc.).

Para hacer una comparación de estos métodos usamos el modelo siguiente:

Gasto semanal en meriendas=1+0,25 mesada + error.

La mesada se movió en el intervalo [10, 50] y se determinaron 1 000 valores de los errores generados de acuerdo a una Pareto con parámetros Laplace (0,1), y Cauchy (0,1). Se ajustaron los modelos de regresión usando los métodos de Tobin (1958), Poell (1984) y Buchisnky (1994) al generar el residuo de cada una de las 150 observaciones de la mesada. Se calculó:

Los que llamamos porcentaje de precisión de cada estimador. Los resultados aparecen en la Tabla 4.1. Como se ve el método de Tobin (1958) solo es mejor en el caso normal donde utilizar el criterio MV es óptimo. Utilizar métodos numéricos para hacerlo con las otras distribuciones no genera mejores estimaciones. El enfoque propuesto por Buchinsky (1994) aparece como el mejor en casi todos los casos no normales. Por tanto el uso de un criterio de optimalidad L1 aparece como el más recomendable.

Tabla 4.1. Porcentaje de la precisión observada en 150 experimentos

5.- Un caso semi-lineal

Un modelo alternativo al lineal el dado por:

donde es una función desconocida cuyas primeras m diferenciales son continuas y la m-ésima satisface una condición de Hölder con exponente y Z es una variable explicativa no degenerada. Este es un modelo parcialmente lineal. Engle et. al. (1986) le propusieron y este ha sido investigado en una serie larga de artículos, vea Shi y Li (1994). El problema estudiado con generalidad ha sido aquel en el que se usa un criterio L2 para hacer el ajuste. El problema de optimización es uno de la PNL

La no-robustez del método MC ante la no-normalidad de los errores justifica el estudio del los estimadores del tipo M, ver Li-Shi (1991)en el que se plantea nuevamente el problema, que en general es no lineal,
donde es una función diferenciare casi dondequiera.

En otro trabajo Shi-Li (1994) realizaron una labor similar con el caso en que se usaba la norma L1. En ese trabajo obtuvieron que la tasa de convergencia para el estimador de B usando el MC era de orden
y para el estimador de g era al usar una aproximación por splines. El estimador de g usado fue es un vector de B-splines normalizados de orden m-1. El problema a resolver es:

y su solución es el estimador MAD-Bspline de g(z). El uso de los B-Splines para aproximar g es aconsejable dada su eficiencia en el cómputo y en la exactitud de las aproximaciones.

Shi-Li (1994) propusieron considerar las condiciones siguientes:

C1. La distribución de Z posee una densidad tal que existen unas constantes tales que

C2. Existen tales que la función de densidad, h(z), de los errores satisface en

C3. g es tal que

C4. E(X)=0.

C5. es una matriz semidefinida positiva.

C6. X y Z son independientes.

C7. Existe

C8.

Consideramos que la mediana de los residuos es cero y que la densidad de Z es continua en z=0. Si se cumplen C1 y C3-C7 ellos probaron que son válidas las aseveraciones siguientes:

Usando C4 y C5 y la Ley de los Grande Números se obtuvo que:

R2 es la tasa de convergencia global optima de estimadores al usar la norma L2
en la regresión no Paramétrica, Stone (1982). Si C8 se cumple podemos expresar R1 como
y

sigue una distribución normal N(0,I).

Se realizo un análisis de este método usando los datos iniciales del experimento realizado en la sección anterior. En este caso usamos dos modelos:

M1: Gasto semanal en meriendas=1+0,25 mesada +log (edad)+ error

M2: Gasto semanal en meriendas=1+0,25 mesada +tan (edad)+ error

Z es la edad y usamos como valores de entrada Y= gasto semanal en meriendas, X= mesada. En este experimento el valor de Y fue nuevamente al sumar al modelo el valor obtenido al generar el error aleatoriamente mediante una Pareto con parámetros ,una N(0,1), una Laplace (0,1), y Cauchy (0,1). Usamos el método knot-placement-deletion recomendado por Stone-Koo (1985) y Friedman-Silverman (1989) para estimar g. Evaluamos el estadígrafo de la prueba de Kolmogorov-Smirnov para los parámetros estimados en 100, 500 y 1000 experimentos. Los resultados de estos experimentos aparecen en la Tabla 5.1.

Tabla 4.1. Porcentaje de la precisión observada en el ajuste L2

Fíjese que la aproximación a la normalidad solo es aceptable para M1 con valores de muestra mayores de100 cuando usamos el criterio MC y la distribución es normal, Tabla 4.1. Para el MAD nunca podemos decir que sea aceptablemente normal pero el estadigrafo de prueba está mas cerca de los valores del estadígrafo de la prueba en todas las distribuciones no normales que al usar el MC, Tabla 4.2.

Tabla 4.2. Porcentaje de la precisión observada en el ajuste L1

6.- Aplicaciones a procesos ARMA

En Econometría es común el estudio de series de tiempo descritos mediante un modelo ARMA. tomemos:

es una sucesión de variables aleatorias idénticamente distribuida. Esta distribución se asume como simétrica y El problema es estimar . El problema a resolver, usando el enfoque robusto , plantea el problema de optimización:

O sea que tenemos una función objetivo que es función de los parámetros a través de la estimación de las innovaciones {Zt (B)}. Ya sabemos que el caso MC se asocia a resolver el caso de la norma L2 y el MAD a la L1. Si deseamos usar en vez de un criterio de distancia el de Máxima Verosimilitud debemos conocer o fijar la función de densidad f de la variable de interés y
Estos problemas de estimación son caracterizados por el comportamiento limite de las soluciones al problema.
tomando

y U como el mínimo global del problema de optimización para una función de perdida

Las condiciones necesarias para que esto ocurra no permiten incluir el MC pero si el MAD. Si tipificamos el estimador , ver Davies et. al. (1992)

por lo que el MAD es más eficiente que el MC por dominarle, ver Davies (1996). En un estudio posterior Calder -Davies (1998) realizaron una serie de estudios de simulación para comparar el MAD, el MC y el estimador MV para distribuciones . Los resultados establecieron la superioridad del MV sobre los demás pero el MAD le siguió en eficiencia. De hecho la similitud entre ambos estimadores crece con el valor de Esto sugiere que el uso del MAD es recomendable pues el desconocimiento de la distribución hace que el estimador MV no pueda ser utilizado.

Podemos dar un vista más teórica a estos procesos. Tomando el espacio de probabilidad

donde es un proceso estocástico definido sobre un espacio de estados siendo T el conjunto de índices es conjunto de los enteros. Bajo las hipótesis de estacionalidad e inversibilidad podemos asociar al proceso generado z el proceso residual

donde B es el operador ´hacia atrás´ de ajuste (backward shift)

En el caso de usar la norma L1 el problema de optimización se puede escribir como

como P es desconocida se toma una muestra y se utiliza la medida de probabilidad empírica Pn.

El problema que se resuelve es uno de la Programación Estocástica
InfB* |et (B*)|Pn(dzt )= i=1n |et(B*)|/n=Sn(B*)/n

Entonces el programa a resolver es descrito como:

el que es un Problema Lineal Estocástico y como es usual su solución plantea uno de Programación No Lineal al hallar su contraparte no estocástica.

En los procesos regresivos puros los residuos muestrales son lineales en los parámetros para t>1. Si aparecen términos descritos por promedios móviles estos son no lineales, ver Box-Jenkins (1976) y Sn(B) es no convexa, ver Rockafellar (1983). Sin embargo puede garantizase la consistencia pues si el proceso es estacionario e inversible entonces:

lo que sigue a partir d los resultados de Dupacova (1987) al estudiar problemas relacionados con la Programación Estocástica.. La convergencia del estimador obtenido al resolver el problema anterior fue demostrado por Pino-Morettin (1993) usando nuevamente herramientas diseñadas para la Programación Estocástica por Dupacova-Wets (1988). La convergencia se basa en las mismas hipótesis utilizadas anteriormente para hallar el limite de Sn(B*) y establece que:

para todas las muestras si es medible.

Note que este resultado no hace uso de la hipótesis de que la varianza sea finita. el problema de estimar los parámetros.

En el estudio desarrollado por Pino-Morettin (1993) se analizo el comportamiento de este estimador usando el algoritmo iterativo propuesto por Schlosmacher (1973) para hacer estimaciones del MAD. su objetivo fue investigar la velocidad de convergencia y trabajo con la s distribuciones normal , Laplace y Cauchy. Los modelos analizados fueron AR(2), MA(2) y ARMA (1,1). Obtuvieron una aproximación a la normalidad bastante buena bajo distribuciones normales y Laplace pero muy mala para la Cauchy.
Usamos los modelos usados por Mikosch (1995) y por Calder-Davies (1998)

y el experimento diseñado en el que {Zt} es una sucesión de variables aleatorias independientes con la misma distribución simétrica y Se generaron 1 000 sucesiones y se uso la aproximación muestral

y se computaron los estimadores MC, MAD y MV en cada corrida y se evalúo la media de los errores para a=MC, MAD, MV y q=1,...,1000. Los resultados aparecen en las Tablas B1=B3.

B1. Errores promedio para M1

Como se ve en las Tablas el estimador MV tiene el mejor comportamiento y el MAD es similar a este al disminuir Esto hace del MAD una mejor alternativa que el MC ante el desconocimiento de la distribución si esta es

Tabla B2. Errores promedio para M2

Tabla B3. Errores promedio para M3

7.- El problema multivariado

Es lo más usual que las series generadas por fenómenos económicos sean clasificables como no estacionarios. Esto ha hecho de los modelos correspondientes una herramienta ya clásica en la Econometría. Considerando t =1,.., T y rt como el residuo para la observación t el que tiene esperanza nula y que estos son independientes podemos considerar que nuestras observaciones describen un vector de autoregresión

Tenemos que bajo las hipótesis usuales y 2t es un proceso del tipo I(1) de rango completo y está co-integrado con y 2t. Entonces es un vector de autoregresión simple con algunas de las (n-p)-raíces unidad y alguno de los vectores (r)-co-integradores de la forma

que es otra forma de escribir la condición expresada por (1)-(2).

Es claro que y 2t- como variable endógena está presente en y 2t-1 por la estacionalidad. Note además que
por lo que se satisface la ortogonalidad necesaria. El analista estudia los datos de la serie para establecer la endogeniedad de y 2t-1, que es lo más sencillo y decide usualmente utilizar un periodo para estimar B.

En la práctica lo que hacemos es modelar

A es la matriz, de n x m, de los coeficientes es el vector de regresores (cointegrados o quizás estacionarios). Usando el modelo propuesto por Phillips (1988), expuesto anteriormente,

Asumiremos algunas de las hipótesis:
H1. rt es un proceso lineal y los et son variables independientes e idénticamente distribuidas con media cero, cumulantes de orden cuarto finitos y matriz de varianzas positiva.

Estas se vinculan con los errores del modelo y permiten desarrollar teoremas centrales del limite . Vea Phillips-Solo (1992, Annals of Stat.). Para H desconocida la solución del problema puede encararse como usualmente hacemos al estudiar series de tiempo, Phillips (1995, Econometrica). H3 garantiza que la estimación MC de converja a ella en probabilidad es la matriz de varianzas y su estimador es:

Uno de los problemas que usualmente aparecen en las aplicaciones Econométricas es el de la endogeneidad. Entonces el modelo MC es inadecuado . Esto fue analizado por Phillips (1995, Econometrica) proponiendo usar:

Si [ hay teoremas límite que permiten hacer inferencias usando la teoría asociada a la normalidad. El nuevo estimador llamado MC- completamente modificados(cm).

A pesar de la mejoría que representa el MC-cm respecto al MC ante la endogeneidad no es una solución completamente aceptable en muchos casos. Por ejemplo si los residuos son estrictamente estacionarios y generados por una mezcla fuerte (strong mixing) estos son inadecuados. El uso del Minmad requiere de una serie de condiciones como:

C3. rt sigue una distribución con densidad simétrica , positiva y continua en una vecindad (-a,a) de cero [a>0].
El problema del Minmad es resuelto al hacerlo con el problema de PL:

Para hacer las estimaciones deberemos usar dos etapas pues para obtener la estimación de debemos hacerlo obteniendo las estimaciones de los residuos

Los Teoremas centrales del Limite para los estimadores modificados son muy similares y la Eficiencia Asintótica Relativa de ellos depende de

es más eficiente que su contrapartida en norma L2 . El sentido de esto es evidente si xt es una variable exógena y los residuos tienen la misma varianza. En estos casos el numerador del termino a la derecha de la inecuación anterior se reduce a uno lo que hace recomendable utilizar el criterio L1 cuando la variabilidad es alta pues el denominador es la varianza común a los residuos.

Otras condiciones ligeramente más restrictivas sobre el proceso que genera los residuos permite establecer como piedras de toque que:

5. Si la varianza es infinita convergen con mayor rapidez que sus contrapartes de L2.

Phillips (1996 Econometric Theory) desarrolló varios experimentos usando experimentos de Monte Carlo para el modelo:

donde los ejt´s son generados independientemente de las distribuciones N(0,1), T(2), T(4) y Cauchy (0,1). Para el caso normal y los estimadores no modificados se comportaron muy mal. Lo mismo ocurrió con las T(4) pero para la T(2) . fue el mejor y del resto B(1) no tuvo un comportamiento tan marcadamente malo.

Otro estudio fue desarrollado usando datos reales. El problema analizado fue la razón de intercambio diario del dólar australiano en el periodo Enero 84- Abril 1991. El modelo analizado fue:
yt =B0+B1 log(contrato adelantado en k periodos)+rt.

Los diferentes estimados fueron notablemente diferentes pero los errores asociados al tuvieron los resultados más precisos.

Partiendo del modelo ajustado en el estudio de Phillip´s (1996) hicimos otro experimento pero generando los residuos de acuerdo a una N(0,1) una Laplace (0,.1) y una Cauchy (0,1). Se generaron 10 000 valores de xt uniformemente en [-0,6 0] que fue el intervalo donde se observaron estos en ese trabajo. En cada t se genero un residuo y se le sumó al modelo determinando un valor de la respuesta.

El número de experimentos fue de 500, 1000 y 1500.y se computo para cada estimador

Los resultados aparecen en la Tabla siguiente:

Tabla: Precisión de los L1 y L2 y las modificaciones a estos estimadores propuestas por Phillips

De estos resultados se sigue que como era esperado los estimadores L2 se comportaron muy bien en los casos normales. La precisión aumenta generalmente al crecer el número de observaciones es más preciso que su alternativa cuando no hay normalidad. no tiene un comportamiento notablemente diferente de B(1).

References

An, H.Z. y Z.G. Chen (1982): On the convergence of LAD estimates in autoregression with infinite variance. J. of Multivariate Analysis. 12, 335-345.

Bloomfield P. y W.L. Stieger (1983): Least Absolute Deviation: theory , applications and algorithms. Birkhauser, Boston.

Buchinsky, M. (1994): Changes in the US wage structure 1963-87. Application of Quantile regression. Econometrica, 62, 405-458.

Buchinsky, M. y J. Hahn. (1998): An alternative estimator for censored quantile regression. model. Econometrica, 66, 653-671.

Calder M. y R. A. Davies (1998): Inference for linear processes with stable noise. En "A practical Guide to Heavy Tails: Statistical Techniques and Applications.(Eds. R.J. Adler, R.E. Feldman & M.S. Taqqu, Birkhãuser, Boston.), 159-177.

Davies, R.A. (1996): Gauss-Newton and M-estimation on ARMA processes with infinite variance. Stochastic Proc. and their applications, 63, 75-95.

Davies, R.A, Knight, K. y J. Liu . (1992): M-estimation for autoregressions with infinite variance. Stochastic Proc. and their applications, 40, 145-180.

Dupacova, J.y R. Wets (1988): Asymptotic properties of statistical estimators of and of optimal solutions of stochastic optimization problems. Ann. of Statist. 16, 1517-1549.

Embrechts , P., C. Klupperberg, y T. Mikosch (1997): Modelling Extremal Events for Insurance and Finance. Springer, Berlin.

Engle, R. F., C.W.J. Granger, J. Rice y A. Wein.(1986): Semiparametric estimates of the relation between estimates of the relation between weather and electricity sales. J. American Statit. Ass., 81, 310-320.

Friedman J.H. y B.W. Silverman (1989): Flexible parsimonious smoothing and additive modeling. Technometrics, 31, 3-21.

Li, G.Y. y P.D. Shi (1991): Convergent rates of M-estimates for a partly linear model. Symposium of the 3rd Pacific Statistical Conference.

Mandelbrot, B.B. (1963): The variation of certain speculative prices. J. of Business, 36, 394-419.

Mittnik. S., S.T. Rachev y M.S. Paelella (1998): Stable Paretian modelling in finance: some empirical and theoretical aspects. En "A practical Guide to Heavy Tails: Statistical Techniques and Applications.(Eds. R.J. Adler, R.E,. Feldman & M.S. Taqqu, Birkhãuser, Boston.), 79,110.

McCulloch, J.H. (1996):Financial applications of stable distributions En " Statistical Methods in Finance" (G.S. Maddala y C.R. Rao Eds). Handbook of Statistics 14, 393-425. Elsevier, Amsterdam.

Müller, U.A, M.M. Dacarogna y O.V. Pictet (1998): Heavy tails in high frequency financial data. En "A practical Guide to Heavy Tails: Statistical Techniques and Applications.(Eds. R.J. Adler, R.E. Feldman & M.S. Taqqu, Birkhãuser, Boston.). 55-78.

Nawata, K. (1994): Notes on estimation of the Tobit models by Powell´s Least Absolute Deviations estimator. The Econ. Studies Quart. 45, 339.346.

Paarsch, H. (1984): A Monte Carlo comparison of estimators for censored regression models. J. of Econometric 24, 197-213.

Phillips, P.C. (1988): Weak convergence of sample covariance matrices to stochastic integrals via martingale approximation. Econometric Theory 4, 528-533.

Phillips, P.C. (1991): A shortcut to LAD estimator asymptotics. Econometric Theory, 7, 450-463.

Phillips, P.C. (1995): Fully modified Least squares and vector autoregression. Econometrica, 63, 1023-1079.¨

Phillips, P.C. (1995: Robust non stationary regression. Econometric Theory, 11, 915-951.

Phillips, P.C. and V. Solo (1992): Asymptotics for linear processes. Ann. of Statist. 20, 971-1001.

Pino F.A. y P.A. Morettin (1993): The consistency of the L1-norm estimates in ARMA models. Commun. in Statist. Theory and Methods. 22, 2185-2206.

Powell, J. l. (1984): Least Absolute Deviation estimation for the censored regression model., J. of Econometrics, 24, 303-325.

Rao, C.R. y L.C. Zhao (1995): Recent contributions to censored regression models. Metrika. 42, 203.213.

Rockafellar, R.T. (1983): Generalized subgradients in mathematical programming. En "Mathematical Programming. The State of the Art". Springer Verlag, Berlin.

Samorodnitsky, G. y M.S.Taqqu (1994): Stable non Gaussian Random Process. Chapman and Hall, N. York.

Schlosmacher, E.J. (1973); An iterative technique for absolute deviation curve fitting. J. Amer. Statist. Ass. 68, 857-859.

Shi, P. y g. Li (1994): On the rates of convergence of "minimum L1 norm" estimates in a partly linear model. Commun. Statist.-Theory Methods. 23, 175-196.

Stone, C. (1982): Optimal rates of convergence for non parametric estimation. Ann. Statist. 10, 1040-1053.

Stone, C.J y. C.Y. Koo (1985): Additive splines in statistics. Proc. , Annual Meeting of the Amer. Statist, Assoc. Comput. Section. 45-48.

Tobin, J. (1958): Estimation of relationships for limited dependent variables . Econometrica, 26, 24-36.

Zolotarev, V.M. (1983): Leyes Estables Unidimensionales. (En Ruso). Nauka, Moscu.

About the Authors

*Reconocimientos: Este trabajo se enmarca en el Proyecto Sistemas de Tarifación Marítima y Terrestre de la Universdade Da Coruña. Se ha visto soportado tambiéen por un beca otorgada por la Third World Academy of Sciences

Autor: Sira M. Allende
Dirección: Universidad de La Habana
Correo electrónico: sira@matcom.uh.cu

Autor: Carlos N. Bouza
Dirección: Universidad de La Habana
Correo electrónico: bouza@matcom.uh.cu

Autor: Luis C. Martínez
Dirección: Universidade da Coruña

Autor: Bikal P. Singh
Dirección: Bhat & Sarkar Informatic Consultors

DOCUMENTOS DE TRABAJO EN ANÁLISIS ECONÓMICO (EAWP)
Derechos reservados 2002. El permiso para reproducir algún artículo está garantizado si Documentos de Trabajo en Análisis Económico lo acredita, las copias no son vendidas y es en acto de mayor difusión del documento.

Editor: Fernando González-Laxe. (Universidade da Coruña)
Director: Venancio Salcines. (Universidade da Coruña)
Subdirector: Andrés Blancas. Instituto de Investigaciones Económicas (UNAM)
Editor Asociado para America Latina: Luis Miguel Galindo. Facultad de Ecomomía (UNAM)