Backtesting estrategias de comercio de divisas






+

Backtesting Data Mining mercado-geeks / artículos / 002_BacktestingDatamining. php / Backtesting Data Mining En este artículo vamos a echar un vistazo a dos prácticas relacionadas que son ampliamente utilizados por los comerciantes llamados Backtesting y Minería de Datos. Estas son técnicas que son de gran alcance y valiosa si los usamos correctamente, sin embargo los comerciantes a menudo les hacen mal uso. Por lo tanto, también exploraremos dos errores comunes de estas técnicas, conocidas como el problema de múltiples hipótesis y sobreajuste y cómo superar estos escollos. Backtesting Backtesting es sólo el proceso de utilización de los datos históricos para probar el rendimiento de alguna estrategia de negociación. Backtesting generalmente comienza con una estrategia que nos gustaría probar, por ejemplo, la compra de GBP / USD cuando se cruza por encima de los 20 días de media móvil y vender cuando cruza por debajo de la media. Ahora podríamos probar que la estrategia al ver lo que el mercado no va hacia adelante, pero eso llevaría mucho tiempo. Es por eso que utilizamos datos históricos que ya está disponible. Pero espera, espera! Le oigo decir. ¿No podrías engañar o al menos estar sesgados porque ya sabes lo que sucedió en el pasado? Eso es definitivamente una preocupación, por lo que un backtest válida será aquella en la que no estamos familiarizados con los datos históricos. Podemos lograr esto mediante la elección de períodos de tiempo al azar o eligiendo muchos períodos diferentes de tiempo en el que llevar a cabo la prueba. Ahora puedo escuchar otro grupo de ustedes diciendo, pero todo lo que los datos históricos allí sentado esperando a ser analizado es tentador ¿no? Tal vez hay profundos secretos en que los datos a la espera de los geeks como nosotros para descubrirlo. ¿Sería tan malo que examinemos que los datos históricos de primera, para analizarlo y ver si podemos encontrar patrones ocultos dentro de ella? Este argumento también es válido, pero nos lleva a una zona llena de peligros. el mundo de la minería de datos Data Mining Minería de datos consiste en buscar a través de datos con el fin de localizar patrones y encontrar posibles correlaciones entre las variables. En el ejemplo anterior implica el móvil de 20 días promedio de estrategia, sólo se le ocurrió que el indicador en particular de la nada, pero supongamos que no tenía idea de qué tipo de estrategia que queríamos probar? Fue entonces cuando la minería de datos es muy útil. Podríamos buscar a través de nuestros datos históricos sobre el GBP / USD para ver cómo se comportaba el precio después de que cruzó muchos diferentes medias móviles. Podríamos comprobar los movimientos de precios en contra de muchos otros tipos de indicadores, así y ver cuáles corresponden a grandes movimientos de precios. El tema de la minería de datos puede ser controversial, porque como ya comenté anteriormente me parece un poco como hacer trampa o de cara al futuro en los datos. Es la extracción de datos de una técnica científica válida? Por un lado el método científico dice que se supone que debemos hacer una hipótesis y luego probarlo en contra de nuestros datos, pero por otro lado, parece apropiado hacer una exploración de los datos por primera vez en el fin de sugerir una hipótesis. Así que es verdad? Podemos ver los pasos del método científico para una pista sobre el origen de la confusión. El proceso en general se ve así: Observación (datos) & gt; & gt; & gt; Hipótesis & gt; & gt; & gt; Predicción & gt; & gt; & gt; Experimento (datos) Tenga en cuenta que podemos hacer frente a los datos durante las dos etapas observación y la experimentación. Así que ambos puntos de vista tienen razón. Debemos utilizar los datos con el fin de crear una hipótesis razonable, pero también probar esta hipótesis utilizando datos. El truco es simplemente para asegurarse de que los dos conjuntos de datos no son lo mismo! Nunca debemos probar nuestra hipótesis utilizando el mismo conjunto de datos que hemos utilizado para sugerir la hipótesis. En otras palabras, si se utiliza la minería de datos con el fin de llegar a ideas de estrategia, asegúrese de usar un conjunto diferente de datos para backtest esas ideas. Ahora vamos a centrar nuestra atención en los principales escollos de la utilización de minería de datos y backtesting incorrectamente. El problema general es conocido como el exceso de optimización y prefiero romper ese problema en dos tipos distintos. Estos son los problemas múltiples hipótesis y sobreajuste. En un sentido, son formas opuestas de hacer el mismo error. El problema múltiples hipótesis implica elegir muchas hipótesis simples, mientras que overfitting implica la creación de una hipótesis muy complejo. El múltiple Hipótesis Problema Para ver cómo surge este problema, volvamos a nuestro ejemplo donde backtested el móvil de 20 días promedio de estrategia. Supongamos que nos backtest la estrategia contra diez años de datos de mercado históricos y he aquí ¿adivinen qué? Los resultados no son muy alentadores. Sin embargo, siendo comerciantes rudo y violento como somos, decidimos no dar por vencido tan fácilmente. ¿Qué pasa con una media móvil de diez días? Eso podría funcionar un poco mejor, así que vamos a backtest él! Corremos otra backtest y nos encontramos con que los resultados todavía no son estelares, pero son un poco mejor que los resultados de 20 días. Decidimos explorar un poco y ejecutar pruebas similares con 5 días y 30 días promedios móviles. Finalmente se nos ocurre que podríamos en realidad sólo probar cada media móvil simple hasta un cierto punto y ver cómo todos ellos realizan. Así que probamos el 2 días, 3 días, 4 días, y así sucesivamente, todo el camino hasta la media móvil de 50 días. Ahora sin duda algunos de estos promedios serán un mal desempeño y otros realizará bastante bien, pero no tendrá que ser uno de ellos, que es la mejor absoluta. Por ejemplo podemos encontrar que el promedio móvil de 32 días resultó ser el mejor desempeño durante este período en particular de diez años. ¿Significa esto que hay algo especial acerca de la media de 32 días y que debemos estar seguros de que será un buen desempeño en el futuro? Desafortunadamente muchos comerciantes asumen que este es el caso, y que sólo dejan su análisis en este punto, pensando que han descubierto algo profundo. Han caído en la trampa múltiple Hipótesis problema. El problema es que no hay nada en absoluto inusual o significativo sobre el hecho de que algunos promedio resultó ser la mejor. Después de todo, hemos probado casi cincuenta de ellos en contra de los mismos datos, por lo que es de esperar que para encontrar unos buenos resultados, sólo por casualidad. Esto no significa que hay algo especial acerca de la media móvil particular que ganó en este caso. El problema surge porque hemos probado varias hipótesis hasta que encontramos uno que funcionaba, en lugar de elegir una sola hipótesis y prueba de ello. He aquí una buena analogía clásica. Podríamos llegar a una sola hipótesis tales como Scott es muy bueno para voltear cabezas en una moneda. A partir de eso, podríamos crear una predicción que dice: Si la hipótesis es verdadera, de Scott será capaz de dar la vuelta 10 cabezas en una fila. Entonces podemos realizar un sencillo experimento para probar esa hipótesis. Si puedo voltear 10 cabezas en una fila en realidad no prueba la hipótesis. Sin embargo si no puedo lograr esta hazaña definitivamente refuta la hipótesis. Como nosotros repetimos los experimentos que no logran refutar la hipótesis, entonces nuestra confianza en su verdad crece. Esa es la forma correcta de hacerlo. Sin embargo, lo que si hubiéramos llegado con 1.000 hipótesis en lugar de sólo el de que yo sea un buen flipper moneda? Podríamos hacer la misma hipótesis de unas 1.000 personas diferentes. mí, Ed, Cindy, Bill, Sam, etc Ok, ahora vamos a probar nuestros múltiples hipótesis. Pedimos a todos los 1.000 personas para lanzar una moneda. Probablemente habrá alrededor de 500 que voltear cabezas. Todos los demás pueden irse a casa. Ahora pedimos a los 500 personas para voltear de nuevo, y esta vez alrededor de 250 a voltear cabezas. En el tercer flip cerca de 125 personas que voltear la cabeza, en el cuarto cerca de 63 personas se quedan, y en el quinto flip no hay unos 32. Estas 32 personas son todos bastante increíble ¿verdad? Todos han volteado cinco cabezas en una fila! Si lanzamos cinco veces más y eliminar la mitad de las personas que cada vez que en promedio, vamos a terminar con 16, luego 8, luego 4, luego 2 y, finalmente, una persona a la izquierda que ha volteado diez caras seguidas. Es Bill! Bill es un flipper fabulosas de monedas! ¿O es? Bueno, realmente no sabemos, y eso es el punto. Bill pudo haber ganado nuestro concurso de pura casualidad, o puede muy bien ser la mejor aleta de cabezas de este lado de la galaxia de Andrómeda. Por la misma razón, no sabemos si el promedio móvil de 32 días a partir de nuestro ejemplo anterior solo se desempeñó bien en nuestra prueba por pura casualidad, o si hay algo realmente especial. Pero todo lo que hemos hecho hasta ahora es encontrar una hipótesis, a saber, que el movimiento estrategia promedio de 32 días es rentable (o que Bill es un gran aleta moneda). En realidad no hemos probado esta hipótesis todavía. Así que ahora que entendemos que no hemos descubierto nada significativo aún sobre la media móvil o sobre la capacidad del proyecto de ley para voltear las monedas de 32 días, la pregunta natural es ¿qué debemos hacer ahora? Como he mencionado anteriormente, muchos comerciantes nunca se dan cuenta de que no es un paso necesario en absoluto. Pues bien, en el caso de Bill usted probablemente preguntar, Aha, pero puede que la vuelta diez cabezas en una fila de nuevo? En el caso de la media móvil de 32 días, nos gustaría probar otra vez, pero ciertamente no en contra de la misma muestra de datos que utilizamos para elegir esa hipótesis. Nos volveríamos a elegir un nuevo período de diez años y ver si la estrategia funcionó igual de bien. Podríamos seguir haciendo este experimento tantas veces como queríamos hasta que nuestro suministro de nuevos períodos de diez años salió corriendo. Nos referimos a esto como de las pruebas de muestra, y es la forma de evitar este escollo. Existen varios métodos de dichas pruebas, una de las cuales es la validación cruzada, pero no vamos a entrar en mucho detalle aquí.