6 maneras de hacer que el aprendizaje automático falle
El proceso de aprendizaje en general a menudo significa cometer errores y tomar los caminos equivocados, y luego descubrir cómo evitar estos escollos en el futuro. El aprendizaje automático no es diferente.
Al implementar el aprendizaje automático en su empresa, tenga cuidado: parte del marketing tecnológico podría sugerir que el aprendizaje es muy correcto, una expectativa poco realista de la tecnología. Pero la verdad es que es probable que haya errores en el proceso de aprendizaje automático. Y estos errores pueden codificarse, al menos por un tiempo, en los procesos de negocios. El resultado: esos errores ahora ocurren a gran escala y, a menudo, están fuera del control humano inmediato.
«La agilidad sin la debida diligencia puede llevar a problemas que hacen que los beneficios del aprendizaje automático sean casi inútiles», señala Ray Johnson, científico jefe de datos de SPR Consulting.
Detectar errores de aprendizaje automático, y tratar con ellos, lo ayudará a tener más éxito con la tecnología y cumplir con sus expectativas de aprendizaje automático.
A continuación, se detallan algunos de los problemas que pueden aumentar y prolongar los errores que cometen las herramientas de aprendizaje automático mientras aprenden: malas lecciones que quizás nunca reconozcan y corrijan.
La falta de comprensión empresarial del problema hace que la inclinación de la máquina falle
Algunos trabajadores de datos que utilizan modelos de aprendizaje automático no entienden realmente el problema empresarial que el aprendizaje automático está tratando de resolver, y esto puede introducir errores en el proceso.
Cuando su equipo está utilizando una herramienta de aprendizaje automático, Akshay Tandon, vicepresidente y jefe de estrategia y análisis del sitio de servicios financieros LendingTree, lo alienta a comenzar con una declaración de hipótesis. La declaración debe preguntar cuál es el problema que está tratando de resolver y qué modelos va a construir para resolver ese problema.
Desde el punto de vista estadístico, las herramientas de aprendizaje automático disponibles hoy en día son extremadamente poderosas, anota Tandon. Eso impone una mayor carga por hacerlo correctamente, porque estas poderosas herramientas, si no se usan con cuidado, pueden llevar a decisiones erróneas que importan. Si los equipos de análisis de datos no tienen cuidado, pueden terminar con modelos que no se ajusten a los datos particulares que el equipo está utilizando de lo que está tratando de aprender. Resultados de deterioro rápido; las cosas pueden ir muy mal muy rápido, indica.
Además, muchos usuarios comerciales no entienden que un modelo, desde el momento en que se pone en producción, tiene una cierta degradación en la calidad, indica Tandon. Reconociendo que, al igual que con un automóvil o cualquier otra máquina, los usuarios necesitan monitorearlo constantemente y ser conscientes de cómo está afectando las decisiones.
La mala calidad de los datos puede causar errores de aprendizaje automático
Basura dentro, basura fuera. Si la calidad de los datos no es suficiente, el aprendizaje automático sufrirá. La mala calidad de los datos es una de las mayores preocupaciones de los administradores de datos, y puede poner en peligro los esfuerzos de análisis de grandes datos a pesar de las mejores intenciones de los científicos de datos y otros profesionales que trabajan con información. Ciertamente puede conducir modelos de aprendizaje automático fuera de los rieles.
Las organizaciones con frecuencia sobreestiman la resistencia de los algoritmos de aprendizaje automático y subestiman los efectos de los datos erróneos. La mala calidad de los datos produce malos resultados, y lleva a una organización a tomar decisiones empresariales mal informadas, señala Johnson. Los resultados de estas decisiones afectarán el rendimiento del negocio y dificultarán que las iniciativas futuras obtengan apoyo.
Puede detectar la mala calidad de los datos de los resultados impulsados por el aprendizaje automático que simplemente no parecen tener sentido, según la experiencia pasada y actual.
Un enfoque proactivo para abordar el problema es el análisis de datos exploratorios (EDA, por sus siglas en inglés), indica Johnson. EDA puede identificar problemas de calidad de datos básicos, como valores atípicos, valores perdidos y valores de dominio inconsistentes. También puede utilizar técnicas como el muestreo estadístico para determinar si hay suficientes instancias de puntos de datos para reflejar adecuadamente la distribución de la población, y para definir reglas y políticas con respecto a la corrección de la calidad de los datos.
Uso incorrecto del aprendizaje automático
«El problema más común que aún vemos en las empresas es el deseo de utilizar aprendizaje automático por ninguna otra razón que no sea la de la moda», indica Sally Epstein, ingeniera especialista en aprendizaje automático de la consultora Cambridge Consultants. Pero debe ser la aplicación correcta de la herramienta para tener éxito, añade. Y los enfoques de ingeniería tradicionales pueden proporcionar una solución más rápida y por un costo considerablemente menor.
El uso del aprendizaje automático, cuando podría no ser la mejor opción para resolver un problema y no entender completamente el caso de uso, puede resultar en resolver el problema incorrecto, indica Johnson.
Además, abordar el problema incorrecto dará lugar a oportunidades perdidas, ya que las organizaciones se esfuerzan por adaptar su caso de uso a un modelo específico e inadecuado. Esto incluye los recursos desperdiciados que se implementan en términos de personal e infraestructura para obtener un resultado que podría haberse realizado utilizando enfoques alternativos más simples.
Para evitar el uso incorrecto del aprendizaje automático, tenga en cuenta el resultado deseado del negocio, la complejidad del problema, el volumen de datos y el número de atributos. Problemas relativamente simples como la clasificación, las agrupaciones y las reglas de asociación que utilizan pequeñas cantidades de datos con unos pocos atributos, pueden abordarse visualmente o mediante análisis estadístico, anota Johnson. En esos casos, la implementación del aprendizaje automático puede requerir más tiempo y recursos de los necesarios.
Cuando el volumen de datos se vuelve difícil de manejar, el aprendizaje automático podría ser más apropiado. Pero no es infrecuente realizar un ejercicio de aprendizaje automático y luego descubrir que el resultado comercial no se ha definido claramente, lo que resulta en la resolución del problema incorrecto.
Los modelos de aprendizaje automático pueden ser sesgados
El uso de un conjunto de datos de baja calidad puede llevar a conclusiones erróneas. No solo puede introducir inexactitudes y datos faltantes, sino que también puede introducir sesgos. Las personas son ciertamente capaces de sesgos, por lo que es lógico pensar que los modelos creados o inspirados por personas, también pueden contener sesgos.
Cada algoritmo de aprendizaje automático tiene diferentes sensibilidades a las clases o distribuciones desequilibradas, señala Epstein. Si esto no se aborda, podría terminar con, por ejemplo, herramientas de reconocimiento facial que dependen del color de la piel o que produzcan modelos con sesgo de género, añade. De hecho, eso ya ha pasado con varios servicios comerciales.
La precisión de una conclusión, ya sea la de un algoritmo o una persona, depende de la amplitud y la calidad de la información que se procesa. Los riesgos financieros, legales y de reputación del sesgo algorítmico que enfrentan las organizaciones y los individuos, son un ejemplo de por qué cualquier empresa que usa el aprendizaje automático debería hacer de la ética un imperativo organizativo, señala Vic Katyal, director del área de servicio de análisis de asesoría de la consultora Deloitte.
Las señales de sesgo algorítmico han sido bien documentadas en la esfera pública a través de áreas como la calificación crediticia, los currículos educativos, la contratación y la sentencia de justicia penal, anota Katyal. Los datos mal recopilados, curados o aplicados pueden introducir sesgos incluso en las aplicaciones de aprendizaje automático mejor diseñadas.
Los sistemas de aprendizaje automático intrínsecamente sesgados, amenazan con poner en desventaja a segmentos de clientes o partes interesadas de la sociedad, y pueden crear o perpetuar resultados injustos, añade.
La consultora McKinsey & Company observa en un informe del 2017 que el sesgo algorítmico es uno de los mayores riesgos del aprendizaje automático, ya que compromete el propósito real del aprendizaje automático. Es un defecto que a menudo se pasa por alto y puede provocar errores costosos, señala la empresa; y si no se controla, puede llevar a los proyectos y organizaciones en direcciones totalmente equivocadas.
Los esfuerzos efectivos para enfrentar el problema desde el principio darán buenos resultados, señala McKinsey, permitiendo que el verdadero potencial del aprendizaje automático se realice de la manera más eficiente.
Recursos insuficientes para hacer bien el aprendizaje automático.
Al lanzar una iniciativa de aprendizaje automático, las organizaciones pueden subestimar fácilmente los recursos que necesitan para el personal y la infraestructura. Puede haber requisitos sustanciales de infraestructura para el aprendizaje automático, especialmente en los casos de procesamiento de imagen, video y audio.
Sin el poder de procesamiento requerido, desarrollar soluciones basadas en el aprendizaje automático de manera oportuna podría ser difícil, si no imposible, como señala Johnson.
También está el tema de la implementación y el consumo. ¿De qué sirve el desarrollo de una solución de aprendizaje automático, si no se cuenta con la infraestructura de requisitos previos para permitir su implementación y el consumo de resultados por parte de los usuarios?
La implementación de una infraestructura escalable para admitir el aprendizaje automático puede ser costosa y difícil de mantener. Sin embargo, hay varios servicios en la nube que proporcionan plataformas de aprendizaje automático escalables que pueden aprovisionarse a pedido. El enfoque de la nube permite la experimentación con el aprendizaje automático a gran escala, sin los obstáculos de la adquisición, configuración e implementación del hardware físico, indica Johnsons.
Algunas organizaciones quieren tener su infraestructura en casa. Si ese es el caso, los servicios en la nube pueden servir como un trampolín y una experiencia educativa; por lo que esas organizaciones pueden entender lo que se requiere desde una perspectiva de infraestructura antes de realizar esa gran inversión.
Desde la perspectiva del personal, la falta de recursos con conocimientos tales como científicos de datos e ingenieros de aprendizaje automático, puede descarrilar el desarrollo y la implementación del aprendizaje automático. Es esencial contar con recursos que comprendan los conceptos de aprendizaje automático, su aplicación e interpretación, para determinar si se están logrando resultados comerciales específicos.
No se puede subestimar lo importante que es tener habilidades de aprendizaje automático con conocimientos, señala Johnson. Las personas capacitadas pueden ayudar a identificar los problemas de calidad de los datos, garantizar el uso y la implementación adecuados de las herramientas de aprendizaje automático, y ayudar a establecer las mejores prácticas y las políticas de gobierno.
La mala planificación y la falta de gobierno descarrilan el aprendizaje automático
Los esfuerzos de aprendizaje automático pueden comenzar con entusiasmo, pero luego pierden impulso y se frenan. Este es un signo de mala planificación y falta de gobierno.
Según Johnson, los esfuerzos de aprendizaje automático continuarán hasta el infinito si no se implementan las pautas y los límites adecuados, lo que podría generar enormes gastos de recursos sin lograr ningún beneficio, indica Johnson.
Las organizaciones deben tener en cuenta que el aprendizaje automático es un proceso iterativo, y las modificaciones a los modelos pueden ocurrir a lo largo del tiempo para cumplir con los requisitos cambiantes. Como resultado, las personas que trabajan con aprendizaje automático pueden desarrollar una falta de interés en completar el esfuerzo, lo que puede llevar a resultados deficientes. Los patrocinadores del proyecto podrían pasar a otros esfuerzos, y el esfuerzo de aprendizaje automático eventualmente se paralizará.
Los esfuerzos de aprendizaje automático deben ser monitoreados regularmente para que las cosas sigan avanzando, señala Johnson. Si el progreso comienza a desacelerarse, podría ser el momento de tomar un descanso y volver a examinar el esfuerzo.
Fuente: CIOPERÚ