Si a su organización le cuesta sumar expertos en científicos de datos y people analytic porque son coptados por las grande firmas de tecnología, las herramientas de Machine Learning o de Aprendizaje Automática son una buena opción, según un informe de McKinsey.
En los últimos años, a medida que la promesa de la inteligencia artificial (IA) se cristalizó en todas las industrias, las organizaciones renovaron sus estrategias de talento para adquirir las habilidades necesarias para implementar y escalar sistemas de IA. Contrataron legiones de científicos de datos y otros expertos para crear aplicaciones de inteligencia artificial, traductores de análisis para conectar los ámbitos comercial y técnico, y personal de primera línea capacitados para usar las aplicaciones de inteligencia artificial de manera efectiva.
Un rol en particular, el científico de datos, ha sido especialmente difícil de cumplir para los líderes a medida que aumentaba la competencia por su conocimiento. El año pasado, el motor de búsqueda relacionado con el empleo Indeed informó que las ofertas de trabajo en su sitio para científicos de datos se habían más que triplicado desde diciembre de 2013. La investigación del McKinsey Global Institute también ha resaltado la escasez de talento y el potencial de cientos de miles de puestos disponibles sin llenar.
A las empresas establecidas les resultó especialmente difícil competir con las empresas emergentes y los gigantes tecnológicos como Google para atraer o retener a los científicos de datos con mejor práctica y a la nueva generación de graduados. Un conglomerado minorista multinacional, por ejemplo, implementó un paquete muy atractivo el año pasado, con beneficios educativos y salarios hasta un 20% más altos que las tarifas del mercado, para atraer a los más de 30 científicos de datos que necesitaba para respaldar su hoja de ruta estratégica de prioridad. Casos de uso de IA.
Ciertamente, parte de esta competencia puede suavizarse a medida que las empresas emergentes de tecnología luchan por sobrevivir a raíz de la crisis del COVID-19, lo que hace que sea algo más fácil para los titulares adquirir estas habilidades difíciles de conseguir. Pero también hay nuevas herramientas que tienen el potencial de llenar la brecha de talento de la ciencia de datos y aumentar la eficiencia de los equipos de análisis. Las herramientas de aprendizaje automático (ML), comúnmente llamadas AutoML o simplemente Machine Learning, están diseñadas para automatizar muchos pasos en el desarrollo de modelos de aprendizaje automático. Los expertos en negocios armados con AutoML pueden construir algunos tipos de modelos que alguna vez habrían necesitado un científico de datos capacitado.
Como podría imaginarse, existe una gran discusión sobre lo que puede o debe automatizarse cuando se trata del desarrollo de modelos. Sin embargo, una cosa está clara: la evolución de las herramientas de Machine Learning está impulsando una forma radicalmente nueva de pensar sobre la ciencia de datos, expandiendo su banco para incluir expertos en negocios con amplios conocimientos, habilidades básicas de ciencia de datos o la voluntad de aprenderlas; en lugar de llenar el equipo únicamente con científicos de datos experimentados.
Para seguir siendo competitivos, creemos que las empresas se beneficiarán mejor si no invierten todos sus recursos en la lucha por el talento técnico escaso, sino que concentran al menos parte de su atención en desarrollar su tropa de practicantes, que se convertirán en una proporción sustancial de el grupo de talentos para la próxima década.
Cómo las herramientas de Machine Learning cambian el juego de la ciencia de datos
Para comprender este cambio en las necesidades de talento, es útil comprender a un alto nivel cómo se crean los modelos, los componentes básicos de los sistemas de Inteligencia Artificial, y dónde los científicos de datos pasan la mayor parte de su tiempo (y exposición).
Por lo general, hay seis pasos amplios en el flujo de trabajo de desarrollo de modelos que debe tener en cuenta:
1. Comprender el desafío empresarial y traducirlo en matemático. Este es posiblemente uno de los pasos más cruciales, ya que las decisiones que toman los científicos de datos aquí pueden determinar el rendimiento y el éxito final del modelo.
2. Comprender los datos, incluida la evaluación de qué datos están disponibles para respaldar el objetivo comercial y la viabilidad de aprovechar esos datos para impulsar un modelo analítico eficaz para el trabajo.
3. Preparar los datos, incluida la limpieza de los datos y la identificación de las características más importantes. Por ejemplo, la temperatura media de funcionamiento del equipo y el tiempo entre el mantenimiento serían características clave para ayudar a predecir cuándo se necesita mantenimiento.
4. Desarrollar los modelos utilizando lenguajes de programación como R y Python aprovechando uno de los muchos algoritmos disponibles en plataformas de código abierto o, en casos mucho más raros, desarrollando un nuevo enfoque personalizado para el problema en cuestión.
5. Probar y ajustar modelos para el rendimiento en el cumplimiento de los objetivos comerciales originales, así como para abordar cualquier riesgo, como sesgo, equidad, preparación para la producción, etc.
6. Implementar los nuevos modelos en producción, integrarlos en los flujos de trabajo de toma de decisiones y monitorear su desempeño, haciendo las actualizaciones necesarias.
Muchas organizaciones han descubierto que entre el 60 y el 80 por ciento del tiempo de un científico de datos se dedica a preparar los datos para el modelado. Una vez que se construye el modelo inicial, solo una fracción de su tiempo (4%, según algunos análisis) se dedica a probar y ajustar el código. En esencia, el ajuste de los parámetros del modelo se ha convertido en un producto básico y el rendimiento se basa en la selección y preparación de datos.
En cambio el Machine Learning tiene como objetivo automatizar toda la preparación de datos, así como los pasos de modelado y ajuste, de modo que ya no sea necesario el trabajo técnico manual. Si bien estas herramientas aún no automatizan todo, actualmente pueden producir modelos de aprendizaje automático que funcionan lo suficientemente bien como para generar retornos. En la industria de las telecomunicaciones, por ejemplo, algunas empresas han aprovechado con éxito Machine Learning para crear modelos rentables de gestión de pérdidas que predicen con suficiente precisión qué clientes tienen un alto riesgo de cancelar sus contratos.
Es importante señalar aquí que el impulso para eliminar las tareas de datos manuales no es nuevo. Hoy en día, la mayoría de los modelos de aprendizaje automático, incluidos los poderosos como el aprendizaje profundo, ya están completamente integrados en los lenguajes de programación, lo que significa que los científicos de datos pueden aplicar estas técnicas con muy poco código. Por ejemplo, una compañía de energía pudo, una vez que había preparado los datos, construir un modelo que predijo con precisión las cancelaciones de los clientes aplicando solo una línea de código. Una comunidad de código abierto activa y en crecimiento también proporciona «fragmentos» de código que los científicos de datos pueden copiar y pegar en sus modelos para que la preparación de datos y el modelado sean parte de su trabajo más fácil que nunca.
Ya vemos que se está produciendo la transición: las herramientas de última generación permiten a los profesionales de Machine Learning crear canalizaciones de AA de rendimiento razonablemente alto que incluyen todos los pasos, desde la lectura de los datos hasta el ajuste de los parámetros, sin un conocimiento sustancial de aprendizaje automático o estadísticas. . Un minorista norteamericano, por ejemplo, volvió a capacitar a varios cientos de empleados en su equipo de inteligencia empresarial para que utilizaran una plataforma de Machine Learning para realizar tareas de segmentación de clientes que antes realizaban científicos de datos altamente capacitados. La medida ha permitido a la empresa cubrir la brecha de talento entre las funciones básicas de inteligencia empresarial y las tareas de modelado de Aprendizaje Automático muy complejas y ahorrar cientos de miles de dólares en la preparación de datos.
El impacto en las estrategias de contratación
Dadas las limitaciones actuales de las herramientas de Machine Learning, no prevemos que la demanda de experiencia sustancial y funcional en ciencia de datos desaparezca pronto. A largo plazo, todavía se necesitarán científicos de datos puramente técnicos, pero simplemente muchos menos de lo que la mayoría predice actualmente. Estimamos que durante los próximos cinco años, es probable que la demanda de profesionales de Machine Learning sea el doble que la demanda de científicos de datos a medida que las empresas desarrollen sus estrategias de talento con ambos niveles de experiencia:
- Los profesionales de Machine Learning, como los bioquímicos en la investigación farmacéutica, podrán realizar tareas de ciencia de datos más sencillas.
- Los científicos de datos con la experiencia estadística para comprender qué tareas se pueden automatizar de forma segura sin riesgo realizarán tareas altamente especializadas que no se pueden automatizar, como desarrollar nuevos algoritmos u optimizar la precisión hasta los últimos puntos porcentuales.
Pero ¿Dónde deberían las organizaciones comenzar a repensar sus necesidades de talento en ciencia de datos? Recomendamos a las empresas que sigan los siguientes pasos.
1. Reevalúe sus requisitos
La distinción entre las tareas que se pueden dejar a los profesionales de Machine Learning y las que requieren científicos de datos con una gran experiencia en estadística no es trivial. Requiere profesionales de análisis experimentados para hacer un balance de todas las iniciativas en la hoja de ruta de la IA y clasificarlas en función de la complejidad de los datos y las técnicas de modelado y el nivel necesario de precisión predictiva. Encontramos que las siguientes preguntas pueden servir como una guía útil para determinar cómo dividir el trabajo en una tarea determinada:
* ¿Es esta una tarea de ciencia de datos no estándar en contraposición a una tarea predictiva estándar, como clasificación o regresión?
* ¿Necesitaremos utilizar datos ricos y complejos para resolver el problema empresarial?
* ¿Existe un sesgo potencial en los datos, como en el caso de un modelo de selección de currículums que puede reflejar involuntariamente prejuicios históricos?
* ¿Es probable que el problema requiera una comprensión más profunda de los métodos estadísticos, como la inferencia causal?
*¿Una ligera diferencia en el rendimiento del modelo (por ejemplo, un aumento del 1 al 2 por ciento en la precisión predictiva) influiría significativamente en el valor del modelo?
Para manejar tareas para las que la respuesta a cualquiera de estas preguntas es “sí”, la organización seguramente necesitará científicos de datos altamente capacitados en su combinación de talentos.
2. Expertos en dominios de Upskill
La mejor manera de comenzar con las herramientas de Machine Learning es capacitar a los expertos en negocios existentes, en lugar de contratar nuevos empleados. La capacitación debe incluir educación tanto en el uso de herramientas de Aprendizaje Automático como en los fundamentos de la ciencia de datos. Por ejemplo, los expertos en negocios deben saber cómo funcionan las técnicas de modelado comunes, qué tipo de datos (campos numéricos o de texto) requieren y qué patrones pueden (y no pueden) revelar los datos. Para desarrollar su equipo de Machine Learning, una empresa de fabricación puso a prueba un programa de desarrollo de capacidades para aproximadamente 200 ingenieros de procesos y gerentes de línea. El programa consistió en cinco días de capacitación con ejercicios a lo largo de todo el ciclo de vida de los productos, incluidas tareas de codificación estándar como limpiar los datos y ejecutar modelos de ML estándar automatizados, seguidos de capacitación en el trabajo cuando aplicaron sus nuevas habilidades en su proyectos propios. Si bien la educación en un campo técnico como la ingeniería, la física o las matemáticas era una ventaja, el único requisito previo para estos expertos en negocios era el interés y la curiosidad por la ciencia de datos.
3. Discuta las limitaciones y las oportunidades
Como se destacó, existen claras limitaciones a la tecnología Machine Learning y numerosos escollos para las empresas que la usan de manera inapropiada, entre las cuales se encuentran el potencial de resultados defectuosos cuando se usa fuera de su ámbito de experiencia, sesgos no detectados y falta de explicabilidad. Son estos peligros los que han generado preocupaciones en la comunidad de la ciencia de datos. Sin embargo, las organizaciones que son conscientes de los problemas y participan en discusiones abiertas con sus científicos de datos sobre el potencial del Aprendijaza Automático no solo podrán lidiar mejor con las brechas de talento actuales, sino que también liberarán a sus científicos de datos para las tareas que realmente les interesan. En la empresa de fabricación mencionada anteriormente, los científicos de datos estaban contentos de que ya no necesitaban ejecutar todas las tareas estandarizadas en las plantas locales y, en cambio, podían concentrarse en las tareas que realmente requerían su conocimiento profundo y especializado.
Ha llegado el momento de que las empresas ajusten su estrategia de talento para aprovechar las herramientas de Machine Learnig. Estas herramientas permiten a los expertos en negocios completar de manera eficiente y rentable muchas de las tareas de ciencia de datos más simples de la actualidad y serán aún más importantes en el futuro a medida que mejoren. Al mismo tiempo, los científicos de datos expertos se liberarán para las tareas técnicamente más desafiantes, lo que les permitirá usar su conjunto de habilidades de manera más eficiente e innovar más rápido, al tiempo que aumentará su satisfacción laboral; beneficios tanto para los científicos de datos como para las empresas que buscan maximizar sus resultados y retención.