Empresas de todo el mundo en una amplia variedad de industrias han pasado por lo que la gente llama una transformación digital . Es decir, las empresas están adoptando procesos comerciales tradicionales como la contratación, el marketing, la fijación de precios y la estrategia, y utilizan tecnologías digitales para mejorarlos 10 veces.
La ciencia de datos se ha convertido en una parte integral de los tra n sformations. Con Data Science, las organizaciones ya no tienen que tomar sus decisiones importantes basadas en corazonadas, mejores conjeturas o pequeñas encuestas. En cambio, están analizando grandes cantidades de datos reales para basar sus decisiones en hechos reales basados en datos. Eso es realmente de lo que se trata la ciencia de datos: crear valor a través de los datos.
Esta tendencia de integrar datos en los procesos comerciales centrales ha crecido significativamente, con un aumento en el interés de más de cuatro veces en los últimos 5 años según Google Search Trends . Los datos brindan a las empresas una gran ventaja sobre sus competidores. Con más datos y mejores científicos de datos para usarlos, las empresas pueden adquirir información sobre el mercado que sus competidores ni siquiera saben que existe. Se convierte en un juego de datos o muere.
En el mundo digital en constante evolución de hoy, mantenerse por delante de la competencia requiere una innovación constante. Las patentes han pasado de moda, mientras que la metodología Agile y la captura de nuevas tendencias rápidamente están muy de moda.
Las organizaciones ya no pueden confiar en sus sólidos métodos de antaño. Si surge una nueva tendencia como la ciencia de datos, la inteligencia artificial o la cadena de bloques , es necesario anticiparla y adaptarla rápidamente.
Las siguientes son las 4 tendencias de ciencia de datos más populares para el año 2020. Estas son tendencias que han despertado un interés cada vez mayor este año y seguirán creciendo en 2020.
(1) Ciencia de datos automatizada
Incluso en la era digital actual, la ciencia de datos todavía requiere mucho trabajo manual. Almacenar datos, limpiar datos, visualizar y explorar datos y, finalmente, modelar datos para obtener algunos resultados reales. Ese trabajo manual solo pide automatización y, por lo tanto, ha sido el auge de la ciencia de datos automatizada y el aprendizaje automático .
Casi todos los pasos de la canalización de la ciencia de datos han estado o están en proceso de automatizarse.
La limpieza automática de datos ha sido muy investigado en los ultimos años. Limpieza de big data a menudo ocupa la mayor parte del costoso tiempo de un científico de datos. Tanto las startups como las grandes empresas como IBM ofrecen automatización y herramientas para la limpieza de datos.
Otra gran parte de la ciencia de datos conocida como ingeniería de características ha sufrido una interrupción significativa. Featuretools ofrece una solución para la ingeniería automática de funciones. Además de eso, las técnicas modernas de aprendizaje profundo , como las redes neuronales convolucionales y recurrentes, aprenden sus propias características sin la necesidad de un diseño manual de características.
Quizás la automatización más significativa está ocurriendo en el espacio del aprendizaje automático. Tanto Data Robot como H2O se han establecido en la industria al ofrecer plataformas de aprendizaje automático de extremo a extremo, lo que brinda a los científicos de datos un manejo muy fácil de la gestión de datos y la construcción de modelos. AutoML , un método para el diseño y la capacitación de modelos automáticos, también ha experimentado un auge durante 2019, ya que estos modelos automatizados superan el estado de la técnica. Google, en particular, está invirtiendo fuertemente en Cloud AutoML .
En general, las empresas están invirtiendo mucho en la creación y compra de herramientas y servicios para la ciencia de datos automatizada. Cualquier cosa para que el proceso sea más sencillo y económico. Al mismo tiempo, esta automatización también está dirigida a organizaciones más pequeñas y menos técnicas que pueden aprovechar estas herramientas y servicios para tener acceso a la ciencia de datos sin tener que crear su propio equipo.
(2) Privacidad y seguridad de los datos
La privacidad y la seguridad son siempre temas delicados en tecnología. Todas las empresas quieren moverse rápido e innovar, pero perder la confianza de sus clientes por cuestiones de privacidad o seguridad puede ser fatal. Por lo tanto, se ven obligados a convertirlo en una prioridad, al menos hasta el mínimo de no filtrar datos privados.
La privacidad y seguridad de los datos se ha convertido en un tema increíblemente candente durante el año pasado, ya que los problemas se magnifican por los enormes ataques públicos. Recientemente, el 22 de noviembre de 2019, se descubrió un servidor expuesto sin seguridad en Google Cloud . El servidor contenía la información personal de 1,2 mil millones de personas únicas, incluidos nombres, direcciones de correo electrónico, números de teléfono e información de perfil de LinkedIn y Facebook. Incluso el FBI vino a investigar. Es una de las exposiciones de datos más grandes de todos los tiempos.
¿Cómo llegaron los datos? ¿A quién le pertenece? ¿Quién es el responsable de la seguridad de esos datos? Estaba en un servidor de Google Cloud, que realmente cualquiera podría haber creado.
Ahora podemos estar seguros de que el mundo entero no eliminará sus cuentas de LinkedIn y Facebook después de leer las noticias, pero eso levanta algunas cejas. Los consumidores son cada vez más cuidadosos con las personas a las que dan su dirección de correo electrónico y su número de teléfono.
Una empresa que puede garantizar la privacidad y la seguridad de los datos de sus clientes encontrará que le resulta mucho más fácil convencer a los clientes de que les proporcionen más datos (al seguir utilizando sus productos y servicios). También asegura que, si su gobierno promulga alguna ley que requiera protocolos de seguridad para los datos de los clientes, ya estén bien preparados. Muchas empresas optan por el cumplimiento de SOC 2 para tener alguna prueba de la solidez de su seguridad.
Todo el proceso de Data Science se basa en datos, pero la mayor parte no es anónimo. En las manos equivocadas, esos datos podrían usarse para alimentar catástrofes globales y alterar la privacidad y el sustento de la gente común. Los datos no son solo números brutos, representan y describen personas reales y cosas reales.
A medida que veamos evolucionar la ciencia de datos, también veremos la transformación de los protocolos de privacidad y seguridad que rodean a los datos. Eso incluye procesos, leyes y diferentes métodos para establecer y mantener la seguridad, protección e integridad de los datos. No será una sorpresa que la ciberseguridad se convierta en la nueva palabra de moda del año.
(3) Ciencia de datos de gran tamaño en la nube
A lo largo de los años en que la ciencia de datos ha crecido de un nicho a su propio campo completo, los datos disponibles para el análisis también se han disparado en tamaño. Las organizaciones recopilan y almacenan más datos que nunca.
El volumen de datos que una empresa típica de Fortune 500 podría necesitar analizar ha superado con creces lo que puede manejar una computadora personal. Una PC decente podría tener algo así como 64 GB de RAM con una CPU de 8 núcleos y 4 TB de almacenamiento. Eso funciona bien para proyectos personales, pero no tan bien cuando trabaja para una empresa global, como un banco o un minorista, que tiene datos que cubren millones de clientes.
Ahí es donde entra en juego la computación en la nube. La computación en la nube ofrece a cualquier persona en cualquier lugar la posibilidad de acceder a una potencia de procesamiento prácticamente ilimitada. Los proveedores de nube como Amazon Web Services (AWS) ofrecen servidores con hasta 96 núcleos de CPU virtuales y hasta 768 GB de RAM. Estos servidores se pueden configurar en un grupo de autoescalado donde cientos de ellos se pueden iniciar o detener sin mucha demora: potencia de cómputo bajo demanda.
Más allá de la informática, las empresas de computación en la nube también ofrecen plataformas completas para el análisis de datos. Google Cloud ofrece una plataforma llamada BigQuery , un almacén de datos escalable y sin servidor que brinda a los científicos de datos la capacidad de almacenar y analizar petabytes de datos, todo en una sola plataforma. BigQuery también se puede conectar a otros servicios de GCP para ciencia de datos. Usar Cloud Dataflow para crear canalizaciones de transmisión de datos, Cloud DataProc para ejecutar Hadoop o Apache Spark en los datos, o usar BigQuery ML para crear modelos de aprendizaje automático en los enormes conjuntos de datos.
Todo, desde los datos hasta la potencia de procesamiento, está creciendo. A medida que la ciencia de datos madura, es posible que eventualmente la ciencia de datos se haga únicamente en la nube debido al gran volumen de datos.
(4) Procesamiento del lenguaje natural
El procesamiento del lenguaje natural (NLP) se ha abierto camino firmemente en la ciencia de datos después de grandes avances en la investigación del aprendizaje profundo.
La ciencia de datos comenzó como un análisis de números puramente sin procesar, ya que esta era la forma más fácil de manejarlos y recopilarlos en hojas de cálculo. Si necesita procesar cualquier tipo de texto, generalmente debe categorizarse o convertirse de alguna manera en números.
Sin embargo, es bastante difícil comprimir un párrafo de texto en un solo número. El lenguaje natural y el texto contienen tantos datos e información ricos que solíamos perdernos porque no teníamos la capacidad de representar esa información como números.
Los enormes avances en PNL a través del aprendizaje profundo están impulsando la integración completa de PNL en nuestro análisis de datos habitual. Las redes neuronales ahora pueden extraer información de grandes volúmenes de texto con increíble rapidez. Pueden clasificar texto en diferentes categorías, determinar la opinión sobre el texto y realizar análisis sobre la similitud de los datos del texto. Al final, toda esa información se puede almacenar en un solo vector de características de números.
Como resultado, la PNL se convierte en una herramienta poderosa en la ciencia de datos. Grandes almacenes de datos de texto, no solo respuestas de una palabra sino párrafos completos, se pueden transformar en datos numéricos para análisis estándar. Ahora podemos explorar conjuntos de datos que son mucho más complejos.
Por ejemplo, imagine un sitio web de noticias que quiera ver qué temas están ganando más visitas. Sin la PNL avanzada, todo lo que uno podría utilizar serían las palabras clave, o tal vez solo una corazonada de por qué un título en particular funcionó bien frente a otro. Con la PNL de hoy, podríamos cuantificar el texto en el sitio web, comparando párrafos completos de texto o incluso páginas web para obtener información mucho más completa.
La ciencia de datos en su conjunto está creciendo. A medida que sus capacidades crecen, se está integrando en todas las industrias, tanto técnicas como no técnicas, y en todas las empresas, tanto pequeñas como grandes.
A medida que el campo evoluciona a largo plazo, no sería una sorpresa verlo democratizado a gran escala, llegando a estar disponible para muchas más personas como una herramienta en nuestra caja de herramientas de software.