Estos productos de código abierto proporcionan una cadena de herramientas completa para muchos aspectos del trabajo con big data. Estos le permiten ganar experiencia antes de comprometerse con sus contrapartes comerciales.
Estos productos de código abierto proporcionan una cadena de herramientas completa para muchos aspectos del trabajo con big data. Estos le permiten ganar experiencia antes de comprometerse con sus contrapartes comerciales.
La mayoría de los ingenieros han escuchado el término “big data”. Para los propósitos de esta columna, esto puede interpretarse como “un conjunto de datos muy grande que puede ser analizado por una computadora para revelar patrones, tendencias y asociaciones, especialmente aquellas relacionadas con el comportamiento y la conducta humana”. Interacción. La mayoría de los ingenieros no creen que los grandes datos sean para ellos. Siento disentir.
Una de mis áreas de interés actuales es el Internet de las Cosas (IoT). La mayoría de los ingenieros no creen que exista una superposición entre big data e IoT. De nuevo, disiento.
Creo que mi punto de vista quedó bellamente expresado en el artículo de Tamara Dal. Big Data e Internet de las cosas: ¿Dos caras de la moneda? Como dijo Tamara en este artículo:
- Big data se trata de datos simples y directos. Sí, puede agregar todo tipo de adjetivos cuando habla de “grandes datos”, pero al final del día, son todos datos.
- IoT se trata de datos, dispositivos y conexiones. Los datos, grandes y pequeños, están a la vanguardia y en el centro del mundo de IoT de los dispositivos conectados.
Como mundo, estamos generando y procesando/procesando una cantidad cada vez mayor de datos. Entonces, como ingeniero (también conocido como “maestro del universo”), debe estar al tanto de lo que sucede en el espacio de big data.
Por supuesto, las herramientas comerciales que son fáciles de usar y dignas de brindar soporte y consultoría no tienen fin, pero estas herramientas (y los servicios asociados) tienen un precio. En esta columna, exploraremos las herramientas de código abierto que le permiten ingresar al mundo de los grandes datos sin arruinarse.
Las siguientes ofertas de código abierto proporcionan cadenas de herramientas casi completas para varios aspectos del trabajo con big data. Estos se pueden experimentar antes de comprometerse con sus contrapartes comerciales:
- Aprenda sobre el procesamiento de datos distribuidos usando HadoopEsto es casi estándar para manejar grandes conjuntos de datos en sistemas distribuidos.
- Obtenga información sobre el procesamiento de flujos de datos mediante . Chispa – chispear de nuevo Flinky graduación haz.
- Más información sobre el aprendizaje automático con Google TensorFlow.
- Aprenda a integrar cadenas de herramientas de big data con Estudio abierto Talend.
- Obtenga más información sobre los lagos de datos mediante El Cairo.
Aparte, si no está familiarizado con Apache Spark, Flink y Beam, aquí hay una descripción general de 10,000 pies:
Spark es como un complemento de transmisión de Hadoop. (Hadoop se ejecuta desde archivos de disco y se reorganiza entre las etapas de procesamiento. Spark realiza el procesamiento de datos en la memoria y adopta un enfoque diferente que no requiere el mismo tipo de reorganización entre las etapas de procesamiento). Flink es una especie de Spark y Beam de última generación. Un marco de canalización que permite la ejecución en motores de transmisión como Flink y Spark.
Espero que esto aclare todo. Por último, pero no menos importante, además de la nube, puede esperar escuchar mucho sobre fog (fog computing o fog networking, también conocido como fog) y lagos de datos en un futuro no muy lejano. .
Hay mucho por aprender. Tengo muy poco tiempo para aprenderlo todo. Bueno, como solía decir mi querido abuelo: “Es una gran vida si no flaqueas”. ¿Y tú?, ¿has comenzado a jugar con big data, planeas comenzar a jugar con big data, o eres de la opinión de que big data no juega ningún papel en tu futuro?