Metricarts

Columnas

Big Data (2)
Publicado por admin_metricarts
el Miércoles 3 de Abril de 2013
2 comentarios

Este post es el segundo sobre Big Data, desde una perspectiva más técnica.

El término Big Data refiere al conjuntos de datos enormes y complejos, muchas veces no estructurados -en contraposición a los datos estructurados gestionados por un motor de bases de datos relacional- que imponen desafíos a los sistemas tradicionales de bases de datos a la hora de entregar resultados de procesamiento en tiempos razonables. ¿qué quiero decir con “razonables”? Básicamente, que los resultados del procesamiento deben estar disponibles antes de que pierdan valor o utilidad. Pensemos en Twitter y en Facebook, o en Google, sin ir más lejos. Manejan una cantidad enorme de datos y los procesan rápidamente para entregar información valiosa en tiempos razonables. Twitter calcula los trending topics a partir de analizar más de 500 millones de tweets diarios, y también puede filtrar trending topics de acuerdo al usuario al que se los muestra. Facebook procesa más de 300 millones de fotos nuevas diariamente y 2700 millones de “likes”, entre otros datos, “ingiriendo” más de 500 TB de datos.

Naturalmente, la tecnología de procesamiento de datos ha tenido que ponerse a la par de las crecientes cantidades de datos generados diariamente. Una respuesta tecnológica para esto es el procesamiento distribuido de datos. Una de las implementaciones más famosas es Hadoop, de código abierto y actualmente existente como proyecto en Apache (http://hadoop.apache.org). Hadoop es una plataforma para el procesamiento de grandes conjuntos de datos mediante programación relativamente simple. Un cluster de computadoras puede tener desde unos pocos nodos hasta miles. Hadoop proporciona la funcionalidad necesaria para implementar un modelo de programación llamado Map Reduce, que permite dividir un problema en partes, procesar en paralelo esas partes y finalmente generar un resultado total a partir de los resultados parciales. Varias empresas utilizan Hadoop como plataforma para realizar trabajos Map Reduce (http://wiki.apache.org/hadoop/PoweredBy). Entre ellas se cuentan grandes como Facebook, EBay, IBM y Mercado Libre. Google, en particular, tiene su propia implementación de Map Reduce y de la infraestructura que soporta la operación distribuida.

Es interesante que las tecnologías que apoyan el Big Data también han evolucionado para proveer funcionalidades analíticas. Es así como Facebook utiliza un sistema de Data Warehouse llamado Hive, que opera sobre la plataforma Hadoop. Hive permite realizar consultas similares a las que se harían en SQL sobre un DW tradicional. Una interesante introducción a lo que Facebook hace con Hive se puede encontrar enhttp://www.facebook.com/note.php?note_id=89508453919.

Internamente en Metric Arts miramos con mucho interés la tendencia actual Big Data.

 Artículo escrito por Marco Ramírez. Marco es Jefe de Proyectos, y entre sus áreas de experiencia se encuentran Java, SQL y OLAP.

2 comentarios sobre “Big Data (2)

  1. pcofre dice:

    Muy interesante. Llama la atención que en la cíclica tendencia por preferir tecnologías de computación centralizada y distribuida, Hadoop representa un nuevo apogeo de la computación distribuida, haciendo un buen calce con este nuevo problema de analizar estas enormes y complejas bases de datos reunidas bajo el nombre de Big Data.

  2. Jorge dice:

    Gracias por el aporte. Sin ser un hombre de TI, me seduce la idea de poder gestionar eficientemente grandes volúmenes de información, ojalá al servicio de la aldea global

Deja un comentario

Su correo nunca será publicado o compartido. Los campos obligatorios están marcados *

    *

Dos objetivos: Aumentar Valor y Reducir Riesgo

Related posts

No hay artículos relacionados

Customers

Facebook Auto Publish Powered By : XYZScripts.com