¿Cuál es el concepto de big data?
Big data es ante todo un conjunto de datos muy grande, que puede alcanzar TB (terabytes) o incluso ZB (diez billones de bytes). Los datos que contiene pueden ser estructurados, semiestructurados y no estructurados y provenir de diferentes fuentes de datos.
¿Qué son los datos estructurados? Para aquellos que han estado expuestos a bases de datos relacionales, esto debería resultarles familiar. Por cierto, es una tabla en una base de datos relacional donde cada fila tiene los mismos atributos. Por ejemplo, la siguiente tabla:
Cada fila de datos tiene los mismos atributos, que son datos estructurados.
Echemos un vistazo a los datos semiestructurados. Los datos en formato XML o JSON son nuestros datos semiestructurados comunes. Por ejemplo, los datos XML que se muestran a continuación:
(El orden y la cantidad de subetiquetas pueden no ser exactamente los mismos)
Entonces, ¿qué son los datos no estructurados? Este tipo de datos no tiene una estructura de datos completa predefinida. Es este tipo de datos con el que podemos entrar en contacto más en nuestro trabajo y vida diaria, como fotografías, imágenes, audio, video, documentos de oficina, etc.
Ahora que entendemos estos tres tipos de datos estructurales, echemos un vistazo a las fuentes de datos de big data. En resumen, existen aproximadamente cinco tipos de fuentes de datos.
Primero, las plataformas de redes sociales. Como los famosos Facebook, Twitter, YouTube e Instagram. Los medios son una de las fuentes más populares de big data porque proporcionan información valiosa sobre las preferencias de los consumidores y las tendencias cambiantes. Al mismo tiempo, debido a que los medios se autodiseminan y pueden cruzar barreras físicas y demográficas, son una manera para que las organizaciones obtengan información sobre sus audiencias objetivo, resuman patrones y conclusiones y mejoren la toma de decisiones.
La segunda es la plataforma en la nube. Plataformas en la nube pública, privada y de terceros. Hoy en día, cada vez más organizaciones están trasladando datos a la nube en lugar de a las fuentes de datos tradicionales. El almacenamiento en la nube admite datos estructurados y no estructurados y proporciona a las empresas información en tiempo real y bajo demanda. Las principales características de la computación en la nube son la flexibilidad y la escalabilidad. Debido a que los big data se pueden almacenar y acceder a ellos a través de redes y servidores en nubes públicas o privadas, la computación en la nube es una fuente de datos eficiente y rentable.
El tercero son los recursos de red. Las redes de dominio público constituyen big data generalizados y de fácil acceso, y tanto los individuos como las empresas pueden obtener datos de la web o "Internet". Además, los grandes sitios web de compras nacionales, Taobao, JD.com, Alibaba, etc., son lugares de recopilación de datos masivos de usuarios.
En cuarto lugar, fuente de datos de IoT (Internet de las cosas). El Internet de las cosas se está desarrollando rápidamente. Con el Internet de las cosas, podemos obtener datos no sólo de computadoras y teléfonos inteligentes, sino también de dispositivos médicos, procesos de vehículos, videojuegos, medidores, cámaras, electrodomésticos y más. Todas estas son fuentes de datos valiosas para big data.
En quinto lugar, fuente de datos de la base de datos. Las organizaciones actuales prefieren utilizar una combinación de bases de datos tradicionales y modernas para obtener big data relevantes. Estos datos son un recurso valioso para que las organizaciones impulsen un crecimiento empresarial rentable. Algunas bases de datos comunes incluyen MS Access, DB2, Oracle, MySQL y bases de datos para big data como Hbase y MongoDB.
Resumamos nuevamente, ¿qué tipo de datos son big data? En términos generales, big data tiene cuatro características, a menudo denominadas 4V en la industria, que incluyen gran capacidad, variedad, alta velocidad y alta precisión.