Big Data y Data Science: ¿Cuál es la diferencia?

Consideramos, pues, que el objetivo de este análisis documental se ha cumplido, en tanto era proporcionar una selección de textos que diera cuenta del análisis de grandes cúmulos de datos en relación con los derechos humanos en general y no solo respecto a la temática de la protección de datos y la privacidad. La meta de la búsqueda de fuentes documentales para dar cuenta de la literatura que existe sobre el tema se completó al identificar el criterio del análisis de grandes cúmulos de datos, también conocido como big data analytics, y el concepto de los derechos humanos relacionado al big data. Metcalf y Crawford, por su parte, resaltan los riesgos en el uso https://www.adiario.mx/tecnologia/el-bootcamp-de-tripleten-unico-por-su-metodo-de-ensenanza-y-plan-de-carrera/ del big data al mencionar que la serie de datos que se presentan en los resultados de investigaciones científicas, sean estos parciales o finales, parecería tener un mínimo de riesgo al ser compartidos. En ese sentido, sostienen que no se contempla el riesgo para los derechos humanos, situación que explican como resultado de una mala interpretación, ya que la publicidad de estos datos que se ponen a disposición de manera abierta puede derivar en muchas ocasiones en que se les dé un uso secundario muy distinto al de la investigación; y que, al combinarlos con otra base de datos, eso puede colocar en situación comprometida a los dueños de dicha información.

Con el uso de tecnologías disruptivas como la inteligencia artificial y el Big Data se espera estar mejor preparados para una próxima pandemia, incluso prevenirla. Tecnologías 4.0 como el internet de las cosas, la computación inteligente y la computación en la nube aportarán lo suyo en cuanto al monitoreo permanente de las ciudades en busca de anomalías biológicas y químicas que impliquen algún riesgo para la sociedad o el medio ambiente. Este tipo de desarrollos pueden ser personalizados, pues al aplicar algoritmos de aprendizaje predictivo se minimizan los riesgos al formular tratamientos que pueden establecer si un paciente los tolera o no. Con base en lo anterior, el estudio del COVID-19 empleando Big Data puede valerse de la analítica retrospectiva y descriptiva avanzadas (Mohamed et al., 2019) expresas en la inteligencia de negocios (Business intelligence) (Chahal, Jyoti y Wirtz, 2019); ya que esta permite focalizar el estudio mediante indicadores y tendencias en el tiempo, lo que incluye predicciones a futuro. Bajo estos criterios, entra a formar parte la ciencia de datos empleando técnicas estadísticas y matemáticas caracterizadas en las variables de estudio que permiten ampliar las técnicas y modelos representados como clusters (Mohebi et al., 2016) a través de patrones o correlaciones de datos, que a la vez pueden ser integrados con la IA para mejorar los resultados. El Big Data se entiende como el conjunto de procedimientos computacionales aplicados para analizar gran cantidad de datos con el fin de extraer información que presente ciertos patrones, relaciones y asociaciones relevantes para una organización.

Información

La IA en conjunto con el Big Data han demostrado ser herramientas fundamentales para ayudar al sector salud a detectar y controlar este virus con cierto margen de éxito, permitiendo procesar grandes cantidades de datos estructurados y no estructurados con alto grado de complejidad, que al ser combinados con algoritmos propios de la IA permiten realizar predicciones basado en patrones históricos y bucles de retroalimentación, entre otros. Lo importante de esta sinergia, es que ayuda de manera más eficaz a la atención médica, incluso una vez terminada la crisis. También, con el aprendizaje que se está gestando permanentemente ya hay desarrollos de algoritmos predictivos que permiten identificar poblaciones que son o serán más propensas a ser infectadas por la COVID-19, incluso determinar en términos probabilísticos quienes podrán padecer complicaciones graves con base en parámetros como edad, género, historial clínico, masa corporal, entre otros. Con este tipo de desarrollo, estos algoritmos pueden extenderse a ser aplicados a otro tipo de enfermedades, contribuyendo de esta manera a mejorar el servicio sanitario. El reconocimiento de patrones (Pattern Recognition) es una técnica que se aplica principalmente en procesos de ingeniería, computación y matemáticas que tiene como objetivo extraer información, a partir de un cúmulo de datos, que brinde la posibilidad de establecer propiedades o relaciones entre estos datos.

Es necesario optimizar los recursos de red cuando se trabaja con Map Reduce, por ello es bueno leer los datos desde discos locales y reducir la cantidad de datos enviados a través de la red. Las consecuencias del procesamiento de datos ya no se limitan a los conocidos problemas relacionados con la privacidad, sino que abarcan los prejuicios contra grupos de individuos y una gama más amplia de derechos fundamentales. La tensión entre el uso más extendido del Big Data y la Inteligencia Artificial por un lado, y la creciente demanda de uso de datos ético y socialmente responsable por el otro, revela la falta de un marco regulatorio que pueda abordar los problemas sociales planteados por estas tecnologías (Mantelero, 2018, p. 771). El concepto de derechos humanos es uno que se acuña posteriormente a la Segunda Guerra Mundial, pues los individuos se vuelven sujetos de derecho internacional tras el juicio de diversos personajes en el Tribunal de Núremberg.

Diferencias entre big data y data science

Si se pierde de vista esto, se crea una mala interpretación potencial o, peor aún, una manipulación que puede fallar en proteger a las poblaciones vulnerables (Sarfaty, 2018, p. 849). Frente a la evolución de los datos, la calidad de los mismos es fundamental ante la rapidez con que se generan, el procesamiento de la información, el incremento en la capacidad de almacenamiento y la posibilidad de realizar análisis más complejos. Desde el 2007, cuando comenzó a popularizarse
la web 2.0, se ha ido produciendo la transformación, si bien vertiginosamente pero
de forma paulatina y aún, hoy en día, se sigue desarrollando.

  • La pediatría no está ajena a esta realidad, pues cada vez se emplean tecnologías más avanzadas que están generando grandes volúmenes de datos, los cuales impactarán en la forma en que se conduzcan las in vestigaciones en el futuro inmediato.
  • Es imprescindible que sepan que tienen derecho a que sus datos sean confidenciales y a decidir si se utilizan para análisis o publicación en otros entornos”, alerta la investigadora.
  • En pocas palabras, señala Walter Sosa “big data le permite a la estadística liberarse de su mero rol de estimar los modelos que otra disciplina le propone, y pasa a asumir la tarea de construirlos, evaluarlos y rediseñarlos, a través de la conjunción de algoritmos y datos masivos” (p. 40).
  • Map Reduce [8] es un modelo de programación asociado a las implementaciones que requieren procesamiento y generación de grandes bases de datos.

El crecimiento en el uso de Internet y la aparición de las redes sociales ha provocado que en
diferentes casos la información llegue antes al ámbito del periodismo ciudadano que
a los grandes medios de comunicación. Marcos Recio
(2014) plantea una relegación de la primicia porque, cada vez con más
frecuencia, la noticia es captada antes por el lector a través de redes sociales tan
populares como Twitter y Facebook. Incluso esta última genera, a través de FB
Newswire, su propio archivo de informaciones al que recurren frecuentemente los
medios de comunicación, lo que ha convertido a esta red social en una fuente
primaria de noticias (Mitchell, 2014). Independientemente de la denominación, una sociedad en la que aumenta la información y en la que crece la necesidad de transparencia se postula como el marco ideal para que los periodistas utilicen y expliquen los datos, aunque sean complejos, por técnicas como la visualización. En el momento actual, en muchos países se está expandiendo el término periodismo de datos, que sugiere una forma especializada de recogida y análisis de datos en la línea del trabajo realizado por analistas o investigadores, en donde el componente informático es una parte central de la elaboración, en ocasiones automatizada, de la producción de noticias.

Roberto Alejandro López-Novelo, Dr., Universidad Anáhuac México

A ello se añade un cambio en las
rutinas profesionales que desembocan, según Paulussen y Harder (2014), en la navegación diaria de los periodistas
por las redes sociales en la búsqueda de informaciones o para no quedarse rezagados
en la difusión de los hechos. De hecho, un estudio de Pew Research (2012) concluye que el 39 % de los videos sobre
acontecimientos inesperados que fueron difundidos bootcamp de programación por medios de comunicación habían
sido grabados por los ciudadanos. Por un lado, al hablar de datos en abierto se conectaría con todas la opciones que existen para la recopilación, tratamiento, reutilización y difusión de los datos sin restricciones. En efecto, esta idea estaría relacionada con todos aquellos que apoyan el libre acceso al conocimiento, a los programas informáticos, etc.

  • Así se dio el comienzo de una sociedad hiperconectada que genera datos a cada segundo, generando la materia prima de los análisis de grandes volúmenes de datos que utilizan desde el reconocimiento facial, la geolocalización y los estados de ánimo hasta el historial de sitos frecuentados, los gustos gastronómicos y el nivel de gastos, entre muchos otros indicadores.
  • Este tipo de desarrollos pueden ser personalizados, pues al aplicar algoritmos de aprendizaje predictivo se minimizan los riesgos al formular tratamientos que pueden establecer si un paciente los tolera o no.
  • En este contexto,
    Peset, Ferrer-Sapena y Subirats-Coll
    (2011) plantean el open data como una eficaz vía para
    detectar duplicados documentales, eliminar las posibles ambigüedades terminológicas
    y suministrar la información y datos a usuarios de otras especialidades
    profesionales, como es el caso particular de los periodistas.
  • Estos pueden regis trar información de posición geográfica, variaciones atmosféricas, cambio de temperatura, velocidad de movimiento, entre muchos otros12.
  • Partiendo de la necesidad de almacenamiento y análisis de los datos se desarrolla el ecosistema Hadoop, los sistemas de archivos distribuidos, el desarrollo de aplicaciones con MapReduce, el lenguaje de consultas Hive y otras herramientas como HBase, ZooKeeper y Sqoop.