Bloque 1. ¿Ciencia en los datos? Flashcards
(42 cards)
¿Cuáles son los materiales de estudio del bloque 1?
- Los roles, ámbitos y nombres de la ciencia de datos de Marcal Mora.
- Fundamentos de data science de Julia Minguillon
- Organizaciones orientadas al dato de Josep Curto
Indica el índice del tema Roles, ámbitos y nombres de la ciencia de datos
- Origen y evolución de la ciencia de datos
- El rol del científico de datos
- Ámbitos de la ciencia de datos
- Conceptos de ciencia de datos
Indica el contenido del apartado 1. Origen y evolución de la ciencia de datos
- 1.1 Modelos estadísticos y minería de datos
- 1.2 Inteligencia de negocio
- 1.3 Internet y la web 2.0
- 1.4 Ciencia de datos
Indica el contenido del apartado 2. El rol del científico de datos
- 1 ¿Qué es un científico de datos?
- 2¿Qué hace un científico de datos?
- 3 La caja de herramientas del científico de datos.
Indica el contenido del apartado 3. Ámbitos de la ciencia de datos
- 1 Marketing
- 2 Finanzas
- 3 Salud
- 4 Educación
- 5 IoT
- 6 Seguridad
- 7 Otros
Indica el contenido del apartado 4. Conceptos de la ciencia de datos
- 1 Términos fundamentales
- 2 Campos de interés
- 3 Conceptos estadísticos
- 4 Procesos
- 5 Técnicas de aprendizaje automático
- 6 Software
- 7 Otros conceptos
Definición de Business Intelligence de Marcal Mora
Las técnicas, sistemas, tecnologías, prácticas, aplicaciones y metodologías que sirven para extraer valor de los datos que, a su vez, consigan que el negocio (o la organización) tome decisiones más informadas y que, por lo tanto, tengan un retorno positivo.
Indica la famosa cita de John Turkey en 1962 sobre la intersección entre la estadística y la computación
A medida que he visto evolucionar la estadística, he tenido motivos para reflexionar y dudar […] creo que he descubierto que mi interés principal es el análisis de datos.
¿Qué libro publicó Peter Nauer en 1974?
Concise Survey of Computer Methods, que es un compendio de procesamiento de datos en múltiples aplicaciones.
Definición de Peter Nauer de Ciencia de Datos
La ciencia de trabajar con datos, una vez establecidos, mientras la relación de los datos con lo que representan se deja a otros campos y ciencias
¿En qué año se fundó la Asociación Internacional para la Estadística Computacional (IASC)?
1977
¿Con qué objetivo se fundó la IASC?
Con el objetivo de enlazar las metodologías estadísticas tradicionales y la tecnología moderna que aportaban los ordenadores.
¿Qué explicaba Paul Tukey en 1977 en su libro Exploratory Data Analysis?
Destaca la importancia de aprovechar los datos para seleccionar las hipótesis en cualquier experimento, y hace también un llamamiento a combinar los enfoques exploratorios y confirmatorios en el análisis de datos para obtener mejores resultados.
¿Cómo se denominada despectivamente en los 70 a la minería de datos?
Dragado de datos o pesca de datos.
¿Cómo denominó Gregory Piatetsky-Shapiro la búsqueda de conocimiento en las bases de datos?
Knowledge discovery in Databases (KDD)
¿Como se llama la conferencia que organizada por primera vez en 1989 sobre KDD?
ACM SIGKDD Conference of Knowledge Discovery and Data Mining (KDD)
¿Cuáles son las principales diferencias según Fayad y otros entre la simple minería de datos y la obtención de información a partir de de base de datos?
La obtención de información a partir de base de datos implica pasos adicionales a la simple aplicación de una algoritmo, como la preparación de los datos, selección,
limpieza, incorporación de información otras fuentes e interpretación de los resultados de la minería de datos
¿Qué propuso Jeff Wu en 1997 en su discurso de inicio de curso en la Univesidad de Michigan?
Cambiar el nombre de estadística por ciencia de datos, y el de estadístico por científico de datos.
¿De quién es la frase que mejor refleja el paso al nuevo milenio en cuanto a los retos de la ciencia de datos?
Es de Jacob Zahavi en 1999, indica como principales retos la escalabilidad de los algoritmos en grandes conjuntos de datos, la necesidad de desarrollar algoritmos que puedan detectar relaciones no lineales e interacciones entre elementos, y la importancia de poder acceder a información en la web.
¿A quién se suele atribuir la popularización del término ciencia de datos?
A DJ Patil y Jeff Hammerbacher de Linkedin y Facebook
Resumen del punto 1.3 Internet y la web 2.0
A partir del año 2000 se produce la explosión de datos provocada por internet y las empresas se vuelcan en analizar esa información sobre la web y las interacciones de los usuarios, a finales de la década reaparecen las BBDD NoSQL.
¿En qué año se considera el nacimiento de la actual ciencia de datos?
Principios de los 2010
¿Cuáles son los principales factores que llevaron al auge de la ciencia de datos a principios de los 2010?
- La existencia de datos masivos.
- La aparición de arquitecturas de procesamiento distribuido como Hadoop y HDFS.
- El llamado ataque de las exponenciales
¿Qué es el ataque de los exponenciales?
Es la bajada exponencial de algunos parámetros críticos para el procesamiento masivo de información:
- Bajada del coste de almacenamiento
- Bajada del coste de CPU
- Aumento del ancho de banda
- Aumento de personas con acceso a internet