Datos-Ciencia-Entrevista-Recursos
Actualización: A partir de una amplia experiencia en entrevistas durante los últimos años, recientemente decidí lanzar un canal dedicado para ayudar a las personas a sobresalir en ciencia de datos. Mi objetivo es crear un recurso integral para cualquiera que busque revisar los conceptos básicos antes de una próxima entrevista o dominar las habilidades y el conocimiento profundo necesarios para tener éxito en las entrevistas de ciencia de datos y aplicar la ciencia de datos en la práctica. Este canal tiene como objetivo proporcionar una comprensión clara de diversas técnicas utilizadas en el día a día, cubriendo una amplia gama de temas de aprendizaje automático. No dudes en explorarlo aquí:
En primer lugar, gracias por visitar este repositorio, felicitaciones por tomar una excelente elección profesional. Mi objetivo es ayudarlo a conseguir el increíble trabajo en ciencia de datos con el que ha estado soñando, compartiendo mi experiencia y realizando numerosas entrevistas en ambas grandes empresas basadas en productos. y startups de rápido crecimiento, espero que les resulte útil.
Con un aumento en la demanda de tantos científicos de datos, es realmente difícil ser evaluado y aceptado para una entrevista. En este repositorio, incluyo todo, desde ser evaluado con éxito y realizar esa entrevista hasta conseguir ese puesto increíble; asegúrese de lograrlo con los siguientes recursos.
Cada recurso que enumero aquí es verificado personalmente por mí y la mayoría de ellos los he usado personalmente, lo que me ha ayudado mucho.
Advertencia: la ciencia de datos/aprendizaje automático tiene un dominio muy amplio y hay muchas cosas que aprender. Esta no es de ninguna manera una lista exhaustiva y es solo para ayudarlo si tiene dificultades para encontrar buenos recursos para comenzar su preparación. Sin embargo, trato de cubrir y actualizar esto con frecuencia y mi objetivo es cubrir y unificar todo en un recurso que puedas usar para mejorar esas entrevistas.
Por favor, deja una estrella si aprecias el esfuerzo.
Nota: Para contribuciones, consulte Contribution.md
¿Cómo conseguir una entrevista?
En primer lugar, desarrolle las habilidades necesarias y sea sólido con los fundamentos ; estos son algunos de los horizontes con los que debería sentirse extremadamente cómodo:
- Comprensión empresarial (esto es extremadamente crítico en todos los niveles de antigüedad, pero específicamente para personas con más de 3 años de experiencia)
- SQL y bases de datos (muy crucial)
- Habilidades de programación (preferiblemente en Python, si conoce Scala, puntos extra para algunas funciones específicas)
- Matemáticas (probabilidad, estadística, álgebra lineal y cálculo) - https://medium.com/@rbhatia46/essential-probability-statistics-concepts-before-data-science-bb787b7a5aef
- Aprendizaje automático (esto incluye aprendizaje profundo) y construcción de modelos
- Estructuras de datos y algoritmos (obligatorios para las principales empresas basadas en productos como FAANG)
- Comprensión del dominio (opcional para la mayoría de las vacantes, aunque muy importante para algunas funciones según los requisitos de la empresa)
- Revisión de literatura (imprescindible para roles basados en investigación): ser capaz de leer y comprender un nuevo artículo de investigación es una de las habilidades más esenciales y exigentes que se necesitan en la industria hoy en día, a medida que la cultura de investigación, desarrollo y la innovación crecen en la mayoría de las buenas organizaciones. .
- Habilidades de comunicación: poder explicar el análisis y los resultados a las partes interesadas y a los ejecutivos de la empresa se está convirtiendo en una habilidad realmente importante para los científicos de datos en estos días.
- Algunos conocimientos de ingeniería (no obligatorios, pero es bueno tenerlos): ser capaz de desarrollar una API RESTful, escribir código limpio y elegante y programación orientada a objetos son algunas de las cosas en las que puede concentrarse para obtener algunos puntos adicionales.
- Conocimiento de big data (no es obligatorio para la mayoría de las vacantes, pero es bueno tenerlo): Spark, Hive, Hadoop, Sqoop.
Construye una marca personal
- Desarrolle un buen GitHub/portafolio de casos de uso que haya resuelto, esfuércese siempre por resolver casos de uso de un extremo a otro, que demuestren todo el ciclo de vida de la ciencia de datos, desde la comprensión del negocio hasta la implementación del modelo.
- Escribe blogs, inicia un canal de YouTube si te gusta enseñar, escribe un libro.
- Trabaje en un currículum/CV digital, fácil de abrir, fácil de leer, limpio, conciso y fácilmente personalizable, incluya siempre sus enlaces de demostración y el código fuente de cada caso de uso que haya resuelto.
- Participe en competencias de Kaggle, cree un buen perfil de Kaggle y envíelo a empleadores potenciales para aumentar las posibilidades de obtener una llamada para una entrevista muy rápido.
Desarrolla buenas conexiones a través de LinkedIn, asistiendo a conferencias y haciendo todo lo que puedas; es muy importante conseguir referencias y comenzar con el proceso de entrevista a través de buenas conexiones. Conectarse regularmente con científicos de datos que trabajan en las principales organizaciones basadas en productos, empresas emergentes de rápido crecimiento, construir una red, de manera lenta y constante, es muy importante.
Algunos consejos sobre currículum vitae/CV:
Describe roles pasados y un impacto que tuviste de manera cuantificable , sé conciso y repito, cuantifica el impacto, en lugar de hablar con hechos que no tienen relevancia. Según Google Recruiters, utilice la fórmula XYZ: Accomplished [X] as measured by [Y], by doing [Z]
Sea breve, idealmente no más de 2 páginas, como ya sabrá, un reclutador promedio escanea su currículum solo durante 6 segundos y toma una decisión basada en eso.
Si es nuevo y no tiene experiencia, intente resolver casos de uso de un extremo a otro y menciónelos en su CV, preferiblemente con el enlace de demostración (lo facilita al reclutador) y el enlace al código fuente en GitHub.
Evite demasiada jerga técnica y, por supuesto, no mencione nada de lo que no esté seguro, ya que esto podría convertirse en un obstáculo importante durante su entrevista.
Algunos enlaces útiles:
- Asesoramiento en la construcción de Proyectos de Portafolio de Datos
- Cómo escribir un excelente currículum de ingeniería de software
- Obtenga su currículum de ciencia de datos más allá del ATS
- Cómo escribir un currículum de desarrollador que los gerentes de contratación realmente lean
Si desea revisar rápidamente sus conceptos básicos de matemáticas, siga esto: https://media-exp2.licdn.com/dms/document/C4D1FAQFzFmR919-Erw/feedshare-document-pdf-an alyzed/0/1655384106479?e=1656547200&v=beta&t=9bm4OUyWfM1dQR8LWXsLrGDqYz_Yr_e7TJxHXLXe36I
Si desea revisar rápidamente sus conceptos básicos de estadísticas y aprendizaje automático, siga esto: https://media-exp2.licdn.com/dms/document/C4D1FAQFLvzVgVxYAAA/feedshare-document-pdf-analyzed/0/1656265480370?e=1657152000&v=beta&t=RD90ZEx3x2VLUGSthO-1uYKadzwTRixKRg3s8j2nvOc
Probabilidad, Estadística y Álgebra Lineal
- Comprender los conceptos básicos de la estadística descriptiva (realmente importante para una entrevista)
- 40 preguntas sobre probabilidad para una entrevista de ciencia de datos
- 40 problemas y respuestas de entrevistas estadísticas para científicos de datos
- Probabilidad y Estadística en el contexto del Aprendizaje Profundo
- ¿Probabilidad versus probabilidad?
- Métodos Bootstrap: la navaja suiza de cualquier científico de datos
- Intervalos de confianza explicados de forma sencilla para los científicos de datos
- El valor p explicado de forma sencilla para los científicos de datos
- PDF no es una probabilidad
- 5 algoritmos de muestreo que todo científico de datos debería conocer
- Las 10 técnicas estadísticas que los científicos de datos deben dominar
- ¿Curso intensivo en álgebra lineal aplicada?
SQL y adquisición de datos
Este es probablemente el punto de entrada de su proyecto de ciencia de datos, SQL es una de las habilidades más importantes para cualquier científico de datos.
- 5 problemas comunes de las entrevistas SQL para científicos de datos
- 46 preguntas para poner a prueba a un científico de datos en SQL
- 30 preguntas de entrevista SQL seleccionadas para FAANG por un ex científico de datos de Facebook
- Preguntas de la entrevista SQL
- Cómo triunfar en las entrevistas sobre ciencia de datos - SQL
- 3 preguntas que debes conocer sobre SQL para aprobar tu entrevista sobre ciencia de datos
- 10 consultas SQL frecuentes en entrevistas
- Preguntas de la entrevista sobre ciencia de datos técnicos: SQL y codificación
- Cómo optimizar consultas SQL - Datacamp
- Diez conceptos de SQL que debe conocer para entrevistas sobre ciencia de datos
Preparación y visualización de datos
- 5 algoritmos de selección de funciones que todo científico de datos debería conocer
- Seis formas diferentes de compensar los valores faltantes en un conjunto de datos
- Una breve descripción de las técnicas de detección de valores atípicos
- Limpieza y preparación de datos con Python para ciencia de datos: mejores prácticas y paquetes útiles
- Cuándo utilizar qué gráfico para la visualización
- Formas de detectar y eliminar valores atípicos
- Cómo afrontar los desequilibrios de clases en el aprendizaje automático
- Formas más inteligentes de codificar datos categóricos
- Hoja de trucos de Numpy y Pandas
- Tres métodos para lidiar con valores atípicos
- Técnicas de selección de funciones
- Por qué, cómo y cuándo escalar sus funciones
- Todo lo que necesitas saber sobre los diagramas de dispersión
- ¿Cómo seleccionar funciones para el aprendizaje automático?
- ¿Diez formas de seleccionar funciones?
Algoritmos clásicos de aprendizaje automático
- Todos los algoritmos de aprendizaje explicados en 14 minutos
1. Regresión logística
- Todo sobre la Regresión Logística en un artículo
- Entendiendo la regresión logística paso a paso
- Regresión logística: explicación breve y clara: ¿9 minutos?
- ¿Regresión lineal versus regresión logística?
- 30 preguntas para evaluar a un científico de datos en regresión logística
- Regresión logística: ¿comprende todo (teoría + matemáticas + codificación) en 1 vídeo?
- ¿Lasso, Ridge y Regresión Logística, todo en un solo vídeo?
2. Regresión lineal
- 30 preguntas para evaluar a un científico de datos en regresión lineal
- Regresión lineal: ¿comprende todo (teoría + matemáticas + codificación) en 1 video?
- 5 tipos de regresión y sus propiedades
- Regresión de crestas: ¿claramente explicada?
- Regresión de lazo: ¿claramente explicada?
3. Algoritmos basados en árboles/conjuntos
- 30 preguntas para poner a prueba a un científico de datos en modelos basados en árboles
- Índice de Gini v/s Entropía de la información
- Árbol de decisión frente a bosque aleatorio: ¿qué algoritmo debería utilizar?
- ¿Por qué Random Forest no funciona bien para Time-Series?
- Guía completa de modelos de conjunto
- La matemática simple detrás de 3 criterios de división del árbol de decisión
4. K-vecinos-más cercanos
- Preguntas fundamentales de la entrevista sobre KNN: una actualización rápida
- 30 preguntas para evaluar a un científico de datos en KNN
- Pros y contras de KNN
- Algoritmo KNN: ¿comprende todo (teoría + matemáticas + codificación) en 1 video?
5. Máquinas de vectores de soporte
- Todo sobre SVM: matemáticas, terminología, intuición, kernels en un artículo
- 25 preguntas para evaluar a un científico de datos en SVM
6. Bayes ingenuo
- 12 consejos para aprovechar al máximo Naive Bayes
- Naive Bayes: ¿comprende todo (teoría + matemáticas + codificación) en 1 video?
- 6 sencillos pasos para aprender Naive Bayes
Serie temporal
- 40 preguntas para evaluar a un científico de datos en series temporales
- 11 métodos clásicos de pronóstico de series temporales
- ¿Preguntas de la entrevista sobre ARIMA?
Aprendizaje no supervisado
- Lo que se debe y no se debe hacer en PCA (análisis de componentes principales)
- Una introducción a t-SNE: DataCamp
- Reducir dimensionalmente Exprimir lo bueno
- Reducción de dimensionalidad para principiantes: Parte 1 - Intuición
- Explicación detallada del algoritmo DBSCAN
Sistemas de recomendación
- Sistemas de recomendación en pocas palabras
Aprendizaje profundo
- ¿Por qué la regularización reduce el sobreajuste en las redes neuronales profundas?
- Pros y contras de las redes neuronales
- Cuándo no utilizar redes neuronales
- 40 preguntas para evaluar a un científico de datos sobre aprendizaje profundo
- 21 preguntas populares de la entrevista sobre aprendizaje profundo
- Preguntas de la entrevista sobre aprendizaje profundo: ¿Edurek?
- Funciones de activación en una red neuronal: explicadas
- Degradado que desaparece y explota: ¿explicado claramente?
- Sesgo y variación: ¿explicados muy claramente?
- ¿Por qué usar ReLU en lugar de Sigmoide?
- 25 preguntas de entrevistas sobre aprendizaje profundo para poner a prueba tus conocimientos
- Diez mejores prácticas de aprendizaje profundo a tener en cuenta en 2020
GenAI y LLM
- ¿LoRA explicado?
- RAG v/s Ajuste fino v/s ¿Ingeniería rápida?
- Codificadores cruzados frente a codificadores bi: una inmersión profunda en los métodos de codificación de texto
- trapo 101
- ¿IA generativa en pocas palabras?
- ¿Explicación detallada de la teoría BERT en un video?
- ¿Explicación detallada de la teoría de los transformadores en un video?
- Las matemáticas detrás de la atención: ¿claves, consultas y matrices de valores?
Diseño de sistemas de aprendizaje automático
- Cómo responder cualquier pregunta de la entrevista sobre diseño de sistemas de aprendizaje automático
Interpretabilidad del aprendizaje automático
- Cuatro preguntas para descifrar el mundo de los modelos de aprendizaje automático
- Explicación del aprendizaje automático: curso intensivo de Kaggle
- ¿Los valores SHAP se explican de forma sencilla?
Estudios de caso
Los estudios de caso son extremadamente importantes para las entrevistas, a continuación se muestran algunos recursos para practicar, piense primero antes de mirar las soluciones.
- El amanecer de los agregadores de taxis
- Optimización de los precios de los productos para un proveedor en línea
- Consejos para una entrevista de estudio de caso
- Predicción de precio Mercari
- Canalización de clasificación de texto multiclase de un extremo a otro
- Canalización de clasificación de imágenes multiclase de un extremo a otro
- Previsión a gran escala para más de 1000 productos: ¿Nagarro?
- Agrupación y clasificación en el comercio electrónico
- El ABC de aprender a clasificar
- Estudio de caso de ciencia de datos: optimización de la colocación de productos en el comercio minorista
PNL
- 30 preguntas para evaluar a un científico de datos en PNL
- Las 11 preguntas más frecuentes de las entrevistas sobre PNL para principiantes
- Cómo resolver el 90% de los problemas de PNL
- Preguntas para los roles de PNL en las empresas
- ¿Métodos basados en vectores para búsqueda de similitudes (TF-IDF, BM25, SBERT)?
- Comprender BERT en detalle: una de las mejores listas de reproducción para comprender los fundamentos y el funcionamiento interno de BERT, ¿un gran agradecimiento a Chris McCormick?
- ¿Incrustaciones de Word, CBoW y Skipgram?
- CBoW v/s Skipgram: ¿Pregunta de la entrevista sobre ciencia de datos?
Entrevistas sobre ciencia de datos en FAANG y empresas similares
- Problemas de práctica de la entrevista de científicos de datos de Amazon
- Preguntas y respuestas de la entrevista sobre ciencia de datos de Microsoft
- Preguntas sobre resolución de problemas para la entrevista sobre ciencia de datos en Google
Convertirse en un científico de datos de Rockstar (lea si tiene tiempo extra)
Revisarlos definitivamente agregará puntos extra, así que no te los pierdas si tienes tiempo.
- Las 13 habilidades principales para convertirse en un científico de datos de Rockstar
- Comprenda estos 4 conceptos de ML para sonar como un maestro
- 12 cosas que desearía saber antes de comenzar como científico de datos
- Comprender el proceso de ciencia de datos
- Glosario de ciencia de datos de Kaggle
- Glosario de aprendizaje automático de Google
- Ejecute sus predicciones de aprendizaje automático 50 veces más rápido - Hummingbird
- 3 errores que no debes cometer en una entrevista de ciencia de datos
- ¿Cómo encontrar la importancia de las funciones para los modelos BlackBox?
Estructuras de datos y algoritmos (opcional)
Aunque esto puede ser opcional, no se lo pierda si la descripción del trabajo lo solicita explícitamente y, especialmente, nunca se lo pierda si está entrevistando en FAANG y organizaciones similares, o si tiene experiencia en informática. No es necesario ser tan bueno como un SDE en esto, pero al menos conocer los conceptos básicos.
- Una guía para científicos de datos sobre estructuras y algoritmos de datos
- Manejo de árboles en la entrevista algorítmica de ciencia de datos
- Una introducción sencilla a las listas enlazadas para científicos de datos
- Programación dinámica para científicos de datos
- 3 conceptos de programación para científicos de datos
- Científicos de Datos, Los 5 Algoritmos de Grafos que debes conocer
Ingeniería e implementación
- Una guía sencilla para que los científicos de datos creen API en minutos
- Lleve sus modelos de aprendizaje automático a producción con estos 5 sencillos pasos
- 2 formas de implementar sus modelos ML
- Cómo implementar un modelo de Keras como una aplicación web a través de Flask
- ¿Cómo escribir aplicaciones web usando Python simple para científicos de datos?
Big Data y chispa
- 55 preguntas de la entrevista de Apache Spark
- Diez preguntas que puedes esperar en una entrevista Spark
- Preguntas de la entrevista de la colmena
- ¿Las 20 preguntas principales de la entrevista sobre Apache Spark?
- Preguntas de la entrevista de Spark: ¿la lista de reproducción completa?
- ¿Otra fabulosa lista de reproducción para preguntas de la entrevista Spark?
- Consejos prácticos de PySpark para científicos de datos
- 3 formas de paralelizar tu código usando Spark
- Datashader: ¿Revelando la estructura de Big Data genuinamente?
- Lightnings Talk: ¿Qué se debe saber sobre Spark-MLlib?
- Resolviendo la excepción "Contenedor destruido por hilo por exceder los límites de memoria" en Apache Spark
Algunas cosas sorprendentes en Python y Spark
No puede permitirse el lujo de perderse esto si se está entrevistando para un puesto de Big Data.
- ¿Mejorando el rendimiento de Python y Spark?
- ¿Python de alto rendimiento en Spark?
- UDF vectorizadas: ¿Análisis escalable con Python y PySpark?
Preguntas generales de entrevistas en todo el espectro (vídeo)
- Preguntas comunes de la entrevista sobre ciencia de datos - Edureka
- Pregunta común de la entrevista sobre aprendizaje automático - Edureka
- Los 5 algoritmos principales utilizados en ciencia de datos
- Preguntas comunes de la entrevista sobre ciencia de datos - Analytics University
- 3 tipos de preguntas de la entrevista sobre ciencia de datos
- Lecciones aprendidas de la manera más difícil: entrevista sobre cómo hackear la ciencia de datos
- Cómo es una entrevista como científico de datos
- 5 consejos para conseguir un trabajo en ciencia de datos
- 8 algoritmos de ciencia de datos de uso frecuente
- Entrevista práctica basada en escenarios
- KNN v/s K Medias
Preguntas generales de entrevistas en todo el espectro (lectura)
- La guía de entrevistas sobre ciencia de datos
- Las 30 preguntas principales de la entrevista sobre ciencia de datos
- 35 preguntas importantes de la entrevista sobre ciencia de datos
- 100 preguntas de la entrevista sobre ciencia de datos en FAANG
- La guía de entrevistas sobre ciencia de datos más completa
- 41 preguntas esenciales de la entrevista de ML - Springboard
- 30 días de preparación para entrevistas sobre ciencia de datos - iNeuron
- 109 preguntas de la entrevista sobre ciencia de datos - Springboard
- Preguntas más frecuentes de la entrevista sobre ciencia de datos en India - Springboard
- Lista de empresas emergentes de IA en la India y recursos para prepararse para la entrevista
- 5 preguntas de la entrevista para predecir un buen científico de datos
- Ocho formas comprobadas de mejorar la precisión de su modelo de aprendizaje automático
- 60 preguntas de entrevista sobre aprendizaje automático - AnalyticsIndiaMag
- La gran lista de recursos para entrevistas de DS y ML
- 100 preguntas básicas de la entrevista sobre ciencia de datos junto con sus respuestas
- 40 preguntas de la entrevista para Startups en ML/DS Entrevista
- Mi experiencia en una entrevista de trabajo sobre ciencia de datos/aprendizaje automático: lista de preguntas sobre DS/ML/DL: aprendizaje automático en acción
- ¿Cómo me preparo para una entrevista telefónica sobre ciencia de datos en Airbnb?
- El mejor algoritmo de ML para problemas de regresión
- Cómo triunfar en la entrevista de ciencia de datos en persona
- Cómo conseguir un trabajo de científico de datos en Airbnb
- 120 preguntas de la entrevista sobre ciencia de datos (de todos los dominios)
- Comprender la compensación entre sesgo y varianza
- Necesita estas hojas de trucos si está abordando algoritmos de aprendizaje automático
- Banderas rojas en una entrevista sobre ciencia de datos
- La opinión de un científico de datos sobre las preguntas de la entrevista
- ¿Qué es la entropía cruzada (explicación breve y agradable)?
- ¿Cómo es el perfil de un científico de datos ideal?
- 25 preguntas divertidas para una entrevista sobre aprendizaje automático
- Cómo prepararse para entrevistas sobre aprendizaje automático
- Cómo desarrollar un modelo de Machine Learning desde cero
- Guía de principio a fin para un proyecto de aprendizaje automático
- Clasificación versus regresión
- Las medidas matemáticas que todo científico de datos debe conocer
- ¿De dónde viene el mínimo cuadrado?
- Regularización en aprendizaje automático: explicada
Lecturas interesantes
- Tres transiciones profesionales comunes en ciencia de datos y cómo hacerlas realidad
- Navegando por el panorama profesional de la ciencia de datos
- ¿Qué modelo y cuántos datos?