Tutorial: LIMPIEZA DE DATOS con Python y Pandas

Поділитися
Вставка
  • Опубліковано 2 сер 2024
  • 🔥🔥Academia Online🔥🔥: cursos.codificandobits.com/
    🔥🔥Asesorías y formación personalizada🔥🔥: www.codificandobits.com/servi...
    En este tutorial veremos de forma práctica cómo hacer la limpieza de un set de datos, una fase esencial en cualquier proyecto de Ciencia de Datos o Machine Learning.
    Notebook y set de datos: drive.google.com/drive/folder...
    Contenido:
    00:00 Introducción
    00:29 Academia Online
    00:57 El problema a resolver
    02:14 Características del set de datos
    04:10 Lectura del set de datos
    06:01 Introducción a la limpieza
    08:56 Manejo de datos faltantes
    11:14 Columnas irrelevantes
    17:21 Filas repetidas
    18:18 Valores extremos
    24:03 Errores en variables categóricas
    32:49 Conclusión
    🔴 ** VISITA WWW.CODIFICANDOBITS.COM **
    En el sitio web encontrarás, además de artículos y material útil, cursos online y servicios de desarrollo de proyectos, asesorías y formación personalizada en las áreas de Ciencia de Datos, Machine Learning e Inteligencia Artificial.
    🔴 ** VIDEOS Y LISTAS DE REPRODUCCIÓN RECOMENDADAS **
    🎥 Análisis exploratorio de datos: • ¿Cómo hacer el ANÁLISI...
    🎥 Manejo de datos faltantes: • ¿Cómo manejar los DATO...
    🔴 ** ÚNETE A CODIFICANDO BITS Y SÍGUEME EN MIS REDES SOCIALES **
    ✅ Sitio web: www.codificandobits.com
    ✅ Suscríbete: ua-cam.com/users/codificando...
    ✅ Facebook: / codificandobits
    ✅ Instagram: / codificandobits
    ✅ Twitter: / codificandobits
    🔴 ** ACERCA DE MÍ **
    Soy Miguel Sotaquirá, el creador de Codificando Bits. Tengo formación como Ingeniero Electrónico, y un Doctorado en Bioingeniería, y desde el año 2017 me he convertido en un apasionado por el Machine Learning y el Data Science, y en la actualidad me dedico por completo a divulgar contenido y a brindar asesoría a personas y empresas sobre estos temas.
    🔴 ** ACERCA DE CODIFICANDO BITS **
    El objetivo de Codificando Bits es inspirar y difundir el conocimiento en las áreas de Machine Learning y Data Science.
    #machinelearning
  • Наука та технологія

КОМЕНТАРІ • 79

  • @codificandobits
    @codificandobits  Рік тому

    🔥🔥Academia Online🔥🔥: cursos.codificandobits.com/
    🔥🔥Asesorías y formación personalizada🔥🔥: www.codificandobits.com/servicios/

  • @abelgomezmendez2766
    @abelgomezmendez2766 Рік тому +16

    Manual de cómo hacer un videotutorial de ciencia de datos. Este contenido tan explícito y práctico no se encuentra fácilmente.

  • @linacastaneda5854
    @linacastaneda5854 Рік тому +27

    Este video es oro para mí. Muchas gracias por compartir tu conocimiento de una forma tan sencilla y entendible!

  • @tomasscopelliti9362
    @tomasscopelliti9362 Рік тому +11

    Te quiero agradecer por tu excelente trabajo. Estoy estudiando ciencia de datos y claramente la limpieza y el análisis es lo que mas tiempo te lleva en un proyecto. Este video lo explica de forma muy clara en sencillos pasos. Seguramente cada dataset tiene su vuelta jaja, pero me ayudaste mucho. Te mando un abzo desde Arg!

    • @codificandobits
      @codificandobits  Рік тому +1

      Muchas gracias por tu comentario Tomás y un gran abrazo desde Colombia!

    • @tomasscopelliti9362
      @tomasscopelliti9362 Рік тому

      @@codificandobits Tengo algunas dudas. Primero se debe realizar un análisis exploratorio y luego la limpieza? o al revés? Y la otra duda es si esta limpieza aplica a todos los dataset. Muchas gracias y perdón las molestias! 😅

  • @ingluissantana
    @ingluissantana Рік тому

    El siguiente video se ve prometedor!!!! Gracias!!!!

  • @ingluissantana
    @ingluissantana Рік тому

    Que buen video!!!!!! Gracias!!!!

  • @pamelacasis4628
    @pamelacasis4628 Рік тому

    Muy Buenooo!!!!

  • @ebersolorzano6448
    @ebersolorzano6448 Рік тому

    Excelente video!

  • @dondotcom9901
    @dondotcom9901 Рік тому

    Tremendo video, por lo util y por lo claro. Gracias amigo!!

  • @JUANDAVID-wz4pk
    @JUANDAVID-wz4pk Рік тому +1

    Te amo viejo, eres un crack, excelente explicación

  • @alcibiadescastro8784
    @alcibiadescastro8784 10 днів тому

    Excelente maestro

  • @AndreaSanchez-ge3wk
    @AndreaSanchez-ge3wk Рік тому

    Excelente, gracias!

  • @jorge_luis_174
    @jorge_luis_174 Рік тому

    Excelente, aprendi un monton!

  •  Рік тому

    Excelente video... Explicado de una manera clara y concisa ... Muchas gracias 😃👍

  • @franciscogonzalezortiz3561
    @franciscogonzalezortiz3561 2 місяці тому

    Excelente video, muchas gracias

  • @skalliberx6346
    @skalliberx6346 Рік тому

    Muy bueno el video. Muchas gracias.

  • @carloscardenas3459
    @carloscardenas3459 9 місяців тому

    Excelente video
    Muy bien explicado !!

  • @StrawberryAlek
    @StrawberryAlek 11 місяців тому

    Graaaan video, me fue de mucha ayuda, gracias.

  • @ivandelgado1902
    @ivandelgado1902 Рік тому

    Muchas Gracias por compartir su conocimiento. Excelente.

  • @fernandochacon7630
    @fernandochacon7630 8 місяців тому

    Muy buen video, muy claro. Muchas gracias!!

  • @elalfa100
    @elalfa100 5 місяців тому

    Que espectacular. Es para ver diez veces y asimilar como conocimiento. Muchísimas gracias

  • @javierarrieta9573
    @javierarrieta9573 7 місяців тому

    Eres un profesor increible, muchas gracias por compartirnos todo lo que sabes!

  • @raulsegioespejoticona9222
    @raulsegioespejoticona9222 Рік тому +1

    muy bien explicado

  • @fabriciogd8000
    @fabriciogd8000 Рік тому

    me has salvado estoy agradecido

  • @albertorubio3413
    @albertorubio3413 9 місяців тому

    1 año y 7 días de que salió este video. Tremendo su valor... (ojalá así explicaran en la escuela en la que estoy inscrito). Solo para agregar aunque sea un poco, creo que en la columna 'contact' también pudieron unificarse "cellular" con "mobile".
    Espero pronto unirme a tu academia en línea. Muchas gracias.

  • @dwrn4656
    @dwrn4656 Рік тому

    Muy buen video, muy explicativo en su punto Thanks

  • @salvadornunez23
    @salvadornunez23 10 місяців тому

    espectacular

  • @manuelserna1369
    @manuelserna1369 Рік тому

    Excelente explicacion del potencial de python para la limpieza de datos, michas gracias por este video.

  • @guillermolodeiro
    @guillermolodeiro 7 місяців тому

    Muy buen video, claro, completo y bien explicado. Muchas gracias!

  • @mijail.mija-ALM
    @mijail.mija-ALM Рік тому

    Suscrito! gracias por compartir tu conocimiento.

  • @OmerEspinoza
    @OmerEspinoza Місяць тому

    Excelente…!

  • @scheylamagallanesalvarez6806

    Buenisimo el video entendi todo graciass y felicitarlo por su Excelente trabajo y metodologia.

  • @mecatronicaduke
    @mecatronicaduke 8 місяців тому

    Muchas gracias ingeniero

  • @williamBarr586
    @williamBarr586 5 місяців тому

    Excelente explicación, me aportó mucho. Corregí e implementé varias líneas de código que clarificaron mi df y mis objetivos.

  • @robertosoruco3656
    @robertosoruco3656 Рік тому

    Excelente

  • @adrie1en
    @adrie1en Рік тому +1

    Buenísimo. Fui realizando el paso a paso mientras explicabas. Quedo atenta a tus vídeos en caso de que haya una continuación para la siguiente etapa del análisis!
    Gracias!

    • @codificandobits
      @codificandobits  Рік тому

      Qué bueno que te haya gustado el video... Sí, en unas semanas viene la continuación (análisis exploratorio). Un saludo!

  • @geovanyuribeaguirre8776
    @geovanyuribeaguirre8776 Рік тому +4

    Muy buen tutorial, lo único que le agregaría sería la lógica de algunas variables, por ejemplo, la variable día aparece como variable numérica, cuando en verdad debería ser una variable categórica. Para los que están empezando, algo que me funcionó en su momento, era pensar si tenía lógica el promedio de esa variable, de modo que si no tiene lógica utilizar el promedio, pues es porque no tiene sentido utilizarla como númerica. También hay que poner cuidado con esto al modelar, ya que internamente le están dando más relevancia a unas categorías con respecto a otras.

    • @codificandobits
      @codificandobits  Рік тому +1

      Muy buenas sugerencias Geovany! Y tienes razón acerca de los días: más que variable numérica debería ser categórica (ordinal). Un saludo!

  • @mariag9914
    @mariag9914 7 місяців тому

    Me encanto!!! Muchisimas gracias, estoy haciendo un curso/carrera de ciencia de datos, pero la verdad es que es pura teoria pero casi nada de practica y estoy muy perdida. Te re agradezco y se entendio todo perfectamente. Muchas bendiciones. Saludos.

  • @familiaduranromero2931
    @familiaduranromero2931 Рік тому

    Excelente resumen, muchos tip´s necesarios para estas actividades. Muchas gracias Profesor.

  • @aflsrm
    @aflsrm Рік тому

    Excelente explicación ingeniero. Muchas gracias. Seguire paso a paso sus redes. Dios lo bendiga.

  • @antonioyt7719
    @antonioyt7719 Рік тому

    gracias por el tutorial! :D

    • @dustin1520
      @dustin1520 7 місяців тому

      That's what she said

  • @alexandervillegas1437
    @alexandervillegas1437 11 місяців тому

    Grande

  • @mauropereyra591
    @mauropereyra591 8 місяців тому

    Excelente video, me ha ayudado mucho. Me queda una duda de si al final de las unificaciones de valores de las columnas tiene sentido revisar nuevamente los duplicados, ya que podía haber filas consideraras distintas pero luego de la unificacion (Por ej: ukn a unknown) quedaron como iguales.

  • @fisicaparalavida108
    @fisicaparalavida108 5 місяців тому

    Muchas gracias por este vìdeo. Supongamos que tuvieramos una columna con un ùnico subnivel, còmo harìamos para eliminarla?

  • @ebersolorzano6448
    @ebersolorzano6448 Рік тому

    Gracias por compartir su conocimiento. Cuando se usa regex=True en la siguiente linea de código?
    data['job'] = data['job'].str.replace('admin.','administrative', regex=False)

  • @valeriacastillo7428
    @valeriacastillo7428 18 днів тому

    Donde puedo ver El video de analisis de Estos Datos?

  • @mitchelnunez753
    @mitchelnunez753 Рік тому +2

    Excelente video Miguel! sigue trayendo más contenido con la manipulación y análisis de datos :)).
    Por cierto, en que parte está el notebook de colab que dijiste que estaba en la descripción?

    • @codificandobits
      @codificandobits  Рік тому +1

      Hola Mitchel gracias por el comentario. Sí, en un próximo video veremos el análisis exploratorio de este set de datos.
      Y en la descripción del video encuentras el enlace al notebook + dataset.
      ¡Un saludo!

    • @mitchelnunez753
      @mitchelnunez753 Рік тому

      ¡¡¡Muchas Graciassssss!!!

  • @michelromeroesquijarosa5657
    @michelromeroesquijarosa5657 4 місяці тому

    31:17 esta notacion me afecta valores en otras columnas. Ese valor con el que corrijo el erroneo se me agrega como valor en todas las columnas del df con la cantidad de veces que se cumple esa condicion. Me puede brindar luz al respecto?

  • @holalula2032
    @holalula2032 Місяць тому

    Consulta! Ahi donde dice ruta = (xxxx) por que entre medio dice video?

  • @Celeste13_
    @Celeste13_ 2 місяці тому

    Esa parte de google.colab y lo del drive me tira error, si yo tengo el archivo en mi escritorio, ¿Cúal seria la escritura de código?

  • @dianacarolinanavidadnavida1812

    Mil gracias llevo una semana buscando como hacer eso😢

  • @nara.titan28
    @nara.titan28 Рік тому

    Hola muchas gracias por tus contenidos! Pregunta: es necesario limpiar y paramétrizar el Dataset, previo a la decisión de algoritmos de ML para optimizar la evaluación? O como sugieres proceder?

    • @nara.titan28
      @nara.titan28 Рік тому

      Me refiero a un Dataset de variables climáticos en series de tiempo.

    • @codificandobits
      @codificandobits  Рік тому

      @@nara.titan28 Sí, siempre es necesario limpiar el dataset antes de cualquier análisis o procesamiento. ¿A qué te refieres con parametrizar?

  • @yhh610
    @yhh610 Рік тому

    excelente video , es posible que compartas el notebook?/?/??/?

    • @codificandobits
      @codificandobits  Рік тому

      Claro que sí. En la descripción del video encuentras el enlace al código fuente

  • @leoohernandez4255
    @leoohernandez4255 Рік тому

    Hola Profe excelente video, solo tengo una duda.
    1. Que pasaria si en la parte de subniveles uno tiene muchos de estos, en este caso en el video teniamos 10, 8, 5 etc.. pero si hablamos ya de 10.000, 8.000, 50.000 subniveles el histograma saldria tan grande que quizas daria la misma, ¿Cómo se manejaria en ese caso?

    • @codificandobits
      @codificandobits  Рік тому

      Hola y qué buena pregunta. En este caso existen varias alternativas (aunque al final todo dependerá de las particularidades de tu set de datos y del problema que quieras resolver).
      Por ejemplo podrías implementar técnicas de reducción (es decir eliminar algunos subniveles que no contengan muchos datos) o de agrupamiento (clustering). O usar el histograma para ver cuáles de estos subniveles son menos frecuentes y (si el problema lo permite) eliminarlos, o también podrías considerar técnicas de "cross-tabulation".
      De nuevo, es necesario conocer en detalle el problema a resolver y el set de datos para determinar el camino que resultaría más adecuado. Un saludo!

  • @marloncarrillo1409
    @marloncarrillo1409 6 місяців тому

    Buen día estimado Profesor, le puedo hacer una consulta ¿Cómo puedo determinar la factibilidad de uso de un dataset para un proyecto específico?

    • @codificandobits
      @codificandobits  6 місяців тому +1

      Marlon es una pregunta muy difícil de responder sin conocer los detalles. Pero de forma general deberías tener en cuenta:
      1) ¿Qué problema quieres resolver?
      2) ¿Que producto/resultado final esperas tener una vez resuelto el problema?
      Teniendo claras las respuestas a estas dos preguntas debes determinar si tu set de datos tiene las características que corresponden a las respuestas que acabas de dar.
      Como te digo, es una respuesta muy genérica. Si me das más detalles te puedo orientar mejor.

    • @marloncarrillo1409
      @marloncarrillo1409 6 місяців тому

      @@codificandobits Buenas noches estimado profesor, gracias por la respuesta, soy novato en el tema de machine learning, pero ahora me encuentro trabajando en un proyecto referente al ancho de banda, he encontrado un par de datasets, pero aún no se si sean los adecuados para el proyecto que le comento. ¿Tendrá alguna otra red social dónde contactarlo, para que me brinde un par de consejos?

  • @cris.bolsillos
    @cris.bolsillos Рік тому

    Hola! de verdad espero me puedas ayudar, soy nuevo en todo esto. Si por ejemplo de la columna age, yo quisiera solo ver la información de los que tienen 50 años, pero manteniendo el resto de información referente a esas personas con esa edad en particular, cómo lo puedo hacer? la verdad que por más que trato de pensar como hacerlo no encuentro la solución. Te agradecería mucho la ayuda!

  • @omararga9846
    @omararga9846 Рік тому

    estimado, seria tan amable de pasar el note y el set de datos, gracias

    • @codificandobits
      @codificandobits  Рік тому

      Claro que sí Omar. El enlace lo encuentras en la descripción del video. ¡Un saludo!

    • @omararga9846
      @omararga9846 Рік тому

      @@codificandobits me recomendas panda para leer un archivo de 168 gb en formato txt?

  • @jorge_luis_174
    @jorge_luis_174 Рік тому

    Aca en Perulandia te llaman mas de 300 veces al mes. Son unas ladillas!

  • @davidaquino64
    @davidaquino64 Рік тому

    Tengo una duda en qué área está o que perfil tiene porque en la unam e ipn la manejan como ciencias físico matemáticas que debemos de saber matemáticas ciencias de la computación estadística y conocimiento del negocio en qué perfil está porque unos me dicen que es físico matemáticas otros que es tecnológica que perfil tiene en realidad esa es mi inquietud

  • @elrama6915
    @elrama6915 Рік тому

    Excelente video y muy bien explicado!!!.