Curso de Web Scraping en Python | Web Scraping MUY FACIL con Beautiful Soup [Nivel Básico]
Вставка
- Опубліковано 13 лип 2024
- 🔥 Curso Completo de Web Scraping en Python 8 horas (Udemy): www.udemy.com/course/curso-co...
🎁 Promoción (Solo en mi página): Hasta 50% y 100% de descuento por la compra del segundo/tercer curso. thepycoach.teachable.com/p/sp...
En este tutorial, te voy a enseñar un método para extraer datos de páginas web conocido como Web Scraping. En este video haremos Web Scraping con Beautiful Soup, la cual es la librería de web scraping más fácil de aprender en Python.
Si tienes dudas sobre comprar el curso, revisa el playlist debajo 😉
🖥 Playlist gratuito de 2 horas de web scraping: • Curso Completo de Web ...
🔗 Link de página: subslikescript.com/movie/Titanic-120338
👨🏻💻 Código y/o dataset usado en este video: github.com/ifrankandrade/data...
🎮 Discord (aquí puedes descargar mi formulario de Python): / discord
📩 Recibe emails semanales en mi Substack: andradefrank.substack.com/
📝 Puedes encontrar más información sobre este tema en este artículo que escribí: betterprogramming.pub/how-to-...
✅ Sígueme en Medium: / frank-andrade
Fuente original del dataset usado en este video:
--------------------
Contenido del video:
0:00 Instalar Beautiful Soup y Requests
3:31 ¿Cómo Obtener el Documento HTML de una Página Web?
8:13 ¿Como Hacer Web Scraping a una Página?
18:56 Exportar Data Extraída a un Archivo TXT
Me ha sido útil, muy fácil, la explicación fue fácil de entender y aprendí bastante en pocos minutos, ya me he suscrito para seguir tu contenido nuevo :)
Contenido: 100, Explicacion: 100, gracias!
Excelente explicación. Muy claro!
Muy entendible, gracias!
Gracias por esta lista de reproducción!
Buenísimo Frank, gracias
muy util y claro
Curso comprado, muchas gracias.
Muchas gracias amigo!
Muchas gracias!
Todo me salio perfecto, excelente video! Tienes el otro video que mencionas para hacer web scraping a varias paginas, con beautiful soup? Muchas gracias!!
Works well!! DANKEEE
🔥 Curso Completo de Web Scraping en Python 8 horas (Udemy): www.udemy.com/course/curso-completo-de-web-scraping-en-python-de-cero-a-experto/?referralCode=8F4DE225290091734DAC
🎁 Promoción (Solo en mi página): Hasta 50% y 100% de descuento por la compra del segundo/tercer curso. thepycoach.teachable.com/p/spanish
Tengo muchas ganas de hacer este curso, pero estoy esperando a que me ofrezca un descuento Udemy ¿Tienes algún cupón de descuento actualizado? Suelo esperarme a que el curso me valga entre 9 y 15€. Saludos!
gracias
Frank gracias por el video, estoy aprendiendo y me viene muy bien. Solo me gustaría saber como hacer para que dentro del txt me traiga no solo el transcript, sino también el title colocando una separación de un renglón entre cada dato que le pido. Muchisimas gracias. Tenes un nuevo seguidor :)
Excelente Frank, tengo una duda, antes de llegar a la pagina en la que estan los datos debo loguearme. pensaba hacer esto con un logueo manual en chorme, pero me parece que BS abre una instancia nueva del navegador. puedo hacerlo dentro del script o me paso a Selenium. mucha sgracias
Muchas gracias!!
De nada! Me alegra haberte ayudado
Muchas gracias 🖥️🐍
¡De nada!
Gracias!
¡Me alegra haberte ayudado!
a los que les aparezca este error "Traceback (most recent call last)" al crear el txt deben de agregar enconding="utf-8"
quedaria asi:
with open(f'{title}.txt', 'w', encoding="utf-8") as file:
file.write(trans)
espero que a alguien le sirva
gracias bro.
Buenisimo, me pasaba eso y solucione, Gracias!
Muchas gracias.
Gracias!
crack!!
Hola, que recomiendas para obtener información de un supermercado?
que codigo tengo que añadir para loguearme en la página?
y para que recorrar la página hasta el final?
me mostrará todos los links de los videos incurstados?
BUENISIMO
Que pasaría si quisiera tener acceso al buscador de manuscritos, si por ejemplo ya no quiero ver el del Titanic sino el de Volver al futuro, puedo enviar el nombre del manuscrito que quiero buscar y acceder e él desde código python? saludos
Hola una consulta el txt me lo importa como 0k sin datos en una extensión .file porque sera?
hola frank estoy buscando el video donde explicabas como hacer scraping usa do python y chat gpt. no puedo encontrarlo me dejarias el link?
Cuál es el IDE que usaste?
Hola, una consulta: si solo me muestra una parte del código HTML de la página, ¿qué puedo hacer?
Hola, muchísimas gradicias por el video, excelente explicación... Yo uso Visual Studio y en el terminal no encuentro la lupa del buscador y no puedo avanzar... Agradecido de antemano por tu ayuda al respecto...
ctrl + f
tu video me lo recomendo gemini
Buen día, con visual code no muestra todo el código, en mi caso con Pycharm si se ve todo el código html. Saludos Frank
Hola amigo como estás! Mira, yo necesito Scrapear únicamente enlaces de Webs, pero necesito hacerlo cada x tiempo, es decir programar un scrapeo cada tanto tiempo de los enlaces, porque se irían modificando.. podría hacer eso con BeautifulSoup? No serían más de 100 enlaces por día, de distintos sitios webs.
Por otra parte, para aprender a Scrapear con BeautifulSoup es necesario saber Python? Saludos Frank, espero tu respuesta!
No entiendo muy bien tu pregunta.
- En caso de que quieras scrapear cada X segundos puedes usar una espera implicita; por ejemplo, si quieres 5 segundos harías time.sleep(5)
- En caso de que quieras programas a que hora se corre el script, puedes usar el programador de tareas de windows. Revisa el video en este canal llamada "Como Automatizar Scripts en Pyrhon"
¿como se ponen las comillas simples en pycharm?
en que plataforma estas escribiendo?
tengo un problema a la hora de hacer la impresion,
AttributeError: 'NoneType' object has no attribute 'get_text'
me sale este error, alguien me ayuda?
al poner from bs4 import BeautifulSoap me da este problema: Unused import statement 'from bs4 import BeautifulSoup'
Ayuda, no me deja instalar bs4 y requests, que hago?
que hacer cuando al parecer esta protegida la pagina?
Hola, a veces funciona excelente y a veces me sale este error
Traceback (most recent call last):
File "/Documents/Scripts/CRXillions/crxillions.py", line 20, in
box = soup.find(class_='nft_attr').get_text()
AttributeError: 'NoneType' object has no attribute 'get_text'
A que se debe? es un div al que le estoy haciendo scraping
Lo que sucede es que el objeto box no tiene contenido (a veces). Seguro estás haciendo web scraping a una pagina donde no siempre todo el contenido está disponible.
Lo que puedes hacer en esos casos es usar un try/except. Para poder ignorar el error en una iteración y pasar a la siguiente iteración sin problemas.
Está bastante genial el vídeo!!
Quisiera saber si para hacer web scrapping en facebook también se puede usar ese mismo método?
Depende lo que tenga en mente hacer
Hola, a mi me imprime el archivo .txt en una sola linea.
me sale un error al instalar lxml, ya trate de arreglarlo pero no encuentro solución.
Hola! Gracias por el vídeo!. Lo hice tal cual el video y me surge un error al compilar el programa.
Este es el error que me marca: UnicodeEncodeError: 'charmap' codec can't encode character '\ufb02' in position 32153: character maps to
Espero puedas ayudarme, gracias!
Hola. Tiene que ver con el encoding. Solo debes cambiar el encoding por defecto. Reemplaza las 2 últimas lineas por el código debajo:
with open(f'{title}.txt', 'w', encoding='utf-8') as file:
file.write(transcript)
@@thepycoachES gracias por la respuesta, yo tenia el mismo problema
@@thepycoachES tenia el mismo problema, con esta linea se resolvió, gracias!
buenas tardes , quiero hacer scrampy a amazon despes convertirlo a exel como lo hago
Puedes ver el video de cómo hacer web scraping con selenium. Debería servirte para hacer web scraping a Amazon
tengo un problema mi pc no reconoce que es un pip
hola, me aparece este error "ModuleNotFoundError: No module named 'bs4'" y lo descergue tal cual dice el tutorial, alguien por favor ayúdeme
La descarga e instalación se realiza en el CMD u otro terminal. En algunos casos los comandos varían. En mi consola me funcionó con py -m pip install bs4
Cuando traigo el codigo html, no lo trae completo..no se por que pasa eso, me falta toda la primer parte, las etiquetas de apertura, titulos...
Solucionado, utilizando strip y separator.
" error: subprocess-exited-with-error" ese error me da cuando installa LXML y no puedo instalarlo, he intentado de varias maneras pero no paso
a mi no me tomaba lxml, instale html5lib y parece que va bien
@@trino01 X2
Me devuelve none
taital no ,, titulo...
Excelente video! Lo único que me molesta (personalmente) es que pronuncies algunas palabras como un pelotudo pero tkm
Está bueno el video, pero detesto tu pronunciación forzada del ingles. Me da "cringe", como seguramente dirías tu. Pero claro, tu decides como hablar.
Buen vídeo pero por favor deja de hablar así xd
que horrible tu disque pronunciación en ingles, mejor dilo como lo lees
¿Y si mejor lo digo como me da la gana? 🤔
@@thepycoachES 😂
@@thepycoachES Pues es una certificación del idioma eso si les importa solo digo.
@@thepycoachES Asi es hermano, el amigo Oli se lo buscó, mas bien que agardesca su aporte. Sigue así hermano.
Traceback (most recent call last):
File "c:/Users/Denisse/Documents/CARLOS EMILIO/VISUALSTUDIOCODE/tes.py", line 13, in
title = box.find('h1').get_text()
AttributeError: 'NoneType' object has no attribute 'find'
tengo ese error