ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...
Парсинг - штука неоднозначная. Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты? И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки). Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
@@RaleXx85 да, и в нём он говорит что гарантий не дает и не подписывается под них. Как раз из-за блокировок парсинга. Чем ты смотрел? И что это за язвительное "а ты?" Он нигде не говорит, что гребет деньги лопатами. Так на хлеб хватает - так и живут.
когда то парсил все инструментыру было у них тогда около 800 000 товаров что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел выкачивал всё характеристики, фото. описания и т.д.
@@MaximKulgin чёт не бьется математика. В видосе было сказано "экологичный" парсинг 3 секунды на товар: 100к в сутки это 300к секунд = 5000 минут = 83.3333 часа
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
Снова один и тот же ролик с посылом обо всём и ни о чём. Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻♂️
ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...
18:10 есть компания Медиалогия (мониторинг эмоциональной оценки). Работал на них одно время, жирные у них клиенты
Спасибо!
Вы в защитах акамай забыли упомянуть)
2gis через мобильное API парсится, прилу снифать надо
"Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂
Ну извините - надо жопу оторвать и поработать тоже
По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.
Можно ли устроиться к вам в компанию? Стек: python
Этот еще надо заказчиков искать чтобы парсинг продать?
Да
Осталось только курсы на Udemy выложить😊
:)
Парсинг - штука неоднозначная.
Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты?
И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки).
Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
ты вообще видео смотрел?
@PolakoSrbija а ты?
@@RaleXx85 да, и в нём он говорит что гарантий не дает и не подписывается под них. Как раз из-за блокировок парсинга.
Чем ты смотрел? И что это за язвительное "а ты?"
Он нигде не говорит, что гребет деньги лопатами. Так на хлеб хватает - так и живут.
@@PolakoSrbija здоровья тебе, и мирного неба над головой.
Самый известный, наверное, успешный коммерческий проект - авиасейлз)
авиасало не парсят сайты, это было бы слишком медленно. у них прямая интегарция по API
С какой скоростью желательно парсить ап-ру и все-ин?
когда то парсил все инструментыру
было у них тогда около 800 000 товаров
что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел
выкачивал всё
характеристики, фото. описания и т.д.
@@cherkasAна каком яп выполнил задачу ?
Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?
Ну например 100к в сутки
@@MaximKulgin чёт не бьется математика.
В видосе было сказано "экологичный" парсинг 3 секунды на товар: 100к в сутки это 300к секунд = 5000 минут = 83.3333 часа
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет
Верно
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))
:) нету
NextCloud?
да
Снова один и тот же ролик с посылом обо всём и ни о чём.
Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻♂️
у нас нет рекламы