Бизнес на Парсинге Данных: Подробное Руководство. 47 советов из опыта.

Поділитися
Вставка
  • Опубліковано 7 січ 2025

КОМЕНТАРІ • 40

  • @pafnuteus
    @pafnuteus 7 місяців тому

    ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...

  • @pafnuteus
    @pafnuteus 7 місяців тому

    18:10 есть компания Медиалогия (мониторинг эмоциональной оценки). Работал на них одно время, жирные у них клиенты

  • @Lukaviskys
    @Lukaviskys 11 місяців тому

    Спасибо!

  • @johnconnor632
    @johnconnor632 11 місяців тому

    Вы в защитах акамай забыли упомянуть)

  • @johnconnor632
    @johnconnor632 11 місяців тому

    2gis через мобильное API парсится, прилу снифать надо

  • @AlexShataev
    @AlexShataev 11 місяців тому +5

    "Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂

    • @MaximKulgin
      @MaximKulgin  11 місяців тому +9

      Ну извините - надо жопу оторвать и поработать тоже

    • @ИгорьПтенцов
      @ИгорьПтенцов 11 місяців тому +1

      По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.

  • @TheDoartLos
    @TheDoartLos 10 місяців тому

    Можно ли устроиться к вам в компанию? Стек: python

  • @ypohut1673
    @ypohut1673 11 місяців тому

    Этот еще надо заказчиков искать чтобы парсинг продать?

  • @albor7599
    @albor7599 11 місяців тому +3

    Осталось только курсы на Udemy выложить😊

  • @RaleXx85
    @RaleXx85 11 місяців тому +1

    Парсинг - штука неоднозначная.
    Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты?
    И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки).
    Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.

    • @PolakoSrbija
      @PolakoSrbija Місяць тому

      ты вообще видео смотрел?

    • @RaleXx85
      @RaleXx85 Місяць тому

      @PolakoSrbija а ты?

    • @PolakoSrbija
      @PolakoSrbija Місяць тому

      @@RaleXx85 да, и в нём он говорит что гарантий не дает и не подписывается под них. Как раз из-за блокировок парсинга.
      Чем ты смотрел? И что это за язвительное "а ты?"
      Он нигде не говорит, что гребет деньги лопатами. Так на хлеб хватает - так и живут.

    • @RaleXx85
      @RaleXx85 Місяць тому

      @@PolakoSrbija здоровья тебе, и мирного неба над головой.

  • @NikolayServakov
    @NikolayServakov 11 місяців тому

    Самый известный, наверное, успешный коммерческий проект - авиасейлз)

    • @MrFrimko
      @MrFrimko 2 місяці тому

      авиасало не парсят сайты, это было бы слишком медленно. у них прямая интегарция по API

  • @SergeyBagretsov
    @SergeyBagretsov 11 місяців тому

    С какой скоростью желательно парсить ап-ру и все-ин?

    • @cherkasA
      @cherkasA 11 місяців тому

      когда то парсил все инструментыру
      было у них тогда около 800 000 товаров
      что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел
      выкачивал всё
      характеристики, фото. описания и т.д.

    • @mustizeo760
      @mustizeo760 11 місяців тому

      ​@@cherkasAна каком яп выполнил задачу ?

  • @AlexShataev
    @AlexShataev 11 місяців тому

    Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?

    • @MaximKulgin
      @MaximKulgin  11 місяців тому

      Ну например 100к в сутки

    • @PolakoSrbija
      @PolakoSrbija Місяць тому

      @@MaximKulgin чёт не бьется математика.
      В видосе было сказано "экологичный" парсинг 3 секунды на товар: 100к в сутки это 300к секунд = 5000 минут = 83.3333 часа

  • @DreamingDolphing
    @DreamingDolphing 11 місяців тому

    Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?

    • @vr29645
      @vr29645 11 місяців тому +1

      а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет

    • @MaximKulgin
      @MaximKulgin  11 місяців тому

      Верно

    • @MagicMightNew
      @MagicMightNew 11 місяців тому

      Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)

    • @email9092
      @email9092 11 місяців тому

      такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!

  • @AlexBat-r5k
    @AlexBat-r5k 11 місяців тому

    У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))

  • @vyacheslavs5642
    @vyacheslavs5642 11 місяців тому

    NextCloud?

  • @your-hater
    @your-hater 11 місяців тому

    Снова один и тот же ролик с посылом обо всём и ни о чём.
    Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻‍♂️

    • @MaximKulgin
      @MaximKulgin  11 місяців тому

      у нас нет рекламы