Webscraping jako narzędzie tworzenia bloga

Potrzeba około 2-3 lat i przynajmniej 100-150 postów tak aby blog docierał do wystarczającej ilości użytkowników, żeby można było na nim zarabiać zauważalne pieniądze.

Czas ten można skrócić poprzez dobrze dobraną promocję m.in. outreach, linkbuilding i działania w mediach społecznościowych.

W tym wszystkim kluczowe są treści, które pojawią się na nowym blogu – zazwyczaj jest tak, że tylko pewna część postów generuje 80% ruchu. A ja bym chciał wiedzieć jakie są parametry tych postów i co w nich jest takiego, że są skuteczne.

Nie satysfakcjonują mnie porady o robieniu list, case studies czy research’u słów kluczowych, a także największy absurd, że content musi być dobry – gdyby tak było scheiss-portale nie cieszyłyby się taką popularnością. Zamiast tego wymyśliłem pewien eksperyment z użyciem webscrapingu.

Eksperyment

Przyjrzę się bardzo uważnie pewnemu dużemu zagranicznemu portalowi, wybiorę jego najlepsze posty i na ich podstawie wybiorę 100 najlepszych tematów, które opublikuję na specjalnie stworzonego do tego celu bloga. Wybrałem już niszę  – będzie to rozwój osobisty i produktywność, jest to temat, który nie wymaga żadnej wiedzy, żeby o nim pisać. Jeżeli po roku blog osiągnie ustaloną ilość unikalnych użytkowników, uznam eksperyment za sukces.

Wyobrażam sobie to w następujący sposób:

  1. Praca koncepcyjna – jak przeprowadzić eksperyment, jak wybrać najlepsze posty, w jaki sposób powinien działać bot
  2. webscraping – pobranie materiałów źródłowych
  3. Część analityczna – ta część będzie monotonna, może uda się to jakoś zautomatyzować
  4. wdrożenie – założenie bloga testowego i publikacja 100 postów, mam obawy czy wystarczy mi czasu na napisanie 100 tekstów.
  5. sprawdzanie wyników – sprawdzam wyniki po roku, jeszcze nie ustaliłem pułapu użytkowników, który uznam za sukces

Jak wybrać najlepsze teksty bloga

Oczywiście portal nie udostępni mi dokładnych statystyk ruchu, dlatego najlepsze posty wybiorę inaczej. Zrobię to na podstawie ilości komentarzy, ilości przyznanych gwiazdek, ilości linków, oraz udostępnień i reakcji w mediach społecznościowych. Dodatkowo będę pobierał informacje o ilości słów i ilości obrazków.

Wstępne oględziny portalu

Portal ma około 7 mln postów, a zaindeksowanych stron ponad 24mln. Nie jestem tak naiwny, że nikt nie zauważy mojego bota przy takiej ilości postów. Dlatego  na podstawie tagów wyłapałem wszystkie artykuły w mojej niszy. To daje około 700 000 wpisów, z których część się na pewno zduplikuje.

Będę starał się być jak najmniej inwazyjny i zauważalny: ruch puszczę przez losowo wybierane proxy, z różnymi nagłówkami przeglądarek, a poszczególne requesty będą oddzielone losowymi odstępami czasu, a całość przeprowadzę w kilku etapach.

Podczas wstępnych oględzin natknąłem się na kilka ciekawych rzeczy, m. in. na ukrytą ofertę rekrutacyjną i na program bug bounty.

bug bounty

Co do samego serwisu artykuły ładowane są dynamicznie po 10 sztuk, ale można łatwo zwiększyć tę liczbę. Będę pobierał jsona z informacjami o 100 postach na raz, ponadto plik od razu zawiera sporo informacji, które mnie interesują. W sumie będzie to 7k requestów na podstawie których wykluczę duplikaty. Potem ustalę najlepsze posty, które będę musiał pobrać w całości.

C.D.N.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *