Back to Question Center
0

Chrome Web Scraper Tutorial od Semalt Expert

1 answers:

Jeśli korzystasz z przeglądarki Google Chrome, istnieje rozszerzenie przeglądarki co może pomóc w zeskanowaniu stron internetowych. Jest znany jako "Scrapper" i można go używać bez problemów. Scrapper pomoże skrobać zawartość witryny i przesłać wyniki do dokumentów Google.

Jak złomować witrynę za pomocą rozszerzenia skrobaka?

1. Wybierz Chrome Web Store w Google Chrome;

2. W rozszerzeniach szukaj hasła "Scrapper";

3. Pierwszym wynikiem wyszukiwania jest rozszerzenie znane jako "Scrapper";

4. Wybierz przycisk oznaczony jako "Dodaj do Chrome";

5. Wróć do listy posłów do parlamentu Wielkiej Brytanii

6. Kliknij poniższe link ;

7. Teraz poszukaj jednego MP i upewnij się, że wpis jest zaznaczony;

8. Kliknij prawym przyciskiem myszy, aby wybrać "Scrape Podobne ... "opcja;

9. Konsola do scrappera pojawi się w innym oknie;

10. Wyświetl skrobaną zawartość w skrobaku konsola;

11. Aby upewnić się, że treść jest zapisana jako arkusz kalkulacyjny Google, wybierz "Zapisz w Dokumentach Google ..."

Przedłużone skrobanie

Przed trzymaniem się tego przepisu , dobrze jest zrozumieć podstawy HTML. Na przykład możesz przeczytać krótkie wprowadzenie do HTML za pomocą tego linku

Wyobraźmy sobie, że interesują nas wszystkie filmy, w których wystąpił Asia Argento, słynna włoska aktorka.

1. W IMDB istnieje bardzo szczegółowe archiwum aktorów. Strona Asia Argento to: https://www.imdb.com/name/nm0000782/;

2. Tutaj możesz zobaczyć wszystkie role odgrywane przez aktorkę..Zacznijmy od złomowania informacji, które nas interesują;

3. Spróbuj go zeskrobać w sposób opisany powyżej;

4. Zobaczysz, że lista jest nieco zniekształcona. Wynika to z faktu, że lista tutaj może być różnie ustrukturyzowana;

5. Udaj się do konsoli zgarniacza. W lewym górnym rogu pojawi się małe okienko z napisem XPath;

6. Xpath jest rodzajem języka zapytań, który działa dla XML i HTML;

7. XPath może pomóc w zlokalizowaniu części strony, która cię interesuje. Następną rzeczą jest znalezienie odpowiedniego elementu i napisanie XPath;

8. Teraz załatwimy nasz stół;

9. Zobaczysz, że nasz istniejący XPath, który ma wszystkie potrzebne dane, to "// div [3] / div [3] / div [2] / div";

10. XPath informuje system, aby obejrzał dokument HTML i wybrał trzeci element, następnie drugi element, a następnie wszystkie;

11. Chcielibyśmy jednak, aby nasze dane zostały rozdzielone;

12. Wykorzystaj sekcję kolumn w konsoli do scrappera, aby to zrobić;

13. Najpierw znajdź nasz tytuł РІР; "Użyj Sprawdź element, aby zobaczyć tytuł;

14. Sprawdź tytuł w tagu. Dodaj tag do XPath;

15. Wydaje się, że wyrażenie funkcjonuje właściwie, więc uczyń naszą pierwszą kolumnę;

16. W sekcji "Kolumny" zamień pierwszą kolumnę na "tytuł";

17. Dodaj XPath do tego;

18. W sekcji kolumny, ścieżki XPath są względne i oznaczają, że "./b" wybierze element

19. W XPath w kolumnie tytułowej dodaj "./b" i wybierz "scrape";

20. Teraz kontynuujmy rok. Lata można znaleźć w ciągu jednego piętra;

21. Utwórz nową kolumnę, zaznaczając mały plus obok kolumny tytułu;

22. Używając XPath "./span" utwórz kolumnę dla "roku";

23. Kliknij na scrape i zobacz, jak dodano rok;

24. Zrobione!

5 days ago
Chrome Web Scraper Tutorial od Semalt Expert
Reply