Chrome Web Scraper Tutorial Vum Semalt Expert

Wann Dir Google Chrome benotzt, da gëtt et eng Extensioun fir Äre Browser wat hëllefe kann Websäiten ze schrauwen. Et ass bekannt als '' Scrapper '', an et kann ouni Probleemer benotzt ginn. Scrapper hëlleft beim Schrauwen vun engem Websäit Inhalt an de Resultater am Google Dokumenter eropzelueden.

Wéi schrauwen ech eng Websäit mat Scraper Extensioun?

1. Wielt de Chrome Web Store am Google Chrome;

2. An Extensiounen, maacht eng Sich no '' Scrapper '';

3. Dat éischt Sichresultat ass d'Extensioun bekannt als '' Scrapper '';

4. Wielt de Knäppchen opgelëscht als '' Füügt a Chrome ";

5. Gitt op d'lëscht vun de UK Deputéierten zréck;

6. Klickt op de folgende Link ;

7. Elo sicht en MP a suergt fir datt d'Entrée markéiert ass;

8. Riets-klickt fir d'Optioun "Scrape Ähnlech ..." ze wielen;

9. D'Konsole fir Scrapper wäert an enger anerer Fënster opmaachen;

10. Kuckt de geschrapte Inhalt an der Schrackconsole;

11. Fir sécherzestellen datt den Inhalt als Google Spreadsheet gerett gëtt, wielt "Späicheren an Google Docs ..."

Verlängert Schrott

Ier Dir dëst Rezept festhält, ass et nëtzlech d'Grondlagen vun HTML ze verstoen. Zum Beispill kënnt Dir eng kuerz Introduktioun op HTML iwwer dëse Link liesen

Loosst eis virstellen datt mir un all Filmer interesséiert sinn, déi den Asien Argento, eng berühmt italienesch Schauspillerin starred.

1. Et gëtt e ganz detailléiert Archiv vun Akteuren am IMDB. Asien Argento Site ass: http://www.imdb.com/name/nm0000782/;

2. Hei kënnt Dir all Rollen, déi vun der Schauspiller gespillt ginn. Fänke mer un d'Informatioun auszeschrauwen wou mir interesséiert sinn;

3. Probéiert et ze schrauwen wéi et uewe beschriwwen ass;

4. Dir gesitt datt d'Lëscht e bësse verzerrt ass. Dëst ass wéinst der Tatsaach datt d'Lëscht hei anescht strukturéiert ka ginn;

5. Kapp op d'Skraperconsole. Uewen lénks gesitt Dir déi kleng Këscht déi XPath seet;

6. Xpath ass eng Zort Ufrosprooch déi fir XML an HTML funktionnéiert;

7. XPath kann hëllefen, d'Deeler vun der Säit ze fannen an där Dir interesséiert sidd. Déi nächst Saach ass e passend Element ze fannen an den XPath dofir ze schreiwen;

8. Loosst eis den Dësch arrangéieren;

9. Dir gesitt datt eis existent XPath, déi all déi néideg Daten huet, ass "// div [3] / div [3] / div [2] / div";

10. XPath informéiert de System fir den HTML doc ze gesinn a wielt dat drëtt Element, dann dat zweet Element an dann all;

11. Awer, mir géife gär datt eis Daten getrennt sinn;

12. Benotzt d'Saile Sektioun an der Konsole fir Scrapper fir dëst ze maachen;

13. Loosst eis als éischt eisen Titel fannen – Use Inspect Element fir den Titel ze gesinn;

14. Kontrolléiert den Titel bannent engem Tag. Füügt de Tag op den XPath;

15. Den Ausdrock schéngt passend ze fonktionnéieren, also maacht et eis éischt Kolonn;

16. An der Sektioun "Kolonnen" ersetzt den Numm vun der éischter Kolonn duerch den "Titel";

17. Füügt den XPath derbäi;

18. An der Kolonn Sektioun sinn d'XPaths relativ an et heescht datt "./b" den <b> Element wielt

19. Am XPath fir d'Tittelkolonn, füügt "./b" a wielt "schrauwen";

20. Elo solle mir e Joer weidergoën. Joer kënne bannent engem Ëmfeld fonnt ginn;

21. Erstellt eng nei Kolonn andeems Dir de klenge Plus nieft der Kolonn fir Ären Titel auswielt;

22. Mat XPath "./span" erstellen eng Kolonn fir "Joer";

23. Klickt ze schrauwen a kuckt wéi d'Joer derbäi war;

24. fäerdeg!

mass gmail