Semalt Jissuġġerixxi 5 Passi Biex Jinbarax il-Paġni tal-Web

Scrapy huwa sors miftuħ u qafas għall-estrazzjoni ta 'informazzjoni mill-websajt differenti. Juża l-APIs u huwa miktub fil-Python. Bħalissa, Scrapy hija miżmuma minn kumpanija tal-brix tal-web bl-isem ta ’Scrapinghub Ltd.

Huwa tutorja sempliċi dwar kif tikteb web crawler billi tuża Scrapy, tikkalma Craigslist u taħżen informazzjoni f'format CSV. Il-ħames passi ewlenin ta 'dan it-tutorja huma msemmija hawn taħt:

1. Oħloq proġett ġdid ta 'Scrapy

2. Ikteb brimba biex titkaxkar websajt u toħroġ data

3. Esporta d-dejta mibruxa billi tuża l-linja tal-kmand

4. Ibdel Brimba biex issegwi links

5. Uża argumenti tal-brimba

1. Oħloq proġett

L-ewwel pass huwa li jinħoloq proġett. Int ikollok tniżżel u tinstalla Scrapy. Fil-bar tat-tfittxija tagħha, għandek tidħol l-isem tad-direttorju fejn trid taħżen id-dejta. Scrapy juża brimb differenti biex jiġbdu informazzjoni, u dawn il-brimb jagħmlu talbiet inizjali biex joħolqu direttorji. Biex tpoġġi brimba biex taħdem, għandek bżonn iżżur il-lista tad-direttorji u daħħal kodiċi partikolari hemmhekk. Żomm għajnejk fuq il-fajls fid-direttorju attwali tiegħek u avża żewġ fajls ġodda: quotes-a.html u quotes-b.html.

2. Ikteb brimba biex titkaxkar websajt u toħroġ data:

L-aħjar mod biex tikteb brimba u estratt data huwa billi toħloq seletturi differenti fil-qoxra ta 'Scrapy Dejjem għandek tagħlaq l-URLs bejn il-kwotazzjonijiet; inkella, Scrapy se jibdel in-natura jew l-ismijiet ta 'dawk l-URLs istantanjament. Għandek tuża kwotazzjonijiet doppji madwar URL biex tikteb brimba kif suppost. Għandek tuża.extract_first () u tevita żball ta 'indiċi.

3. Esporta d-dejta mibruxa billi tuża l-linja ta 'kmand:

Huwa importanti li tesporta l-informazzjoni mibruxa billi tuża l-linja ta 'kmand. Jekk ma tesportax, ma jkollokx riżultati eżatti. Il-brimba tiġġenera direttorji differenti li fihom informazzjoni utli. Għandek tuża r-rendiment ta 'kliem ewlieni Python biex tesporta din l-informazzjoni b'mod aħjar. Hija possibbli l-importazzjoni tad-dejta għal fajls JSON. Il-fajls JSON huma utli għall-programmaturi. Għodda bħal JQ tgħin biex tesporta informazzjoni mibruxa mingħajr ebda problema.

4. Ibdel Brimba biex issegwi links:

Fi proġetti żgħar, tista 'tbiddel brimb biex isegwu links b'mod xieraq. Iżda mhux meħtieġ bi proġetti ta 'daqs kbir ta' brix ta 'dejta . Se jitwaqqaf fajl tal-post għall-Pajpijiet tal-Punt meta tbiddel brimba. Dan il-fajl jista 'jinsab fit-taqsima tutorja / pipelines.py. Ma 'Scrapy, tista' tibni brimb sofistikati u tibdel il-post tagħhom f'kull ħin. Tista 'tiġbed siti multipli kull darba u twettaq diversi proġetti ta' estrazzjoni ta 'dejta.

5. Uża argumenti ta 'brimba:

Il-callback parse_author huwa argument ta 'brimba li jista' jintuża biex tiġi estratt data minn websajts dinamiċi. Tista 'tipprovdi wkoll argumenti tal-linja ta' kmand lill-brimb b'kodiċi speċifiku. L-argumenti tal-brimba jsiru attributi tal-brimba fl-ebda ħin u jibdlu l-ħarsa ġenerali tad-dejta tiegħek.

F'din it-tutorja, aħna koprajna biss il-punti bażiċi ta 'Scrapy. Hemm ħafna karatteristiċi u għażliet għal din l-għodda. Int teħtieġ biss li tniżżel u tattiva Scrapy biex tkun taf aktar dwar l-ispeċifikazzjonijiet tagħha.