Semalt predlaga 5 korakov za strganje spletnih strani

Scrap je odprt vir in okvir za črpanje informacij z različnih spletnih strani. Uporablja API-je in je napisan v Python-u. Scrap trenutno vzdržuje spletno podjetje za strganje, imenovano Scrapinghub Ltd.

To je preprosta vadnica o tem, kako pisati spletnega pajka s pomočjo Scrap, razčleniti Craigslist in shraniti podatke v formatu CSV. Spodaj je omenjenih pet glavnih korakov te vadnice:

1. Ustvari nov projekt Scrap

2. Napišite pajek, ki se bo plazil po spletnem mestu in izvlekel podatke

3. Izvozite zapisane podatke v ukazni vrstici

4. Spremenite pajka, da sledite povezavam

5. Uporabite pajkove argumente

1. Ustvari projekt

Prvi korak je ustvarjanje projekta. Morali bi prenesti in namestiti Scrapy. V iskalno vrstico vnesite ime imenika, kamor želite shraniti podatke. Scrap uporablja različne pajke za pridobivanje informacij in ti pajki vložijo začetne zahteve za ustvarjanje imenikov. Če želite pajka spraviti v delo, morate obiskati seznam imenikov in vanj vstaviti določeno kodo. Pazi na datoteke v trenutnem imeniku in opazi dve novi datoteki: quotes-a.html in quotes-b.html.

2. Napišite pajka, ki se bo plazil po spletnem mestu in izvlekel podatke:

Najboljši način za pisanje pajka in izvlečenje podatkov je ustvarjanje različnih izbirnikov v Scrapjevi lupini. URL-je vedno priložite v narekovajih; sicer bo Scrap takoj spremenil naravo ali imena teh URL-jev. Za pravilno pisanje pajka uporabite dvojne navedbe okoli URL-ja. Uporabljajte.extract_first () in se izogibajte napaki v indeksu.

3. Izvozite zapisane podatke z ukazno vrstico:

Pomembno je izvoziti strgane podatke z ukazno vrstico. Če je ne izvozite, ne boste dobili natančnih rezultatov. Pajek bo ustvaril različne imenike, ki vsebujejo koristne informacije. Za boljši izvoz te informacije uporabite ključne ključne besede Python. Možen je uvoz podatkov v datoteke JSON. Datoteke JSON so uporabne za programerje. Orodja, kot je JQ, brez problema pomagajo pri izvozu strganih podatkov.

4. Spremenite pajka, da sledite povezavam:

V majhnih projektih lahko spremenite pajke, da ustrezno sledijo povezavam. Vendar pri velikih projektih strganja podatkov ni potrebno. Ko zamenjate pajka, se bo nastavila datoteka zadrževalnega mesta za Item Pipelines. To datoteko lahko najdete v razdelku Vadnica / pipelines.py. S Scrapom lahko kadarkoli zgradite prefinjene pajke in spremenite njihovo lokacijo. Naenkrat lahko ekstrahirate več mest in izvajate različne projekte za odvzem podatkov.

5. Uporabite pajkove argumente:

Povratni klic parse_author je pajkov argument, ki ga lahko uporabimo za črpanje podatkov iz dinamičnih spletnih mest. Pajkom lahko argumente ukazne vrstice priskrbite tudi z določeno kodo. Paukovi argumenti v hipu postanejo pajkovi atributi in spremenijo celoten videz vaših podatkov.

V tej vadnici smo zajeli le osnove Scrapia. Za to orodje obstaja veliko funkcij in možnosti. Preprosto morate prenesti in aktivirati Scrap, če želite vedeti več o njegovih specifikacijah.