Back to Question Center
0

Semalt - Nola Web orrien bilaketan?

1 answers:

Beautiful Soup Python liburutegia oso erabilia da web orrialdeak barneratzeko. XML eta HTML dokumentuetatik. Web scraping, webguneen eta orrien datuak ateratzeko teknika bat oso zabalduta dago datuen azterketan eta kudeaketa arloetan. Kasu gehienetan, Python-en programazio-lengoaia oinarrizko datuak datu-zientzian da - lebanon web hosting.

Python 3-k scraping tresnak eta zure datuen kudeaketa proiekturako aplikatu ditzakezun moduluak ditu. Gaur egun, Beautiful Soup 4 moduan exekutatuta, modulu hau Python 3 eta Python 2 bateragarriak dira. 7. Beautiful Sopa 4 moduluak ere parasu-zuhaitza sortzeko gai da etiketa itxitako zopa egiteko. Tutorial honetan, orria nola laburtu eta scraped datuak CSV fitxategi batera idazten ikasiko duzu.

Lehen urratsak

Hasteko, konfiguratu zerbitzaria edo tokiko Python kodetze ingurunea ordenagailuan. Eredu ederra eta eskaera modulua instalatu beharko zenuke zure makinan. Bi moduluekin lan egiteko jakitea ere ezinbesteko baldintza da. HTML markatzea eta egitura ezagutzea abantaila gehigarria da.

Zure datuak ulertu

Testuinguru honetan, Artearen Galeria Nazionalaren datu errealak erabiliko dira Beautiful Soup 4 nola erabili ikasteko.Artearen Galeria Nazionalak 120.000 pieza ditu, 13.000 artistak gutxi gorabehera. Artea Washington Dn oinarritzen da. C, Estatu Batuak.

Webguneen erauzketa ederra duen zopa ez da hori konplexua. Adibidez, letra Z ardatzean zentratzen baduzu, markatu eta ohar egin zerrendako lehenengo izenetik behera. Kasu honetan, lehen izena Zabaglia, Niccola da. Koherentzia lortzeko, adierazi orri kopurua eta azken orriaren izena orri horretan.

Nola eskaerak eta Soup ederreko liburutegiak inportatu

Liburutegiak inportatzeko, aktibatu Python 3 programazio ingurunea. Egiaztatu direktorio bera daukazula zure programazio ingurunearekin. Exekutatu hurrengo komandoa hasteko. my_env / bin / activate.

Sortu fitxategi berri bat eta hasi Beautiful Soup and Requests libraries inportatzen. Liburutegiaren eskaera HTTP zure Python programetan erabil dezakezu formatu irakurgarrietan. Beautiful Soup, bestetik, orrialdeak labaintzen ditu azkar. Erabili bs4 zopa ederra inportatzeko.

Nola biltzen eta analizatu web orri bat

Eskabideak erabiltzea lehen orriaren URLa biltzea. Lehen orriaren URLa orrialde aldagarri batera esleituko da. Sortu BeautifulSoup objektua Requests-etik eta aztertu Python-en analizatzailea.

Tutorial honetan, loturak eta artisten izenak biltzea da helburua. Adibidez, artisten datak eta nazionalitateak jaso ditzakezu. Windows erabiltzaileentzat, egin klik eskuineko botoiaz artistaren lehenengo izenean. Kasu honetan, erabili Zabaglia, Niccola. Mac OS erabiltzaileentzat, kolpatu "CTRL" eta sakatu izena. Egin klik "Ikuskatu elementua" menuan pantailan popup-ak web-garatzaileen tresnak atzitzeko. Artistaren izenak inprimatzeko, Beautiful Soup-ek zuhaitz bat azkar aztertuko du.

Beheko estekak kentzen

Beheko estekak zure web orrian kentzeko, ikertu DOM elementua egin klik eskuineko botoiaz. Estekak HTML taula baten azpian daude. Beautiful Soup erabiliz, erabili "deskonposatzeko metodoa" etiketa tags parse zuhaitzetik.

Nola edukia etiketa batetik ateratzea

Ez duzu etiketa estekatu osoa inprimatzeko, erabili Beautiful Soup etiketa batetik materiala kentzeko.Artista ederrekin lotutako URLak ere kapturatu ditzakezu Beautiful Soup 4 erabiliz.

CSR fitxategi batean scraped datuak atzematea

CSV fitxategiak testu soiletan egituratutako datuak gordetzeko aukera emango dizu, formatuan gehien erabiltzen diren formatuetarako. Python testu arrunteko fitxategiak kudeatzeko jakitea gomendatzen da.

Webaren datuak erauzteko orriak laburtu eta informazioa lortzeko erabiltzen da. Ulertu behar dituzun webguneetatik ateratako informazioa. Web gune dinamiko batzuek web guneen datuak erauzteko mugatzen dute. Zopa ederraren eta Python 3 orriaren orraztea sinplea da.

December 22, 2017