Питхон

Водич за почетнике за стругање Веба помоћу Питхона и Беаутифул супе

Водич за почетнике за стругање Веба помоћу Питхона и Беаутифул супе

Светска мрежа је свеобухватни и крајњи извор свих података који постоје. Брзи развој који је Интернет забележио у последње три деценије је без преседана. Као резултат, веб се свакодневно монтира са стотинама терабајта података.

Сви ови подаци имају неку вредност за одређеног некога. На пример, историја прегледања има значај за апликације на друштвеним мрежама, јер је користе за персонализацију огласа које вам приказују. А и за ове податке постоји велика конкуренција; неколико МБ више неких података може предузећима дати значајну предност у односу на конкуренцију.

Ископавање података помоћу Питхона

Да бисмо помогли онима од вас који су нови у стругању података, припремили смо овај водич у којем ћемо показати како се стружу подаци са веба помоћу библиотеке Питхон и Беаутифул Соуп.

Претпостављамо да већ имате средње познавање Питхона и ХТМЛ-а, јер ћете радити са обојицом пратећи упутства у овом водичу.

Будите опрезни на којим веб локацијама испробавате своје новооткривене вештине рударења података, јер многе веб локације ово сматрају наметљивим и знају да би могло бити последица.

Инсталирање и припрема библиотека

Сада ћемо користити две библиотеке које ћемо користити: библиотеку захтева питхон за учитавање садржаја са веб страница и библиотеку Беаутифул Соуп за стварни стругајући бит процеса. Постоје алтернативе за БеаутифулСоуп, пазите, и ако сте упознати са било којим од следећег, слободно их користите уместо њих: Сцраппи, Мецханизе, Селениум, Портиа, кимоно и ПарсеХуб.

Библиотека захтева се може преузети и инсталирати помоћу наредбе пип као у наставку:

# пип3 захтева за инсталацију

Библиотека захтева треба да буде инсталирана на вашем уређају. Слично томе, преузмите и БеаутифулСоуп:

# пип3 инсталирај беаутифулсоуп4

Тиме су наше библиотеке спремне за неке акције.

Као што је горе поменуто, библиотека захтева нема много користи осим преузимања садржаја са веб страница. Библиотека БеаутифулСоуп и библиотеке захтева имају место у свакој скрипти коју ћете написати и пре сваке морају бити увезене на следећи начин:

$ захтева за увоз
$ са бс4 увози БеаутифулСоуп као бс

Ово додаје тражену кључну реч у простор имена, сигнализирајући Питхону значење кључне речи кад год се затражи њена употреба. Иста ствар се дешава са кључном речи бс, мада овде имамо предност додељивања једноставније кључне речи за БеаутифулСоуп.

веб страница = захтеви.гет (УРЛ)

Горњи код преузима УРЛ веб странице и ствара од ње директни низ, чувајући га у променљивој.

$ вебцонтент = веб страница.садржај

Команда изнад копира садржај веб странице и додељује их променљивом веб садржају.

Са тим смо завршили са библиотеком захтева. Преостало је само променити опције библиотеке захтева у БеаутифулСоуп опције.

$ хтмлцонтент = бс (вебцонтент, „хтмл.парсер “)

Овим се анализира објект захтева и претвара у читљиве ХТМЛ објекте.

Уз све то збринуто, можемо прећи на стварно стругање.

Стругање Веба помоћу Питхона и БеаутифулСоупа

Кренимо даље и видимо како можемо помоћу програма БеаутифулСоуп стругати за ХТМЛ објектима података.

Да бисмо илустровали пример, док објашњавамо ствари, радићемо са овим ХТМЛ исјечком:

Садржају овог исечка можемо приступити помоћу БеаутифулСоуп-а и користити га на променљивој ХТМЛ садржаја као под:


Горњи код претражује било које именоване ознаке

, и показује га кориснику. Ако пронађе више ознака, приказује их једну по једну:

Технологија

Да истовремено меморишете именоване ознаке

на листу, издали бисмо коначни код као под:

Излаз би се требао вратити овако:

Да позовемо једног од

означите листу, индексирајте листу и узмите ону коју желите.

Сада да видимо како да одаберемо

ознаке задржавајући у перспективи њихове карактеристике. Да бисте одвојили а
, требали би нам
ознаке са атрибутом „Тецх_хеад“. Унесите следећи код:


за див у супи.финд_алл ('див', аттрс = 'цласс' = 'Тецх_хеад'):

Ово преузима

ознака.

Добили бисте:

Технологија

Све без ознака.

На крају ћемо објаснити како да одаберемо вредност атрибута у ознаци. Код треба да има следећу ознаку:

дама

Да бисте извршили вредност повезану са атрибутом срц, користили бисте следеће:

хтмлцонтент.пронађи („имг“) [„срц“]

А излаз би испао као:

"имагес_4 / а-почетници-водич-за-стругање-веб-са-питоном-и-лепом-супом.јпг "

Ох дечко, то је сигурно пуно посла!

Ако сматрате да је ваше познавање питхона или ХТМЛ-а неадекватно или ако сте једноставно преплављени стругањем по мрежи, не брините.

Ако сте предузеће које треба редовно да прибавља одређену врсту података, али не можете сами да направите стругање по мрежи, постоје начини за решавање овог проблема. Али знајте да ће вас то коштати нешто новца. Можете пронаћи некога ко ће за вас обавити стругање или можете добити премиум услугу података са веб локација попут Гоогле-а и Твиттер-а да бисте податке делили с вама. Они деле делове података користећи АПИ-је, али ови АПИ позиви су ограничени дневно. Осим тога, веб локације попут ове могу бити врло заштитне за своје податке. Много таквих веб локација обично не дели ниједан од својих података.

Последње мисли

Пре него што завршимо, дозволите ми да вам кажем наглас ако већ није било само по себи разумљиво; наредбе финд (), финд_алл () су ваши најбољи пријатељи када не користите стругање помоћу БеаутифулСоуп-а. Иако је ту још пуно тога за обрадити стругање матичних података помоћу Питхона, овај водич би требао бити довољан онима који тек почињу.

Инсталирајте најновију ОпенРА Стратеги Гаме на Убунту Линук
ОпенРА је Либре / Фрее Реал Тиме стратешки механизам који ствара ране Вествоод игре попут класичне Цомманд & Цонкуер: Ред Алерт. Дистрибуирани модови ...
Инсталирајте најновији Долпхин Емулатор за Гамецубе & Вии на Линук
Долпхин Емулатор вам омогућава да играте изабране игре Гамецубе и Вии на Линук Персонал Цомпутерс (ПЦ). Долпхин Емулатор је слободно доступан и емула...
Како се користи ГамеЦонкуерор Цхеат Енгине у Линуку
Чланак покрива водич о коришћењу ГамеЦонкуерор варалице у Линуку. Многи корисници који играју игре на Виндовс-у често користе апликацију „Цхеат Енгине...

Најновији чланци о оперативним системима. Много занимљивих водича и корисних савета. Осећате се као своји у свету модерне технологије