Питхон

Како рашчланити и стругати ХТМЛ помоћу Пикуери-а

Како рашчланити и стругати ХТМЛ помоћу Пикуери-а
„Пикуери“ је независни Питхон модул који вам омогућава рашчлањивање и издвајање података из „кмл“ и „хтмл“ докумената. Инспирисан је јКуери ЈаваСцрипт библиотеком и садржи готово идентичну синтаксу, омогућавајући вам да користите многе помоћне функције и стенографски код за рашчлањивање и манипулисање стаблом докумената. Овај чланак покрива једноставан водич за Пикуери који ће вам помоћи да започнете са модулом.

Инсталација Пикуери-а

Да бисте инсталирали Пикуери у Убунту, користите наредбу наведену у наставку:

$ судо апт инсталирајте питхон3-пикуери

Такође можете инсталирати најновију верзију Пикуери-ја из „пип“ менаџера пакета тако што ћете узастопно покренути следеће две команде:

$ судо апт инсталирај питхон3-пип
$ пип3 инсталирај пикуери

Да бисте инсталирали Пикуери у другим Линук дистрибуцијама, инсталирајте „пип3“ из менаџера пакета и покрените другу горе поменуту команду.

Креирање рашчлањивог стабла документа

Да бисте могли да рашчланите и извадите податке из ХТМЛ документа, потребно је да направите стабло докумената. Стабло документа можете створити од једноставног ХТМЛ означавања помоћу примера кода у наставку:

из пикуери увоза ПиКуери као пк
доцумент = пк ("Здраво свете !!")
испис (документ)
испис (врста (документ))

Прва изјава увози класу „ПиКуери“ из модула „пикуери“. Затим се креира нова инстанца класе ПиКуери. Након покретања горњег узорка кода, требали бисте добити следећи излаз:

Здраво Свете !!

Обратите пажњу на други ред у излазу. Овде „доцумент“, који је инстанца класе „ПиКуери“, не враћа објект типа стринг. Можете брзо да затражите све методе доступне за инстанцу „документ“ додавањем следеће додатне линије у горњи узорак кода:

из пикуери увоза ПиКуери као пк
документ = пк ("Здраво Свете !!")
испис (помоћ (документ))

Такође можете да прегледате АПИ за класу ПиКуери на мрежи.

Да бисте креирали стабло докумената од УРЛ-а, користите следећи код (замените „урл“ вашом жељеном адресом):

фром пикуери импорт ПиКуери ас пк
доцумент = пк (урл = 'хттпс: // пример.цом ')
испис (документ)

Да бисте креирали стабло документа из локалне ХТМЛ датотеке, користите доњи код (замените вредност „име датотеке“ према вашим потребама):

из пикуери увоза ПиКуери као пк
доцумент = пк (име датотеке = 'индек.хтмл ')
испис (документ)

Сада када имате стабло докумената, можете почети да га рашчлањујете.

Манипулирање стаблом докумената

Можете извући податке и манипулисати стаблима докумената помоћу различитих метода. Неке од најчешћих метода су наведене у наставку са узорцима. За све корисне методе погледајте АПИ који је овде доступан.

Можете користити методу „текст“ да бисте добили текстуални садржај елемента:

фром пикуери импорт ПиКуери ас пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
штампање (стр.текст ())

Можете одабрати одређену ознаку / елемент тако што ћете дати његово име као аргумент инстанци „документ“. Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Здраво Свете !!

Атрибуте ознаке можете добити помоћу методе „аттр“. Да бисте то учинили, одаберите ознаку коју желите да рашчланите (у овом случају „п“) и наведите име атрибута као аргумент (у овом случају „ид“) или користите тачкасти запис.

из пикуери увоза ПиКуери као пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
испис (документ)
штампање (стр.аттр ("ид"), стр.аттр.ид)

Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Здраво Свете !!

ЦСС-ом можете манипулисати помоћу методе „цсс“. Да бисте додали ЦСС стилове у

или било коју другу ознаку, можете користити следећи код:

фром пикуери импорт ПиКуери ас пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
стр.цсс ("боја": "црвена")
испис (документ)
штампање (стр.аттр ("стил"))

Замените део „„ боја “:„ црвени ““ својим прилагођеним стиловима. Након покретања горњег узорка кода, требали бисте добити сљедећи излаз и можете провјерити да ли је ЦСС правилно примијењен:

Здраво Свете !!


боја црвена

Ако имате унапред стилизовану класу, можете само да користите методу „аддЦласс“ да бисте применили постојеће стилове.

из пикуери увоза ПиКуери као пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
стр.аддЦласс ("мој стил")

Можете додати и додати сопствене прилагођене ознаке помоћу примера кода у наставку:

из пикуери увоза ПиКуери као пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
стр.препенд ("

Здраво

")
стр.додати("

Здраво

")
испис (документ)

Замените аргументе у методи „додавање“ и „додавање“ властитим вредностима. Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Здраво

Здраво Свете !!

Здраво

Да бисте уклонили садржај елемента, користите методу „празно“.

фром пикуери импорт ПиКуери ас пк
документ = пк ("

Здраво Свете !!

")
п = документ ('п')
стр.празно ()
испис (документ)

Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Можете да користите методу „филтер“ да бисте изабрали одређене елементе када постоји више ознака истог типа. На пример, доњи код приказује „

Ознака која има „ид“ као „здраво“:

фром пикуери импорт ПиКуери ас пк
документ = пк ("

Здраво

Свет !!

")
п = документ ('п')
штампање (стр.филтер ("# здраво"))

Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Здраво

Можете пронаћи више ознака / елемената одједном помоћу методе „пронађи“:

фром пикуери импорт ПиКуери ас пк
документ = пк ("

Здраво

Свет !!

")
штампати (документ.пронађи ('п'))

Наведите име ознаке / елемента као аргумент за методу „пронађи“. Након покретања горњег узорка кода, требали бисте добити сљедећи излаз:

Здраво

Свет !!

Можете се пребацити између „кмл“ и „хтмл“ парсера користећи додатни аргумент „парсер“:

из пикуери увоза ПиКуери као пк
документ = пк ("

Здраво

Свет !!

", парсер =" хтмл ")
испис (документ)

Ако вам је потребна додатна помоћ око Пикуери-а, погледајте његову званичну документацију и примере који су овде доступни.

Закључак

ПиКуери вам омогућава брзо рашчлањивање ХТМЛ докумената писањем минималног кода, јер укључује бројне помоћне функције које у потпуности изостављају потребу за писањем прилагођеног кода. Његова „јКуери“ попут синтаксе и структуре такође помаже у одабиру елемената и чворова без уласка дубље у стабло докумената, посебно када има пуно угнежђених ознака.

Екран Трацкпад и показивач миша АппиМоусе за Виндовс таблете
Корисницима таблета често недостаје показивач миша, посебно када су уобичајени за коришћење преносних рачунара. Паметни телефони и таблети на додир ос...
Средњи тастер миша не ради у оперативном систему Виндовс 10
Тхе средње дугме миша помаже вам да се крећете кроз дугачке веб странице и екране са пуно података. Ако се то заустави, на крају ћете користити тастат...
Како да промените леви и десни тастер миша на рачунару са Виндовс 10
Сасвим је нормално да су сви уређаји рачунарског миша ергономски дизајнирани за дешњаке. Али постоје доступни уређаји за миш који су посебно дизајнира...