Питхон

Анализа расположења са ТектБлоб-ом и Питхоном

Анализа расположења са ТектБлоб-ом и Питхоном
У овој лекцији користићемо један од изврсних Питхон пакета - ТектБлоб, за изградњу једноставног сентименталног анализатора. Сви знамо да су твитови један од омиљених примера скупова података када је реч о анализи текста у науци података и машинском учењу. То је зато што су твеетови у стварном времену (ако је потребно), јавно доступни (углавном) и представљају истинско људско понашање (вероватно). Због тога се твеетови обично користе док се врше било какве врсте доказа о концептима или водичима везаним за обраду природног језика (НЛП) и анализу текста.

Коришћење ТектБлоб-а у индустрији

Баш као што звучи, ТектБлоб је Питхон пакет за извођење једноставних и сложених операција анализе текста на текстуалним подацима као што су означавање говора, издвајање именица фраза, анализа сентимента, класификација, превод и још много тога. Иако постоји пуно више случајева коришћења ТектБлоб-а које бисмо могли обрадити на другим блоговима, овај покрива анализу Твеетс-а ради њиховог осећања.

Сентименти анализе имају велику практичну употребу за велики број сценарија:

Први кораци са ТектБлоб-ом

Знамо да сте овде дошли да видите неки практични код везан за сентиментални анализатор са ТектБлоб-ом. Због тога ћемо овај одељак скратити због увођења ТектБлоба за нове читаоце. Само напомена пре почетка је да користимо виртуелно окружење за ову лекцију коју смо направили следећом наредбом

питхон -м виртуаленв тектблоб
извор тектблоб / бин / ацтивате

Једном када је виртуелно окружење активно, можемо инсталирати ТектБлоб библиотеку унутар виртуелне енв тако да се могу извршити примери које следећи креирамо:

пип инсталл -У тектблоб

Једном када покренете горњу команду, то није то. ТектБлоб-у је такође потребан приступ неким подацима о обуци који се могу преузети помоћу следеће команде:

питхон -м тектблоб.довнлоад_цорпора

Нешто слично ћете видети преузимањем потребних података:

Анаконду можете користити и за покретање ових примера што је лакше. Ако га желите инсталирати на машину, погледајте лекцију која описује „Како инсталирати Анацонда Питхон на Убунту 18.04 ЛТС “и поделите своје повратне информације.

Да бисмо приказали врло брз пример за ТектБлоб, ево примера директно из његове документације:

фром тектблоб импорт ТектБлоб
тект = "'
Титуларна претња Блоба одувек ми се чинила као врхунски филм
чудовиште: незаситно гладна маса попут амебе која може продрети
практично било који заштитни механизам, способан за - као осуђени лекар, летеће
описује - „асимилација меса при контакту.
Поређење слајдова са желатином је проклето, то је концепт са највише
разарајуће потенцијалне последице, за разлику од сивог гоо сценарија
предложили технолошки теоретичари којих се плаше
вештачка интелигенција раширена.
"'
блоб = ТектБлоб (текст)
принт (блоб.ознаке)
принт (блоб.именске фразе)
за реченицу у блобу.реченице:
испис (реченица.сентимент.поларитет)
блоб.преведи (на = "ес")

Када покренемо горњи програм, добићемо следеће речи са ознакама и на крају емоције које показују две реченице у примеру примера:

Означене речи и осећања помажу нам да идентификујемо главне речи које заправо утичу на прорачун сентимента и поларитет реченице која се даје. То је зато што се значење и осећања речи мењају редоследом употребе, па све ово треба да буде динамично.

Анализа расположења заснована на лексикону

Било који сентимент може се једноставно дефинисати као функција семантичке оријентације и интензитета речи коришћених у реченици. Уз приступ заснован на лексикону за идентификовање емоција у датој речи или реченици, свака реч је повезана резултатом који описује емоције које реч показује (или барем покушава да искаже). Обично већина речи има унапред дефинисан речник о њиховом лексичком резултату, али када је реч о човеку, увек је намењен сарказму, тако да ти речници нису нешто на шта се можемо ослонити 100%. Речник ВордСтат сентимент укључује више од 9164 негативних и 4847 позитивних образаца речи.

Коначно, постоји још један метод за извођење анализе расположења (изван обима ове лекције), а то је техника машинског учења, али не можемо користити све речи у алгоритму МЛ јер ћемо се сигурно суочити са проблемима са прекомерном опремом. Можемо применити један од алгоритама за избор карактеристика као што је Цхи Скуаре или Мутуал Информатион пре него што обучимо алгоритам. Дискусију о приступу МЛ ограничићемо само на овај текст.

Коришћење Твиттер АПИ-ја

Да бисте почели да добијате твеетове директно са Твиттера, посетите почетну страницу програмера апликације овде:

хттпс: // програмер.твиттер.цом / ен / аппс

Региструјте своју пријаву попуњавањем овако датог обрасца:

Након што на располагању имате све токене на картици „Кључеви и жетони“:

Кључеве можемо користити за добијање потребних твеетова од Твиттер АПИ-ја, али морамо инсталирати само још један Питхон пакет који нам отежава добијање Твиттер података:

пип инсталл твеепи

Горњи пакет ће се користити за комплетну сву тешку комуникацију са Твиттер АПИ-јем. Предност Твеепи-а је у томе што не морамо писати пуно кода када желимо да аутентификујемо нашу апликацију за интеракцију са Твиттер подацима и она је аутоматски умотана у врло једноставан АПИ изложен кроз Твеепи пакет. Горе наведени пакет можемо увести у наш програм као:

импорт твеепи

После овога, само треба да дефинишемо одговарајуће променљиве у којима можемо да држимо Твиттер кључеве које смо добили са конзоле за програмере:

цонсумер_кеи = '[потрошачки_кључ]'
цонсумер_кеи_сецрет = '[потрошачки_кеј_секрет]'
аццесс_токен = '[аццесс_токен]'
аццесс_токен_сецрет = '[аццесс_токен_сецрет]'

Сад кад смо у коду дефинисали тајне за Твиттер, коначно смо спремни да успоставимо везу са Твиттер-ом за примање Твеетова и њихово суђење, мислим, њихово анализирање. Наравно, веза са Твиттер-ом треба да се успостави користећи ОАутх стандард и Твеепи пакет ће вам добро доћи за успостављање везе такође:

твиттер_аутх = твеепи.ОАутхХандлер (потрошачки кључ, потрошачки кључ_тајна)

Коначно, потребна нам је веза:

апи = твеепи.АПИ (твиттер_аутх)

Користећи инстанцу АПИ-а, можемо да претражујемо Твиттер на било којој теми коју му проследимо. То може бити једна реч или више речи. Иако ћемо препоручити што мање речи за прецизност. Покушајмо овде са примером:

пм_твеетс = апи.претрага („Индија“)

Горња претрага даје нам много твеетова, али ми ћемо ограничити број твеетова које добијемо натраг, тако да позив не одузима превише времена, јер га касније треба обрадити и пакет ТектБлоб:

пм_твеетс = апи.претрага („Индија“, број = 10)

На крају, можемо исписати текст сваког Твеет-а и расположење повезано са њим:

за твеет у пм_твеетс:
принт (твеет.текст)
анализа = ТектБлоб (твеет.текст)
штампати (анализа.сентимент)

Једном када покренемо горњу скрипту, почећемо да добијамо последњих 10 помињања поменутог упита и сваки твит ће се анализирати на вредност сентимента. Ево резултата које смо добили за исти:

Имајте на уму да бисте такође могли да направите бота за анализу расположења за стреаминг са ТектБлоб-ом и Твеепи-ом. Твеепи омогућава успостављање вебсоцкет стреаминг везе са Твиттер АПИ-јем и омогућава стриминг података са Твиттер-а у реалном времену.

Закључак

У овој лекцији смо погледали изврстан пакет за анализу текста који нам омогућава да анализирамо текстуална осећања и још много тога. ТектБлоб је популаран због начина на који нам омогућава да једноставно радимо са текстуалним подацима без икаквих мука због сложених АПИ позива. Такође смо интегрисали Твеепи да бисмо користили Твиттер податке. Са истим пакетом и врло мало промена у самом коду можемо лако да модификујемо употребу у случај употребе за стримовање.

Молимо вас да слободно делите повратне информације о лекцији на Твиттеру са @линукхинт и @сбмаггарвал (то сам ја!).

ОпенТТД вс Симутранс
Стварање сопствене симулације превоза може бити забавно, опуштајуће и изузетно примамљиво. Због тога морате да испробате што више игара како бисте про...
Водич за ОпенТТД
ОпенТТД је једна од најпопуларнијих игара за пословну симулацију. У овој игри морате створити диван посао превоза. Међутим, почет ћете у почетку око 1...
СуперТукКарт за Линук
СуперТукКарт је сјајан наслов дизајниран да вам пружи Марио Карт искуство бесплатно на вашем Линук систему. Прилично је изазовно и забавно играти, диз...