Топ 20 алгоритама, метода и техника за интелигенцију и машинско учење

Када сам почео да радим са проблемима машинског учења, тада ме ухватила паника који алгоритам да користим? Или који је лако применити? Ако сте попут мене, овај чланак би вам могао помоћи да сазнате више о алгоритмима, методама или техникама вештачке интелигенције и машинског учења за решавање било каквих неочекиваних или чак очекиваних проблема.

Машинско учење је тако моћна АИ техника која може ефикасно извршити задатак без коришћења експлицитних упутстава. МЛ модел може учити на основу својих података и искуства. Апликације за машинско учење су аутоматске, робусне и динамичне. Неколико алгоритама је развијено за решавање ове динамичне природе проблема из стварног живота. Уопштено говорећи, постоје три врсте алгоритама машинског учења као што су учење под надзором, учење без надзора и учење ојачавањем.

Најбољи алгоритми за интелигенцију и машинско учење

Избор одговарајуће технике или методе машинског учења један је од главних задатака за развој пројекта вештачке интелигенције или машинског учења. Доступно је неколико алгоритама и сви они имају своје предности и корисности. У наставку преносимо 20 алгоритама машинског учења како за почетнике тако и за професионалце. Па, погледајмо.

1. Наивни Баиес

Наивни Баиесов класификатор је пробабилистички класификатор заснован на Баиесовој теореми, уз претпоставку независности између својстава. Ове функције се разликују од апликације до апликације. То је једна од удобних метода машинског учења за почетнике који вежбају.

Наивни Баиес је условни модел вероватноће. Дати пример проблема који треба класификовати, представљен вектором Икс = (Икси … Иксн) представљајући неке н особине (независне променљиве), додељује тренутним вероватноћама инстанце за сваки од К потенцијалних исхода:

Проблем горње формулације је у томе што ако је број карактеристика н значајан или ако елемент може да поприми велики број вредности, заснивање таквог модела на табелама вероватноће је неизводљиво. Стога, поново развијамо модел како бисмо га учинили проводљивијим. Користећи Баиесову теорему, условна вероватноћа се може записати као,

Користећи Баиесову терминологију вероватноће, горња једначина се може записати као:

Овај алгоритам вештачке интелигенције користи се у класификацији текста, тј.е., анализа расположења, категоризација докумената, филтрирање нежељене поште и класификација вести. Ова техника машинског учења добро се изводи ако су улазни подаци категорисани у унапред дефинисане групе. Такође, потребно је мање података него логистичка регресија. Превазилази се у разним доменима.

2. Подршка Вецтор Мацхине

Суппорт Вецтор Мацхине (СВМ) је један од најчешће коришћених надзираних алгоритама машинског учења у пољу класификације текста. Ова метода се користи и за регресију. Такође се може означити као подршка векторским мрежама. Цортес & Вапник су развили ову методу за бинарну класификацију. Надгледани модел учења је приступ машинском учењу који даје резултате из обележених података о обуци.

Машина вектора ослонца конструише хиперраван или скуп хиперравни у врло високом или бесконачно димензионалном подручју. Израчунава површину линеарног раздвајања са максималном маржом за дати сет тренинга.

Само подскуп улазних вектора ће утицати на избор маргине (заокружено на слици); такви вектори називају се вектори подршке. Када не постоји линеарна раздвајајућа површина, на пример, у присуству бучних података, алгоритми СВМ-а са лабавом променљивом су прикладни. Овај класификатор покушава да раздвоји простор података употребом линеарних или нелинеарних разграничења између различитих класа.

СВМ се широко користи у проблемима класификације образаца и нелинеарној регресији. Такође, то је једна од најбољих техника за обављање аутоматске категоризације текста. Најбоља ствар код овог алгоритма је што не даје никакве снажне претпоставке о подацима.

Да би се применила машина за подршку вектора: библиотеке науке о подацима у Питхон-СциКит Леарн, ПиМЛ, СВМ^{Структура} Питхон, ЛИБСВМ и библиотеке науке о подацима у Р-Клар, е1071.

3. Линеарна регресија

Линеарна регресија је директан приступ који се користи за моделирање односа између зависне променљиве и једне или више независних променљивих. Ако постоји једна независна променљива, онда се то назива једноставна линеарна регресија. Ако је доступно више независних променљивих, то се назива вишеструка линеарна регресија.

Ова формула се користи за процену стварних вредности попут цене домова, броја позива, укупне продаје на основу континуираних променљивих. Овде се однос између независних и зависних променљивих успоставља уклапањем најбоље линије. Ова најбоље уклопљена линија позната је као регресиона линија и представљена је линеарном једначином

И = а * Кс + б.

овде,

И - зависна променљива
а - нагиб
Кс - независна променљива
б - пресретање

Овај метод машинског учења је једноставан за употребу. Извршава се брзо. Ово се може користити у послу за предвиђање продаје. Такође се може користити у процени ризика.

4. Логистичка регресија

Ево још једног алгоритма машинског учења - Логистичка регресија или логит регресија која се користи за процену дискретних вредности (бинарне вредности попут 0/1, да / не, тачно / нетачно) на основу датог скупа независне променљиве. Задатак овог алгоритма је да предвиди вероватноћу инцидента прилагођавањем података логит функцији. Излазне вредности леже између 0 и 1.

Формула се може користити у разним областима као што су машинско учење, научна дисциплина и медицинска поља. Може се користити за предвиђање опасности од настанка дате болести на основу посматраних карактеристика пацијента. Логистичка регресија се може користити за предвиђање жеље купца да купи производ. Ова техника машинског учења користи се у прогнози времена за предвиђање вероватноће кише.

Логистичка регресија може се поделити у три врсте -

Бинарна логистичка регресија
Мулти-номинална логистичка регресија
Редовна логистичка регресија

Логистичка регресија је мање компликована. Такође је робустан. Може се носити са нелинеарним ефектима. Међутим, ако су подаци о тренингу оскудни и високо димензионални, овај алгоритам МЛ може се претјерати. Не може предвидети континуиране исходе.

5. К-најближи сусед (КНН)

К-најближи сусед (кНН) је добро познати статистички приступ класификацији и широко је проучаван током година и рано се примењивао на задатке категоризације. Делује као непараметарска методологија за класификацију и регресионе проблеме.

Ова метода АИ и МЛ је прилично једноставна. Одређује категорију тест документа т на основу гласања о скупу к докумената који су најближи т у погледу удаљености, обично еуклидске удаљености. Основно правило одлуке дато за документ испитивања т за кНН класификатор је:

Где је и (ки, ц) бинарна класификациона функција за документ обуке ки (која враћа вредност 1 ако је ки означен са ц или 0 у супротном), ово правило означава са т категоријом која има највише гласова у к -ближи комшилук.

КНН нас може мапирати у наш стварни живот. На пример, ако желите да сазнате неколико људи, о којима немате информације, можда бисте више волели да одлучите у вези са његовим блиским пријатељима, а самим тим и круговима у којима се креће и да бисте добили приступ његовим / њеним информацијама. Овај алгоритам је рачунски скуп.

6. К-значи

к-значи кластерисање је метода ненадгледаног учења која је доступна за кластер анализу у рударству података. Сврха овог алгоритма је да подели н посматрања у к кластера где свако посматрање припада најближој средини кластера. Овај алгоритам се користи у сегментацији тржишта, рачунарском виду и астрономији, међу многим другим доменима.

7. Стабло одлучивања

Стабло одлука је алат за подршку одлучивању који користи графички приказ, тј.е., граф налик дрвету или модел одлука. Уобичајено се користи у анализи одлука и такође је популаран алат у машинском учењу. Стабла одлука се користе у оперативним истраживањима и управљању операцијама.

Има структуру налик дијаграму тока у којој сваки унутрашњи чвор представља 'тест' атрибута, свака грана представља резултат теста, а сваки чвор листа ознаку класе. Пут од корена до листа познат је као правила класификације. Састоји се од три врсте чворова:

Чворови одлуке: типично представљени квадратима,
Чворови шансе: обично представљени круговима,
Крајњи чворови: обично представљени троугловима.

Стабло одлуке је једноставно за разумевање и тумачење. Користи модел беле кутије. Такође, може се комбиновати са другим техникама одлучивања.

8. Случајна шума

Случајна шума је популарна техника учења ансамбла која делује тако што конструише мноштво стабала одлука у време тренинга и даје категорију која је начин категорија (класификација) или средње предвиђање (регресија) сваког дрвета.

Време рада овог алгоритма за машинско учење је брзо и може да ради са неуравнотеженим подацима који недостају. Међутим, када смо га користили за регресију, не може предвидети даље од опсега у подацима о тренингу, а може и да прекомпонује податке.

9. ЦАРТ

Стабло класификације и регресије (ЦАРТ) је једна врста стабла одлучивања. Дрво одлука дјелује као рекурзивни приступ партиционирању и ЦАРТ дијели сваки улазни чвор у два подређена чвора. На сваком нивоу стабла одлуке, алгоритам идентификује услов - која променљива и ниво ће се користити за поделу улазног чвора на два подређена чвора.

Кораци алгоритма ЦАРТ дати су у наставку:

Узми улазне податке
Најбољи Сплит
Најбоља променљива
Подијелите улазне податке на лијеви и десни чвор
Наставите корак 2-4
Резидба стабла одлучивања

10. Априори алгоритам машинског учења

Априори алгоритам је алгоритам категоризације. Ова техника машинског учења користи се за сортирање велике количине података. Такође се може користити за праћење како се развијају односи и граде категорије. Овај алгоритам је метода надзора без надзора која генерише правила придруживања из датог скупа података.

Априори алгоритам машинског учења функционише као:

Ако се скуп предмета често јавља, тада се често јављају и сви подскупови скупа предмета.
Ако се скуп предмета појављује ретко, тада се и сви суперсетови скупа предмета ретко појављују.

Овај МЛ алгоритам се користи у разним апликацијама, као што је откривање нежељених реакција на лекове, за анализу тржишне корпе и аутоматско довршавање апликација. Једноставно је применити.

11. Анализа главне компоненте (ПЦА)

Анализа главних компонената (ПЦА) је алгоритам без надзора. Нове карактеристике су правокутне, што значи да нису у корелацији. Пре извођења ПЦА, увек бисте требали нормализовати свој скуп података, јер трансформација зависи од обима. Ако то не учините, функције које су на најзначајнијем нивоу доминираће новим главним компонентама.

ПЦА је свестрана техника. Овај алгоритам је лак за употребу и једноставан за имплементацију. Може се користити у обради слика.

12. ЦатБоост

ЦатБоост је алгоритам машинског учења отвореног кода који потиче од Иандек-а. Назив „ЦатБоост“ потиче од две речи „Цатегори“ и „Боостинг“.„Може се комбиновати са дубоким оквирима учења, тј.е., Гоогле-ов ТенсорФлов и Аппле-ов Цоре МЛ. ЦатБоост може да ради са бројним типовима података како би решио неколико проблема.

13. Итеративни дихотомизатор 3 (ИД3)

Итеративни дихотомизатор 3 (ИД3) је алгоритамско правило за учење стабла одлука које је представио Росс Куинлан и које је запослено за опскрбу стаблом одлука из скупа података. Он је претеча Ц4.5 алгоритамски програм и запослен је у доменима процеса машинског учења и језичке комуникације.

ИД3 се може превише уклапати у податке о обуци. Ово алгоритамско правило је теже користити на континуираним подацима. Не гарантује оптимално решење.

14. Хијерархијско груписање

Хијерархијско груписање је начин кластер анализе. У хијерархијском кластеру развијено је стабло кластера (дендрограм) за илустрацију података. У хијерархијском кластерисању, свака група (чвор) повезује се са две или више група наследница. Сваки чвор унутар стабла кластера садржи сличне податке. Чворови се групишу на графикону поред других сличних чворова.

Алгоритам

Ова метода машинског учења може се поделити на два модела - одоздо према горе или одозго надоле:

Одозго (хијерархијско агломеративно груписање, ХАЦ)

На почетку ове технике машинског учења, узмите сваки документ као један кластер.
У новом кластеру спојене су две ставке одједном. Како се комбинације спајају укључује калкулативну разлику између сваког уграђеног пара и самим тим алтернативних узорака. Постоји много опција за то. Неки од њих су:

а. Комплетна веза: Сличност најудаљенијег пара. Једно ограничење је да одступања могу довести до спајања блиских група касније него што је оптимално.

б. Сингле-линк: Сличност најближег пара. То може проузроковати прерано спајање, мада су те групе прилично различите.

ц. Просек групе: сличност међу групама.

д. Сличност центроида: свака итерација спаја кластере са најистакнутијом сличном централном тачком.

Док се све ставке не стопе у један кластер, поступак упаривања траје.

Одозго (групно раздвајање)

Подаци почињу комбинованим кластером.
Грозд се дели на два различита дела, према неком степену сличности.
Кластери се поново деле изнова на два пута све док кластери не садрже само једну тачку података.

15. Бацк-пропагација

Повратно ширење је надгледани алгоритам учења. Овај МЛ алгоритам долази из подручја АНН-а (вештачке неуронске мреже). Ова мрежа је вишеслојна мрежа за прослеђивање унапред. Ова техника има за циљ дизајнирање дате функције модификовањем унутрашњих тежина улазних сигнала како би се добио жељени излазни сигнал. Може се користити за класификацију и регресију.

Алгоритам повратног ширења има неке предности, тј.е., лако га је применити. Математичка формула која се користи у алгоритму може се применити на било коју мрежу. Време израчунавања може се смањити ако су тежине мале.

Алгоритам повратног ширења има неке недостатке, јер је осетљив на бучне податке и одступања. То је у потпуности заснован на матрици. Стварне перформансе овог алгоритма у потпуности зависе од улазних података. Излаз може бити нумерички.

16. АдаБоост

АдаБоост значи Адаптиве Боостинг, метод машинског учења који представљају Иоав Фреунд и Роберт Сцхапире. То је мета-алгоритам и може се интегрисати са другим алгоритмима за учење како би се побољшале њихове перформансе. Овај алгоритам је брз и лак за употребу. Добро функционише са великим скуповима података.

17. Дубоко учење

Дубоко учење је скуп техника инспирисаних механизмом људског мозга. Два основна дубока учења, тј.е., У класификацији текста користе се конволуционе неуронске мреже (ЦНН) и периодичне неуронске мреже (РНН). Алгоритми дубоког учења попут Ворд2Вец или ГлоВе такође се користе за добијање високо рангираних векторских представљања речи и побољшање тачности класификатора који је обучен традиционалним алгоритмима машинског учења.

Овој методи машинског учења треба много узорака за обуку уместо традиционалних алгоритама машинског учења, тј.е., минимум милиона етикетираних примера. Супротно томе, традиционалне технике машинског учења достижу прецизан праг где год додавање више узорака за обуку не побољша њихову укупну тачност. Класификатори дубоког учења надмашују бољи резултат са више података.

18. Алгоритам појачавања градијента

Појачавање градијента је метода машинског учења која се користи за класификацију и регресију. То је један од најснажнијих начина за развој предиктивног модела. Алгоритам појачавања градијента има три елемента:

Функција губитка
Слаб ученик
Адитивни модел

19. Хопфиелд Нетворк

Хопфиелд мрежа је једна врста рекурентних вештачких неуронских мрежа коју је Јохн Хопфиелд дао 1982. године. Ова мрежа има за циљ да ускладишти један или више узорака и да се призове целокупним обрасцима на основу делимичног уноса. У Хопфиелд мрежи сви чворови су и улази и излази и потпуно су међусобно повезани.

20. Ц4.5

Ц4.5 је стабло одлуке које је измислио Росс Куинлан. Његова надограђена верзија ИД3. Овај алгоритамски програм обухвата неколико основних случајева:

Сви узорци са списка припадају сличној категорији. Ствара чвор листа за стабло одлуке у коме се каже да ће одлучити о тој категорији.
Ствара чвор одлуке изнад стабла користећи очекивану вредност класе.
Ствара чвор одлуке изнад стабла користећи очекивану вредност.

Завршавајући мисли

Веома је битно користити одговарајући алгоритам заснован на вашим подацима и домену за развој ефикасног пројекта машинског учења. Такође, разумевање критичне разлике између сваког алгоритма машинског учења је неопходно за адресирање „када одаберем који.'Као што је, у приступу машинског учења, машина или уређај научио кроз алгоритам учења. Чврсто верујем да вам овај чланак помаже да разумете алгоритам. Ако имате било какав предлог или питање, слободно питајте. Настави да читаш.