Логистичка регресија у Питхону

Логистичка регресија је алгоритам класификације машинског учења. Логистичка регресија је такође слична линеарној регресији. Али главна разлика између логистичке регресије и линеарне регресије је у томе што су излазне вредности логистичке регресије увек бинарне (0, 1), а не нумеричке. Логистичка регресија у основи ствара везу између независних променљивих (једне или више њих) и зависних променљивих. Зависна променљива је бинарна променљива која има углавном два случаја:

1 за тачно или
0 за фалсе

Кључни значај логистичке регресије:

Независне променљиве не смеју бити мултиколинеарност; ако постоји нека веза, онда би то требало бити врло мало.
Скуп података за логистичку регресију треба да буде довољно велик да би се постигли бољи резултати.
Само би ти атрибути требали бити тамо у скупу података, што има неко значење.
Независне променљиве морају бити у складу са лог квоте.

Да би се изградио модел логистичка регресија, користимо сцикит-научити библиотека. Процес логистичке регресије у питхону је дат у наставку:

Увезите све потребне пакете за логистичку регресију и друге библиотеке.
Отпремите скуп података.
Разумевање независних променљивих скупа података и зависних променљивих.
Поделите скуп података на податке о обуци и тестирању.
Иницирајте модел логистичке регресије.
Модел прилагодите скупу података о обуци.
Предвидите модел помоћу података теста и израчунајте тачност модела.

Проблем: Први кораци су прикупљање скупа података на који желимо да применимо Логистичка регресија. Скуп података који ћемо овде користити служи за скуп података за пријем у МС. Овај скуп података садржи четири променљиве, а од тога су три независне променљиве (ГРЕ, ГПА, ворк_екпериенце), а једна је зависна променљива (примљена). Овај скуп података ће рећи да ли ће кандидат добити пријем на престижни универзитет на основу свог ГПА, ГРЕ или радног искуства.

Корак 1: Увозимо све потребне библиотеке које смо захтевали за програм питхон.

Корак 2: Сада учитавамо свој скуп података за пријем мс помоћу функције панди реад_цсв.

Корак 3: Скуп података изгледа испод:

Корак 4: Проверавамо све колоне доступне у скупу података, а затим постављамо све независне променљиве на променљиву Кс, а зависне променљиве на и, као што је приказано на слици испод.

Корак 5: Након што смо независне променљиве поставили на Кс, а зависне променљиве на и, овде сада штампамо да бисмо проверили Кс и и помоћу функције хеад пандас.

Корак 6: Сада ћемо поделити читав скуп података на тренинг и тест. За ово користимо методу траин_тест_сплит склеарна. За тест смо дали 25% целокупног скупа података, а за обуку преосталих 75% скупа података.

Корак 7: Сада ћемо поделити читав скуп података на тренинг и тест. За ово користимо методу траин_тест_сплит склеарна. За тест смо дали 25% целокупног скупа података, а за обуку преосталих 75% скупа података.

Затим креирамо модел логистичке регресије и прилагођавамо податке о обуци.

Корак 8: Сада је наш модел спреман за предвиђање, тако да сада преносимо тест (Кс_тест) податке моделу и добили смо резултате. Резултати показују (и_предицтионс) да вредности 1 (прихваћене) и 0 (неприхваћене).

Корак 9: Сада исписујемо извештај о класификацији и матрицу забуне.

Извештај о класификацији показује да модел може предвидети резултате са тачношћу од 69%.
Матрица забуне приказује укупне детаље Кс_тест података као:
ТП = истински позитивни = 8
ТН = Прави негативи = 61
ФП = лажно позитивни = 4
ФН = Лажни негативци = 27

Дакле, укупна тачност према цонфусион_матрик је:

Тачност = (ТП + ТН) / Укупно = (8 + 61) / 100 = 0.69

Корак 10: Сада ћемо унакрсно провјерити резултат кроз штампу. Дакле, само исписујемо 5 најбољих елемената Кс_тест и и_тест (стварна стварна вредност) помоћу функције хеад пандас. Затим, такође исписујемо 5 најбољих резултата предвиђања као што је приказано доле:

Комбинујемо сва три резултата у листу да бисмо разумели предвиђања као што је приказано у наставку. Можемо видети да је осим података о 341 Кс_тест, који су били тачни (1), предвиђање нетачно (0). Дакле, наша предвиђања модела раде 69%, као што смо већ показали горе.

Корак 11: Дакле, разумемо како се предвиђања модела раде на невиђеном скупу података попут Кс_тест. Дакле, креирали смо само насумично нови скуп података користећи оквир података пандас, проследили га обученом моделу и добили резултат приказан испод.

Комплетни код у питхон-у дат у наставку:

Код овог блога, заједно са скупом података, доступан је на следећој вези
хттпс: // гитхуб.цом / схекхарпандеи89 / логистиц-регрессион