Апацхе Спарк

Инсталирање Апацхе Спарк на Убунту 17.10

Инсталирање Апацхе Спарк на Убунту 17.10

Апацхе Спарк је алатка за аналитику података која се може користити за обраду података из ХДФС-а, С3 или других извора података у меморији. У овом посту ћемо инсталирати Апацхе Спарк на Убунту 17.10 машина.

Убунту верзија

За овај водич користићемо Убунту верзију 17.10 (ГНУ / Линук 4.13.0-38-генерички к86_64).

Апацхе Спарк је део Хадооп екосистема за велике податке. Покушајте да инсталирате Апацхе Хадооп и направите примерак апликације са њим.

Ажурирање постојећих пакета

Да бисмо започели инсталацију за Спарк, неопходно је да ажурирамо нашу машину најновијим доступним софтверским пакетима. То можемо учинити са:

судо апт-гет упдате && судо апт-гет -и дист-упграде

Како је Спарк заснован на Јави, морамо га инсталирати на нашу машину. Можемо користити било коју Јава верзију изнад Јава 6. Овде ћемо користити Јаву 8:

судо апт-гет -и инсталирај опењдк-8-јдк-хеадлесс

Преузимање датотека Спарк

Сви потребни пакети сада постоје на нашој машини. Спремни смо да преузмемо потребне Спарк ТАР датотеке како бисмо могли да их почнемо постављати и покренимо пример програма са Спарк-ом.

У овом водичу ћемо инсталирати Спарк в2.3.0 доступно овде:

Страница за преузимање варнице

Преузмите одговарајуће датотеке помоћу ове наредбе:

вгет хттп: // ввв-ус.апацхе.орг / дист / спарк / спарк-2.3.0 / искра-2.3.0-бин-хадооп2.7.тгз

У зависности од брзине мреже, ово може потрајати неколико минута јер је датотека велике величине:

Преузимање Апацхе Спарк-а

Сада када смо преузели ТАР датотеку, можемо да издвојимо у тренутни директоријум:

тар квзф искра-2.3.0-бин-хадооп2.7.тгз

Ово ће потрајати неколико секунди због велике величине датотеке архиве:

Архивиране датотеке у Спарк-у

Што се тиче надоградње Апацхе Спарк у будућности, то може створити проблеме због ажурирања путање. Ова питања се могу избећи стварањем софт линк-а за Спарк. Покрените ову наредбу да направите софтлинк:

лн -с спарк-2.3.0-бин-хадооп2.7 искра

Додавање варнице у путању

Да бисмо извршили Спарк скрипте, сада ћемо је додати на путању. Да бисте то урадили, отворите датотеку басхрц:

ви ~ /.басхрц

Додајте ове редове на крај .басхрц датотеку тако да путања може садржати путању извршне датотеке Спарк:

СПАРК_ХОМЕ = / ЛинукХинт / спарк
екпорт ПАТХ = $ СПАРК_ХОМЕ / бин: $ ПАТХ

Сада датотека изгледа овако:

Додавање варнице у ПАТХ

Да бисте активирали ове промене, покрените следећу наредбу за басхрц датотеку:

извор ~ /.басхрц

Лансирање љуске Спарк

Сада када смо одмах изван директорија варнице, покрените следећу команду да бисте отворили љуску апарка:

./ варница / канта / варница

Видећемо да је љуска Спарк отворена сада:

Лансирање љуске Спарк

У конзоли можемо видети да је Спарк такође отворио веб конзолу на порту 404. Посетимо је:

Апацхе Спарк веб конзола

Иако ћемо радити на самој конзоли, веб окружење је важно место на које треба гледати када извршавате тешке Спарк послове како бисте знали шта се дешава у сваком Спарк Јобу који извршите.

Проверите верзију љуске Спарк једноставном командом:

сц.верзија

Вратићемо нешто попут:

рес0: Низ = 2.3.0

Израда узорка апликације Спарк са Сцалом

Сада ћемо направити примерак апликације Бројач речи са Апацхе Спарк. Да бисте то урадили, прво учитајте текстуалну датотеку у Спарк контекст на љусци Спарк:

скала> вар Подаци = сц.тектФиле ("/ роот / ЛинукХинт / спарк / РЕАДМЕ.доктор медицине")
Подаци: орг.апацхе.Искра.рдд.РДД [Стринг] = / роот / ЛинукХинт / спарк / РЕАДМЕ.мд МапПартитионсРДД [1] на тектФиле на: 24
сцала>

Сад, текст присутан у датотеци мора бити подељен на токене којима Спарк може управљати:

сцала> вар токени = Подаци.флатМап (с => с.разделити(" "))
жетони: орг.апацхе.Искра.рдд.РДД [Стринг] = МапПартитионсРДД [2] на флатМап на: 25
сцала>

Сада иницијализирајте број за сваку реч на 1:

скала> вар жетони_1 = жетони.мапа (с => (с, 1))
жетони_1: орг.апацхе.Искра.рдд.РДД [(Стринг, Инт)] = МапПартитионсРДД [3] на мапи на: 25
сцала>

На крају, израчунајте учесталост сваке речи датотеке:

вар сум_еацх = жетони_1.редуцеБиКеи ((а, б) => а + б)

Време је да погледамо резултате програма. Прикупите токене и њихово бројање:

сцала> сум_еацх.цоллецт ()
рес1: Арраи [(Стринг, Инт)] = Арраи ((пакет, 1), (За, 3), (Програми, 1), (обрада.,1), (Јер, 1), (Тхе, 1), (страница) (хттп: // спарк.апацхе.орг / документација.хтмл).,1), (кластер.,1), (итс, 1), ([рун, 1), (тхан, 1), (АПИс, 1), (хаве, 1), (Три, 1), (цомпутатион, 1), (тхроугх, 1 ), (неколико, 1), (Ово, 2), (граф, 1), (Кошница, 2), (складиште, 1), (["Одређивање, 1), (До, 2), (" предиво " , 1), (Једном, 1), (["Корисно, 1), (преферирај, 1), (СпаркПи, 2), (мотор, 1), (верзија, 1), (датотека, 1), (документација ,, 1), (обрада ,, 1), (тхе, 24), (аре, 1), (системи.,1), (парамс, 1), (не, 1), (различито, 1), (погледати, 2), (интерактивно, 2), (Р ,, 1), (дато.,1), (иф, 4), (буилд, 4), (вхен, 1), (бе, 2), (Тестс, 1), (Апацхе, 1), (тхреад, 1), (програмс ,, 1 ), (укључујући, 4), (./ бин / рун-екампле, 2), (Спарк.,1), (пакет.,1), (1000).цоунт (), 1), (Верзије, 1), (ХДФС, 1), (Д…
сцала>

Одлицно! Успели смо да покренемо једноставан пример бројача речи користећи програмски језик Сцала са текстуалном датотеком која је већ присутна у систему.

Закључак

У овој лекцији смо погледали како можемо да инсталирамо и почнемо да користимо Апацхе Спарк на Убунту 17.10 и на њему покрените и примерак апликације.

Прочитајте више постова заснованих на Убунту-у овде.

Најпопуларније лабораторијске игре Оцулус Апп
Ако сте власник Оцулус слушалица, онда морате бити упознати са бочним учитавањем. Бочно учитавање је поступак инсталирања не-продавничког садржаја на ...
10 најбољих игара за играње на Убунту-у
Виндовс платформа је била једна од доминантних платформи за играње игара због огромног процента игара које се данас развијају да би подржале Виндовс. ...
5 најбољих аркадних игара за Линук
У данашње време рачунари су озбиљне машине које се користе за игре на срећу. Ако не успете да добијете нови високи резултат, знаћете на шта мислим. У ...