Апацхе Солр

Апацхе Солр поставља чвор

Апацхе Солр поставља чвор

1. део: Постављање једног чвора

Данас је електроничко складиштење докумената или података на уређају за складиштење брзо и једноставно, такође је сразмерно јефтино. У употреби је референца на назив датотеке која треба да опише о чему се ради у документу. Подаци се такође чувају у Систему за управљање базама података (ДБМС) као што су ПостгреСКЛ, МариаДБ или МонгоДБ да наведемо само неколико опција. Неколико медија за складиштење је или локално или даљински повезано са рачунаром, као што су УСБ стицк, унутрашњи или спољни чврсти диск, Нетворк Аттацхед Стораге (НАС), Цлоуд Стораге или ГПУ / Фласх, као у Нвидиа В100 [10].

Супротно томе, обрнути поступак проналажења правих докумената у збирци докумената прилично је сложен. Углавном захтева откривање формата датотеке без грешке, индексирање документа и издвајање кључних појмова (класификација докумената). Овде долази Апацхе Солр оквир. Нуди практичан интерфејс за обављање поменутих корака - изградњу индекса докумената, прихватање упита за претрагу, извршавање стварне претраге и враћање резултата претраге. Стога Апацхе Солр чини језгро за ефикасно истраживање силоса базе података или докумената.

У овом чланку ћете научити како функционише Апацхе Солр, како поставити један чвор, индексирати документе, извршити претрагу и преузети резултат.

Следећи чланци се надовезују на овај и у њима разматрамо друге, специфичније случајеве употребе, попут интеграције ПостгреСКЛ ДБМС-а као извора података или балансирања оптерећења на више чворова.

О пројекту Апацхе Солр

Апацхе Солр је оквир претраживача заснован на моћном серверу индекса претраге Луцене [2]. Написан на Јави, одржава се под окриљем Апацхе Софтваре Фоундатион (АСФ) [6]. Слободно је доступан под лиценцом Апацхе 2.

Тема „Поново пронађите документе и податке“ игра веома важну улогу у свету софтвера и многи програмери се с њом интензивно баве. Веб локација Авесомеопенсоурце [4] наводи више од 150 пројеката отвореног кода претраживача. Почетком 2021. године, ЕластицСеарцх [8] и Апацхе Солр / Луцене су два најбоља пса када је у питању тражење већих скупова података. Развијање вашег претраживача захтева много знања, Франк то ради са библиотеком АдваС Адванцед Сеарцх [3] заснованом на Питхону од 2002.

Подешавање Апацхе Солр-а:

Инсталација и рад Апацхе Солр-а нису сложени, то је једноставно читав низ корака које треба да извршите ви. Дозволите око 1 сат за резултат првог упита за податке. Штавише, Апацхе Солр није само хоби пројекат већ се користи и у професионалном окружењу. Стога је изабрано окружење оперативног система дизајнирано за дуготрајну употребу.

Као основно окружење за овај чланак користимо Дебиан ГНУ / Линук 11, које је предстојеће издање Дебиана (почетком 2021), а очекује се да ће бити доступно средином 2021. За овај водич, очекујемо да сте га већ инсталирали, било као изворни систем, у виртуелну машину као што је ВиртуалБок или АВС контејнер.

Поред основних компоненти, на систем су вам потребни следећи софтверски пакети:

Ови пакети су стандардне компоненте Дебиан ГНУ / Линука. Ако још нису инсталирани, можете их инсталирати у једном потезу као корисник са административним правима, на пример роот или путем судо-а, приказано на следећи начин:

# апт-гет инсталл цурл дефаулт-јава либцоммонс-цли-јава либкерцес2-јава либтика-јава

Након припреме окружења, други корак је инсталација Апацхе Солр-а. Од сада, Апацхе Солр није доступан као редовни Дебиан пакет. Због тога је потребно преузети Апацхе Солр 8.8 прво из одељка за преузимање веб локације пројекта [9]. Користите доњу команду вгет да бисте је сачували у / тмп директоријуму вашег система:

$ вгет -О / тмп хттпс: // преузимања.апацхе.орг / луцен / солр / 8.8.0 / солр-8.8.0.тгз

Прекидач -О скраћује -оутпут-документ и чини да вгет чува преузети тар.гз датотеку у датом директоријуму. Архива је величине око 190 милиона. Даље, распакујте архиву у / опт директоријум помоћу тар. Као резултат, пронаћи ћете два поддиректоријума - / опт / солр и / опт / солр-8.8.0, док је / опт / солр постављен као симболична веза са последњим. Апацхе Солр долази са скриптом за подешавање коју следећи извршите, а то је следеће:

# / опт / солр-8.8.0 / бин / инсталл_солр_сервице.сх

То резултира стварањем Линук солр-а који ради у услузи Солр, а његов кућни директоријум под / вар / солр успоставља услугу Солр, додаје се са одговарајућим чворовима и покреће услугу Солр на порту 8983. То су подразумеване вредности. Ако сте незадовољни њима, можете их изменити током инсталације или чак касније, пошто инсталациона скрипта прихвата одговарајуће прекидаче за подешавања подешавања. Препоручујемо вам да погледате документацију Апацхе Солр у вези са овим параметрима.

Софтвер Солр је организован у следеће директоријуме:

Детаљније, о овим директоријумима можете прочитати у документацији Апацхе Солр [12].

Управљање Апацхе Солр:

Апацхе Солр ради као услуга у позадини. Можете га покренути на два начина, или користећи системцтл (први ред) као корисник са административним дозволама или директно из директоријума Солр (други ред). У наставку наводимо обе наредбе терминала:

# системцтл старт солр
$ солр / бин / солр старт

Заустављање Апацхе Солр-а се врши слично:

# системцтл стоп солр
$ солр / бин / солр стоп

Исти начин иде и при поновном покретању услуге Апацхе Солр:

# системцтл рестарт солр
$ солр / бин / солр рестарт

Штавише, статус процеса Апацхе Солр може се приказати на следећи начин:

# системцтл статус солр
$ солр / бин / солр статус

У излазу је наведена сервисна датотека која је покренута, и одговарајућа временска ознака и поруке дневника. Доња слика показује да је услуга Апацхе Солр покренута на порту 8983 процесом 632. Процес успешно траје 38 минута.

Да бисте видели да ли је процес Апацхе Солр активан, можете такође унакрсно провјерити помоћу пс команде у комбинацији са греп. Ово ограничава пс излаз на све процесе Апацхе Солр који су тренутно активни.

# пс секира | греп --боја солр

Доња слика то показује за један процес. Видите позив Јаве који прати листа параметара, на пример портови за употребу меморије (512М) за преслушавање на 8983 за упите, 7983 за захтеве за заустављање и тип везе (хттп).

Додавање корисника:

Процеси Апацхе Солр изводе се са одређеним корисником који се зове солр. Овај корисник је користан у управљању Солр процесима, отпремању података и слању захтева. Након подешавања, корисник решења нема лозинку и очекује се да ће је имати за пријаву да би наставио даље. Поставите лозинку за кориснички решивач попут корисничког корена, приказана је на следећи начин:

# пассвд солр

Солр управа:

Управљање Апацхе Солр-ом врши се помоћу контролне табле Солр. Ово је доступно путем веб прегледача са хттп: // лоцалхост: 8983 / солр. Доња слика приказује главни приказ.

Са леве стране видите главни мени који вас води до пододељка за евидентирање, администрирање Солр језгара, подешавање Јаве и информације о статусу. Изаберите жељено језгро помоћу оквира за избор испод менија. На десној страни менија приказују се одговарајуће информације. Унос у менију Дасхбоард приказује додатне детаље у вези са процесом Апацхе Солр, као и тренутно оптерећење и употребу меморије.

Имајте на уму да се садржај контролне табле мења у зависности од броја Солр језгара и докумената који су индексирани. Промене утичу и на ставке менија и на одговарајуће информације које су видљиве с десне стране.

Разумевање рада претраживача:

Једноставно речено, претраживачи анализирају документе, категоризују их и омогућавају вам претрагу на основу њихове категоризације. У основи, процес се састоји од три фазе, које се називају пузањем, индексирањем и рангирањем [13].

Пузање је прва фаза и описује поступак којим се прикупљају нови и ажурирани садржаји. Претраживач користи роботе који су познати и као пауци или пузачи, па отуда и термин пузање да би се прошло кроз доступне документе.

Друга фаза се назива индексирање. Претходно прикупљени садржај омогућава претрагу претварањем оригиналних докумената у формат који претраживач разуме. Кључне речи и концепти се издвајају и чувају у (масивним) базама података.

Трећа фаза се назива рангирање и описује поступак сортирања резултата претраге према њиховој релевантности помоћу упита за претрагу. Уобичајено је да се резултати приказују у опадајућем редоследу, тако да резултат који има највећи значај за упит претраживача буде на првом месту.

Апацхе Солр делује слично претходно описаном тростепеном процесу. Као и популарни претраживач Гоогле, Апацхе Солр користи секвенцу прикупљања, чувања и индексирања докумената из различитих извора и чини их доступним / претраживим у скоро реалном времену.

Апацхе Солр користи различите начине за индексирање докумената, укључујући следеће [14]:

  1. Коришћење руковаоца индексним захтевима приликом отпремања докумената директно у Солр. Ови документи треба да буду у форматима ЈСОН, КСМЛ / КССЛТ или ЦСВ.
  2. Коришћење руковаоца захтевима за издвајање (Солр Целл). Документи треба да буду у ПДФ или Оффице форматима, које подржава Апацхе Тика.
  3. Коришћење руковаоца увозом података који преноси податке из базе података и каталогизира их помоћу имена колона. Руковалац увозом података податке из е-поште, РСС феедова, КСМЛ података, база података и обичних текстуалних датотека преузима као изворе.

Обрађивач упита се користи у Апацхе Солр када се пошаље захтев за претрагу. Обрађивач упита анализира дати упит на основу истог концепта обрађивача индекса како би се подударао са упитом и претходно индексираним документима. Мечеви се рангирају према њиховој прикладности или релевантности. У наставку је приказан кратак пример постављања упита.

Отпремање докумената:

Ради једноставности користимо узорак скупа података за следећи пример који већ пружа Апацхе Солр. Отпремање докумената врши се као корисничко решење. Корак 1 је стварање језгра са именом технолошки производи (за одређени број технолошких предмета).

$ солр / бин / солр цреате -ц тецхпродуцтс

Све је у реду ако видите поруку „Створени нови језгри„ технолошки производи “. Корак 2 је додавање података (КСМЛ подаци из екампледоцс) у претходно створене основне технолошке производе. У употреби је пост алата који се параметрише са -ц (назив језгра) и документи који се отпремају.

$ солр / бин / пост -ц тецхпродуцтс солр / екампле / екампледоцс / *.кмл

Ово ће резултирати доњим приказаним излазом и садржаће цео позив плус 14 индексираних докумената.

Такође, контролна табла приказује промене. У падајућем менију на левој страни видљив је нови унос назван тецхпродуцтс, а на десној је промењен број одговарајућих докумената. Нажалост, детаљан приказ сирових скупова података није могућ.

У случају да језгро / колекцију треба уклонити, користите следећу наредбу:

$ солр / бин / солр делете -ц технички производи

Подаци о упитима:

Апацхе Солр нуди два интерфејса за упите података: путем контролне табле засноване на мрежи и командне линије. У наставку ћемо објаснити обе методе.

Слање упита преко Солр контролне табле врши се на следећи начин:

Командна линија прихвата исти упит као на контролној табли. Разлика је у томе што морате знати назив поља за упит. Да бисте послали исти упит као горе, у терминалу морате покренути следећу команду:

$ цурл
хттп: // лоцалхост: 8983 / солр / тецхпродуцтс / куери?к = "ману": "Белкин

Излаз је у ЈСОН формату, као што је приказано доле. Резултат се састоји од заглавља одговора и стварног одговора. Одговор се састоји од два скупа података.

Окончање:

Честитам! Успехом сте постигли прву фазу. Основна инфраструктура је постављена, а ви сте научили како да отпремате и тражите документе.

Следећи корак ће обухватити како прецизирати упит, формулисати сложеније упите и разумети различите веб обрасце које пружа страница упита Апацхе Солр. Такође, разговараћемо о томе како накнадно обрадити резултат претраге користећи различите излазне формате као што су КСМЛ, ЦСВ и ЈСОН.

О ауторима:

Јацкуи Кабета је екологиња, страствени истраживач, тренер и ментор. У неколико афричких земаља радила је у ИТ индустрији и НВО окружењу.

Франк Хофманн је информатички програмер, тренер и аутор и више воли да ради из Берлина, Женеве и Кејптауна. Коаутор књиге за управљање пакетима Дебиан доступне на дпмб.орг

Како инсталирати Леагуе Оф Легендс на Убунту 14.04
Ако сте љубитељ Леагуе оф Легендс, ово је прилика да тестирате Леагуе оф Легендс. Имајте на уму да је ЛОЛ подржан на ПлаиОнЛинук ако сте корисник лину...
Инсталирајте најновију ОпенРА Стратеги Гаме на Убунту Линук
ОпенРА је Либре / Фрее Реал Тиме стратешки механизам који ствара ране Вествоод игре попут класичне Цомманд & Цонкуер: Ред Алерт. Дистрибуирани модови ...
Инсталирајте најновији Долпхин Емулатор за Гамецубе & Вии на Линук
Долпхин Емулатор вам омогућава да играте изабране игре Гамецубе и Вии на Линук Персонал Цомпутерс (ПЦ). Долпхин Емулатор је слободно доступан и емула...