Инсталирање Тессерацт ОЦР у Линук

Тессерацт ОЦР (оптичко препознавање знакова) је бесплатни програм отвореног кода и програм за наредбене линије за издвајање текста са слика помоћу технологије и алгоритама оптичког препознавања знакова. Пројекат подржава Гоогле и од данас се сматра најбољим доступним ОЦР механизмом отвореног кода. Може да открије и издвоји текст на бројним језицима са великом тачношћу.

Инсталирање Тессерацт ОЦР у Линук

Тессерацт ОЦР је подразумевано доступан на већини Линук дистрибуција. Можете га инсталирати у Убунту помоћу наредбе испод:

$ судо апт инсталирај тессерацт-оцр

Доступна су детаљна упутства за друге дистрибуције овде. Иако је Тессерацт ОЦР по дефаулту доступан у спремиштима многих Линук дистрибуција, препоручује се инсталирање најновије верзије са горе поменуте везе ради веће тачности и рашчлањивања.

Инсталирање подршке за додатне језике у Тессерацт ОЦР

Тессерацт ОЦР укључује подршку за откривање текста на преко 100 језика. Међутим, подршку за откривање текста на енглеском језику добијате само са подразумеваном инсталацијом у Убунту-у. Да бисте додали подршку за рашчлањивање додатних језика у Убунтуу, покрените команду у следећем формату:

$ судо апт инсталирајте тессерацт-оцр-хин

Горња команда ће додати подршку за језик хиндски Тессерацт ОЦР-у. Понекад можете добити бољу тачност и резултате инсталирањем подршке за језичке скрипте. На пример, инсталирање и коришћење тессерацт пакета за Деванагари скрипту „тессерацт-оцр-сцрипт-дева“ дало ми је много прецизније резултате од коришћења пакета „тессерацт-оцр-хин“.

У Убунтуу можете пронаћи тачна имена пакета за све језике и скрипте покретањем наредбе у наставку:

$ апт-цацхе претрага тессерацт-

Након што идентификујете исправно име пакета за инсталирање, замените низ „тессерацт-оцр-хин“ њиме у првој наредби наведеној горе.

Коришћење Тессерацт ОЦР за издвајање текста из слика

Узмимо пример слике приказане доле (преузето са Википедиа странице за Линук):

Да бисте извукли текст са горње слике, морате да покренете наредбу у следећем формату:

$ тессерацт цаптуре.пнг излаз -л енг

Покретање наредбе изнад даје следећи излаз:

У наредби изнад, „хватање.пнг ”односи се на слику из које желите да извучете текст. Снимљени излаз се затим чува у „излазу.ткт ”. Језик можете променити заменом аргумента „енг“ својим одабиром. Да бисте видели све важеће језике, покрените наредбу испод:

$ тессерацт --лист-лангс

Приказаће се кодови скраћеница за све језике које на вашем систему подржава Тессерацт ОЦР. Подразумевано ће приказати само „енг“ као излаз. Међутим, ако инсталирате пакете за додатне језике како је горе објашњено, ова наредба ће навести више језика које можете користити за откривање текста (као ИСО 639 трословни кодови језика).

Ако слика садржи текст на више језика, прво дефинишите примарни језик, а затим додатне језике одвојене знаковима плус.

$ тессерацт цаптуре.пнг излаз -л енг + фра

Ако желите да сачувате излаз као ПДФ датотеку за претрагу, покрените наредбу у следећем формату:

$ тессерацт цаптуре.пнг излаз -л енг пдф

Имајте на уму да ПДФ датотека коју можете претраживати неће садржати текст који се може уређивати. Обухвата оригиналну слику, са додатним слојем који садржи препознатљиви текст који је постављен на слику. Дакле, иако ћете моћи прецизно претраживати текст у ПДФ датотеци помоћу било ког читача ПДФ-а, нећете моћи уређивати текст.

Још једна ствар коју бисте требали приметити је да се тачност откривања текста увелико повећава ако је датотека слике високог квалитета. Ако имате могућност избора, увек користите формате датотека без губитака или ПНГ датотеке. Коришћење ЈПГ датотека можда неће дати најбоље резултате.

Издвајање текста из ПДФ датотеке са више страница

Тессерацт ОЦР изворно не подржава издвајање текста из ПДФ датотека. Међутим, могуће је извући текст из ПДФ датотеке са више страница претварањем сваке странице у датотеку слике. Покрените доњу наредбу за претварање ПДФ датотеке у скуп слика:

$ пдфтоппм -пнг датотека.пдф излаз

За сваку страницу ПДФ датотеке добићете одговарајући „оутпут-1“.пнг ”,„ оутпут-2.пнг ”, итд.

Сада, да бисте издвојили текст са ових слика помоћу једне команде, мораћете да користите „фор лооп“ у басх наредби:

$ за и у *.пнг; уради тессерацт "$ и" "оутпут- $ и" -л енг; Готово;

Покретањем горње команде извући ћете текст из свих „.пнг “датотеке пронађене у радном директоријуму и чувају препознати текст у„ оутпут-оригинал_филенаме.ткт ”. Можете изменити средњи део команде према вашим потребама.

Ако желите да комбинујете све текстуалне датотеке које садрже препознати текст, покрените наредбу испод:

$ мачка *.ткт> придружио се.ткт

Процес издвајања текста из ПДФ датотеке са више страница у ПДФ датотеке које је могуће претраживати готово је исти. Наредби морате доставити додатни аргумент „пдф“:

$ за и у *.пнг; уради тессерацт "$ и" "оутпут- $ и" -л енг пдф; Готово;

Ако желите да комбинујете све ПДФ датотеке које могу да се претражују и садрже препознатљив текст, покрените доњу наредбу:

$ пдфуните *.пдф придружио.пдф

И „пдфтоппм“ и „пдфуните“ су подразумевано инсталирани на најновијој стабилној верзији Убунту-а.

Предности и недостаци издвајања текста у ТКСТ и ПДФ датотеке које се могу претраживати

Ако извучете препознати текст у ТКСТ датотеке, добићете излаз текста који се може уређивати. Међутим, свако форматирање документа ће бити изгубљено (подебљано, курзив и тако даље). ПДФ датотеке које се могу претраживати сачуваће изворно форматирање, али ћете изгубити могућности уређивања текста (и даље можете копирати сирови текст). Ако отворите ПДФ датотеку која се може претраживати у било којем ПДФ уређивачу, у датотеку ћете добити уграђене слике, а не излаз сировог текста. Претварање ПДФ датотека које је могуће претраживати у ХТМЛ или ЕПУБ такође ће вам дати уграђене слике.

Закључак

Тессерацт ОЦР је један од најчешће коришћених ОЦР мотора данас. То је бесплатан софтвер отвореног кода и подржава преко стотину језика. Када користите Тессерацт ОЦР, обавезно користите слике високе резолуције и исправите језичке кодове у аргументима командне линије како бисте побољшали тачност откривања текста.