ОЦР

Инсталирајте Тессерацт ОЦР на Линук

Инсталирајте Тессерацт ОЦР на Линук

Тессерацт: Бесплатно решење за ОЦР

Увод

Тессереацт се сматра једним од најбољих доступних ОЦР решења. Од 2006. спонзорише га Гоогле, претходно га је развио Хевлетт Пацкард на Ц и Ц ++ између 1985. и 1998.   Систем је способан да идентификује чак и рукопис, може да научи повећавајући своју тачност и један је од најразвијенијих и најкомплетнијих на тржишту.

Лако побеђује комерцијалне конкуренте попут АББИ-а, ако тражите озбиљно решење за ОЦР, Тессерацт је најтачније, али не очекујте масовна решења: користи језгро по процесу, што значи 8-језгрени процесор (хипернитање) прихваћен) моћи ће истовремено да обради 8 или 16 слика.

Када сам користио Тессерацт, успели смо да хиљаде потенцијалних купаца отпремимо руком писани садржај, слике са текстом итд. Користили смо 48 основних сервера, са ДатабасеБиДесигн, а затим са АВС, никада нисмо имали проблема са ресурсима.

Имали смо отпремач који је разликовао текстуалне датотеке као што су Мицрософт Оффице или Опен Оффице датотеке и слике или скенирани документи. Пошиљалац је одредио шта год ОЦР или ПХП скрипте обраде налог у пољу препознавања текста.

Тессеацт је одлично решење, али пре него што размислите о њему морате знати, последње Тессерацт-ове верзије донеле су велика побољшања, неке од њих значе напоран рад. Иако би тренинг могао трајати сатима или данима, недавне верзије Тессерцт-ових верзија могу бити дана, недеље или чак месеци ако тражите вишејезично решење за оптичко препознавање знакова.


Инсталирање Тессерацт 4 на Дебиан / Убунту:

апт-гет инсталирање тессерацт-оцр

Ако користите другу Линук дистрибуцију, мораћете да копирате последњу верзију спремишта гитхуб и копирате .датотека обучених података у 'тессдата' (/ уср / схаре / тессерацт-оцр / тессдата или / уср / схаре / тессдата).

Подразумевано Тессерацт ће инсталирати пакет енглеског језика за инсталирање додатних језика

апт-гет инсталирајте тессерацт-оцр-ЛАНГ

на пример, да додате хебрејски:

апт-гет инсталирајте тессерацт-оцр-хеб

Покретањем можете укључити све језике:

апт-гет инсталирајте тессерацт-оцр-алл

Да би Тессерацт исправно функционисао, мораћемо да користимо наредбу „претвори“ (претворити између формата слике, као и променити величину слике, замутити, обрезати, уклонити капљице, ублажити, повући, окренути, спојити, поново узорковати и много више) које пружа Имагемагицк:

Омогућимо инсталирање имагемагицк са апт-гет:

апт-гет инсталл имагемагицк

Хајде сада да тестирамо Тессерацт, пронађемо слику која садржи текст и покренимо:

тессерацт [име_име] [име_излазне датотеке]

Ако се правилно инсталира, Тессерацт ће извући текст са слике.

Када сам радио са Тессерацтом, било нам је потребно само да пребројавамо документе. Као и код било ког другог програма који можете и морате да га обучавате, и у програму Ворд можемо дефинисати неке симболе који се могу бројати или не, бројати или не бројеве итд. исто са Тессерацтом.

Такође можемо тренирати његову осетљивост на одређене слике.


Тессерацт Оптимизација:

Оптимизација величине: Према званичним изворима, оптимална величина пиксела за слику коју Тессерацт успешно обрађује је 300 ДПИ. Морат ћемо обрадити било коју слику користећи параметар -р да бисмо применили овај ДПИ. Повећањем ДПИ такође ће се повећати време обраде.

Ротација странице: Ако се приликом скенирања страница није правилно ротирала и остане 180 ° или 45 °, Тессерацт-ова тачност ће се смањити, можете користити ову Питхон скрипту за аутоматско откривање и решавање проблема са ротацијом.

Уклањање граница: Према Тессерацт-овом званичном човеку, границе могу бити погрешно одабране као знакови, посебно тамне и тамо где постоји градација. Уклањање ивица може бити добар корак за постизање максималне тачности помоћу Тессерацт-а.

Уклањање буке: Према Тессерацтс-у, бука „представља случајну варијацију осветљености или боје на слици“. Можемо га уклонити у бинаризација корак, што значи поларизацију боја.


Траининг Тессерацт:

Иако већина водича покрива само Тессерацт-ову инсталацију, резимираћу како обучити ваш ОЦР систем, овде можемо наћи водич за све верзије. У овом чланку ћу резимирати како тренирати Тессерацт 4 који укључује нови „Механизам за препознавање заснован на неуронској мрежи који пружа знатно већу тачност (на сликама докумената) у односу на претходне верзије, заузврат за значајно повећање потребне рачунске снаге. Међутим, на сложеним језицима то може бити брже од основног Тессерацт-а.”

Пре него што наставимо, мораћемо да инсталирамо додатне библиотеке:

судо апт-гет инсталирати либицу-дев
судо апт-гет инсталација либпанго1.0-дев
судо апт-гет инсталирати либцаиро2-дев

Алатке за обуку ћемо инсталирати покретањем, у директоријуму Тессерацт:

направити
направити тренинг
судо направи тренинг-инсталирај

Према службеном вики-у Тессерацт-а, имамо 3 тренутне могућности за обуку нашег ОЦР система:

Иако горе наведене опције могу звучати другачије, кораци обуке су заправо готово идентични, осим командне линије, па је релативно лако испробати све начине, с обзиром на време или хардвер да их паралелно покренете.”

У овом упутству ћемо покренути само тесстраин.сх скрипта која ће позивати потребне програме за обуку одређеног језика.

Пре свега, дозволимо да клонирамо све датотеке у нашем / уср / схаре / тессерацт-оцр:

гит клон хттпс: // гитхуб.цом / тессерацт-оцр / тессерацт

Идите на / уср / схаре / тессерацт-оцр / тессерацт / траининг (подразумевани директоријум за инсталацију Тессерацт-а) и покрените:

$ ./ тесстраин.сх --ланг хеб --лангдата_дир / уср / схаре / тессерацт-оцр / лангдата --тессдата_дир / уср / схаре / тессерацт-оцр / тессдата 

Промените „хеб“ за језик који желите да обучавате, а такође уредите путању до података.

Унутар директоријума / уср / схаре / тессерацт-оцр / тессерацт / траининг наћи ћете датотеку специфичну за језик.Корисно је додати правила за одређене језике.


Решавање проблема

Тессерацт је за мене најбоље решење за оптичко препознавање знакова, али недавно је унео огромне промене у односу на прошле верзије и многи корисници се жале на промене или ствари које више не раде, не бих се бринуо јер се чини да промене дају одличне резултате. Тессерацт-ова заједница је веома активна, у случају да нађете проблема са покретањем тессерацт-а, постаните део Тессерацт-ове заједнице овде.

СуперТукКарт за Линук
СуперТукКарт је сјајан наслов дизајниран да вам пружи Марио Карт искуство бесплатно на вашем Линук систему. Прилично је изазовно и забавно играти, диз...
Водич за битку за Веснотх
Битка за Веснотх је једна од најпопуларнијих стратешких игара отвореног кода које тренутно можете играти. Не само да је ова игра у развоју већ јако ду...
0 А.Д. Приручник
Од многих стратешких игара тамо, 0 А.Д. успева да се истакне као свеобухватан наслов и врло дубока, тактичка игра упркос томе што је отворен извор. Ра...