Оптикалық таңбаларды тану (OCR) дегеніміз не?

Оптикалық таңбаларды тану (OCR) компьютерлерді қолмен теру немесе мәтінді енгізудің қажеті жоқ басылған, жазылған немесе қолжазбалық құжаттың цифрлық нұсқасын жасайтын бағдарламалық жасақтамаға қатысты. OCR әдетте PDF форматында сканерленген құжаттарда пайдаланылады, бірақ сонымен қатар сурет файлында мәтіннің компьютердегі оқу нұсқасын жасай алады.

OCR дегеніміз не?

Мәтінді тану деп те аталатын OCR - бұл сандар, әріптер және пунктуациялар (глифтер деп те аталады) сияқты баспа немесе жазбаша құжаттардан компьютерлер мен басқа да бағдарламалық құралдармен оңай танылған және оқылатын электронды нысанға түрлендіретін бағдарламалық жасақтама технологиясы. Кейбір OCR бағдарламалары бұл құжатты сканерлеп немесе сандық камерамен суретке түсіргенде жасайды, ал басқалары бұл процесті OCR жоқ бұрын сканерленген немесе суретке түсірілген құжаттарға қолдануы мүмкін. OCR пайдаланушыларға PDF құжаттарында іздеуге, мәтінді өңдеуге және құжаттарды қайта пішімдеуге мүмкіндік береді.

OCR үшін қолданылатын дегеніміз не?

Жылдам, күнделікті сканерлеу қажеттіліктері үшін OCR үлкен мәміле болмауы мүмкін. Егер сіз сканерлеудің үлкен көлемін жасасаңыз, қажетті PDF файлдарын іздеуге мүмкіндігіңіз бар болса, біраз уақытты үнемдей аласыз және сканер бағдарламаңызда OCR функциясын жасай аласыз. Міне, ОКР мынадай басқа да мәселелерге көмектеседі:

Неліктен OCR пайдалану керек?

Неге суретке түсуге болмайды, дұрыс? Өйткені, сіз ештеңені өңдей алмайсыз немесе мәтінді іздестіре алмайсыз, себебі бұл тек сурет болар еді. Құжатты сканерлеу және OCR бағдарламалық жасақтамасын іске қосу бұл файлды өңдеуге және іздеуге болатын нәрсеге айналдырады.

OCR тарихы

Мәтінді танудың ең ерте қолданылуы 1914 жылға дейін болғанымен, OCR-ға байланысты технологиялар кеңінен таралған және оларды пайдалану 1950-ші жылдары басталды, әсіресе сандық түрде оқуға болатын мәтінге айналдыру оңай болған өте жеңілдетілген қаріптерді жасаумен басталды. Осы жеңілдетілген қаріптердің алғашқысын Дэвид Шепард жасаған және әдетте OCR-7B деп аталатын. OCR-7B кредиттік карталарда және дебеттік карталарда қолданылатын стандартты қаріп үшін қаржы индустриясында әлі күнге дейін қолданылуда. 1960 жылдары бірнеше елдердегі пошта қызметтері АҚШ, Ұлыбритания, Канада, Германия сияқты пошта сұрыптауды айтарлықтай жылдамдату үшін OCR технологиясын қолдана бастады. OCR - бүкіл әлем бойынша почта қызметтері үшін поштаны сұрыптау үшін пайдаланылатын негізгі технология. 2000 жылы боттар мен спаммерлерді тоқтатуға арналған CAPTCHA бағдарламаларын әзірлеу үшін OCR технологиясының шектері мен мүмкіндіктері туралы негізгі білімдер пайдаланылды.

Онжылдықтар бойы OCR жасанды интеллект , машина жасау және компьютерлік көру сияқты салалардағы жетістіктерге байланысты дәлірек және күрделі болды. Бүгінде OCR бағдарламалық қамтамасыз ету құжаттарды тез танитын және бұрынғыға қарағанда дәлірек айналдыру үшін үлгіні тануды, функцияны анықтауды және мәтінді өңдеуді қолданады.