Linux Дауысты тану жағдайы

Кіріспе

Мен мақалаларды зерттеуге көп уақыт жұмсаймын, және көбінесе тематикалық станцияға барар кезде немесе жалпы және жалпы алғанда мақалаға арналған тақырып туралы ойланамын.

Бірде кешке станцияға 1,5 миль жүріп, жұмысымнан шыққанымда, «мен айтқым келетін нәрсені жаза аламын және кейін автоматты түрде редакциялауға және кейінірек пішімдеуге болатын мәтіндік файлға көшіруім керек еді» деп ойладым .

Мен дауысты тану және диктациялау үшін қол жетімді түрлі нұсқаларды қарап шықтым, соның ішінде Linux-дегі диктофон бағдарламалық жасақтамасын қолдану арқылы микрофон арқылы тікелей жазу, файлды MP3 немесе WAV форматына жазу және оны пәрмен жолымен түрлендіру, сондай-ақ Chrome және Android қолданбалары.

Бұл мақала ауыр еңбек күндерінен кейін менің нәтижелерімді айқындайды.

Linux параметрлері

Linux-дегі диктофон мен дауысты тану бағдарламасын табуға тырысу оңай емес, ал қол жетімді нұсқалар ақылды емес.

Бұл википедия бетінде ықтимал нұсқалар тізімі бар, оның ішінде CMU Sfinkx, Julius және Simon.

Мен Debian тестілеуіне негізделген SparkyLinux-ді пайдаланып жатырмын және репозиторийлерде қол жетімді дауысты танудың бірден бір бөлігі - Сфинкс деп айта аламын.

Түпнұсқа Linux бағдарламалары мен PocketSphinx, WAV файлдарын мәтінге түрлендіріп, PhiSpeech-VR, яғни микрофоннан тікелей жазуға мүмкіндік беретін питон қосымшасы болды.

Мен сондай-ақ VoiceNote II және Dictanote сияқты бірнеше Chrome қолданбаларын көрдім.

Соңында мен «Диктант және электрондық пошта» және «Talk and Talk Dictation» қосымшаларын қолдандым.

Freespeech-VR

Freespeech-VR стандартты репозиторийлерде жоқ. Мен мұнда файлдарды жүктеп алдым.

Zip-файлдың мазмұнын жүктегеннен кейін, терминал ашып, файлдар шығарылған қалтаға шықты.

Мен freespeech-vr ашу үшін келесі пәрменді тердім.

sudo python freespeech-vr

Менде әдемі микрофонмен және айқын ағылшын оңтүстігіндегі екпіні бар құлаққап бар.

Freespeech-vr терезесінде келесі мәтін пайда болды:

Қош келдіңіздер бірлік иттерді Бүгін Бақылауды қалай жүргізуге болады тестілеуден тестілеуге тура келген кезде Мәтінді жүйелі түрде қолдануға болады Сөйлеу Мен әрқайсысына біреу ғана Болады деп үміттенемін Бір тауыққа арналған жүйе ретінде алтын Ea, менің атым келесі кезде телефонға қоңырау шалғанда Бұл файл Көп ұзамай телефондарға қолжеткізу кеңістігі Сфинкс Going Бұл телефондар емес, ортақ пайдаланылатын болады Үйренетін және құралдар Құралды қолданыңыз Сөз бітірген кезде Айтыңыз Қолданылған файл Соңғы A әңгімесі және пайдалануы Егер табысқа жеткенде, бұл Linux сияқты болдырмау керек

Қазір мен бұл сайттың иесі емес сайт деп айтқым келеді және ешқашан алтын тауықтармен байланысты ештеңе айтқан жоқпын. Мен дауыс тану бағдарламалық жасақтамасын пайдалану процесін сипаттауға тырыстым.

Бағдарламалық жасақтаманы әртүрлі қадамдар мен жылдамдықтарды қоса бірнеше рет қолданамын, бірақ дәлдігі нашар болды.

PocketSphinx

PocketSphinx WAV файлын алып, пәрмен жолын пайдаланып мәтінге түрлендіре алады.

PocketSphinx Debian репозитарийлері арқылы қол жетімді және көптеген бөлінулер үшін қол жетімді болуы керек.

PocketSphinx-мен табылған басты мәселе - сіз дауысты тану, тілдік файлдар, сөздіктер және жүйені қалай үйрететіндер туралы нақты түсінікке ие боласыз.

PocketSphinx бағдарламасын орнатқаннан кейін CMU Sphinx веб-сайтына барыңыз және барынша көп ақпаратты оқыңыз. Сіз сондай-ақ келесі үлгі файлды жүктеп алуыңыз керек.

(Егер сіз ағылшын тілінде сөйлейтін тілге жатпасаңыз, Сізге сәйкес келетін тілдік модельді таңдайсыз).

PocketSphinx және Sphinx құжаттамалары жалпы адам үшін түсініксіз, бірақ сөздік файлдарын жасау мүмкін болатын сөздердің тізімін беру үшін пайдаланылады және тілдік модельдер әлеуетті тыңдау тізімі бар.

PocketSphinx тестілеу үшін мен өзімнің дауысты жаздым, Al Pacino компаниясының «The Devils Advocate» үзіндісін және «Morgan Freeman» үзіндісін қолдандым. Бұл мәселе әртүрлі дауыстарды байқап көру болды, мен үшін Морган Фриман ретінде түсінікті ешкім айта алмайды және ешкім де Аль Пачино сияқты сызықты жеткізе алмайды.

PocketSphinx жұмыс істеуі үшін оны WAV файлы қажет және белгілі бір пішімде болуы керек. Егер файл MP3 форматында болса, оны wav пішіміне түрлендіру үшін ffmpeg пәрменін пайдаланыңыз:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx іске қосу үшін келесі пәрменді пайдаланыңыз:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous WAV файлын алады және оны мәтінге түрлендіреді.

Жоғарыдағы пәрменде «cmusphinx-5.0-en-us.lm» тілдік үлгісімен «/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic» сөздік файлын пайдалану ұсынылады. Мәтінге түрлендірілген файл voice2.wav деп аталады (бұл менің дауысыммен жазылған жазу). Соңында, 2> voice2.log деп аталатын файлға міндетті түрде қажет емес барлық нақты шығымды орналастырады. Сынақтың нақты нәтижелері терминал терезесінде көрсетіледі.

Менің дауысымды пайдаланатын нәтижелер мыналар:

келесі аптада қандай да бір танымалды бағдарламалық қамтамасыз ету туралы тақырып жоқ

Нәтижелер freespeech-vr сияқты қорқынышты емес, бірақ шын мәнінде мүмкін емес. Мен PocketSphinx-ді Al Pacino-мен қолданып көрдім, бірақ бұл нәтиже мүлдем қайтарылмады.

Соңында Morgan Freeman дауысын «Bruce Almighty» фильмінен қолданып көрдім, мұнда мыналар:

000000000: біз оған барамыз
000000001: бәрі қатаң иә, қазір дәл қазір иә, бұл ең көп тірі болғанмын
000000002: лифт кезінде бейсболдың кілті кім немесе өмірде не істеу керектігін біледі
000000003: қалпына келтіретіндер деген не?
000000004: олар оны жазған жоқ
000000005: олар маған дұрыс
000000006: ереже болу керек
000000007: Мен сені күтіп жүрмін
000000008: ол мұнда білді, бұл иллюстрациялар - бұл өлтіруші Рождество партиясы
000000009: ол жазуға болатын жолдардың бірі. Мен әрқашан біреудің біреуін киіп жүрді деп ойлаймын
000000010: мәселе біріктірілген сияқты, ол жақсы болмайды, мен бұл әлемде тұрамын деп ойлаған барлық нәрселерді емес, сол кезде оларды бағалаймын, мен оны көрдім
000000011: әкесі бар
000000012: бұл туралы көп нәрсе
000000013: бұл берілген
000000014: сіз көп нәрсені түсірмейтіндеріңіз
000000015: күзде
000000016: мен үшін ғана жақсы ұстаңыз
000000017: егер ол мені ойлайтын болса, мен де бақытты емеспін, бұл некеге тұрғандардың бәрі болмайды, біз бұған ұқсас емеспін

Менің тестімді ғылыми деп санауға болмайды және PocketSphinx әзірлеушілері бағдарламалық жасақтаманы дұрыс пайдаланбайтынымды мәлімдей алады. Сондай-ақ, дауысты оқыту деп аталатын әдіс бар, ол сөздіктер мен тілдердің жақсы файлдарын жасау үшін қолданыла алады.

Менің пікірімше, күнделікті стандартты пайдалану өте қиын.

VoiceNote II

VoiceNote II - Google Voice тану API пайдаланатын Chrome қолданбасы.

Егер сіз Chrome немесе Chromium браузерлерін пайдалансаңыз, сіз Web Store арқылы VoiceNote II орнатуға болады.

VoiceNote II-дегі иконкалар әйгілі сәтте, терезенің төменгі бөлігіндегі тілді орнатуды және өңдеу батырмасының төменгі жағында тұруды қажет етеді, алайда жазба түймешігі жоғарғы оң жақта орналасқан.

Біріншіден, сізге қажет тілді таңдап, әлемдік белгішені басу арқылы қол жеткізуге болады.

Жазуды бастау үшін микрофон белгішесін басып, микрофоныңызбен сөйлеңіз. Жақсы нәтижеге қол жеткізу үшін мен баяу сөйлесуді байқадым, сондықтан бағдарламалық қамтамасыз етуді сақтауға мүмкіндігім болды.

Нәтижелер төменде көрсетілгендей жақсы емес еді:

Сәлем және қосылуға қош келдіңіз. Doselm farrell recession 2008 түрлендіруі ретінде дауысқа түрлендіру туралы дауысқа арналған бүгінгі күндерге арналған articles.android.wordpress.com Мәтінді түрлендіруге арналған дауыстық мәтінді қосуды жақсы түрде қолдады деп мәлімдеді. Финляндияның неміс тілін Эндххайдта таңдады. Біріккен Корольдіктегі уақытты теңіздегі микрофонға дейін жеткізіп, мәтінді мәтіндік файл ретінде жазуды аяқтады. Бұл ағылшын тілінің ең оңтайлы ағылшын тілінен аудармасы, бірақ бұл үшін ең жақсы ағылшын тіліне барамын нақты құжатпен танысып, тыңдаушыларға арналған қателіктерді көре аласыз

Диктанот

Dictanote - бұл диктациондық мақсаттарда қолданылатын басқа да Chrome қосымшасы және одан да көп интуитивті болып көрінді, бірақ нәтижелер VoiceNote II-ге қарағанда жақсы болмады.

Мен Dictanote-тың демонстрациялық нұсқасын ғана пайдаланып, сіз жаңа құжаттарды құруға кедергі келтірдім, бірақ ол редакторда тұрған мәтін бойынша сөйлесуге мүмкіндік береді. Мен дауыс тануды сынап көрдім, бірақ нәтиже VoiceNote II-ге қарағанда жақсы болмады, сондықтан мен pro нұсқасына тіркелмедім.

Диктант және пошта

«Dictation And Mail» - жергілікті Google дауыс тану API пайдаланатын Android қосымшасы.

«Dictation and Mail» -тен алынған нәтижелер басқа нүктелердің кез келгеніне қарағанда әлдеқайда жақсы болды.

Сәлем, Linux туралы қош келдіңіз, бүгін біз дыбысты мәтінге айналдыру туралы сөйлесеміз

«Диктант пен Почта» сөзі баяу сөйлеп, тыңдауға, сондай-ақ бірден екпін қоюға болады.

Сөйлесуді аяқтаған соң, нәтижелерді өзіңізге жібере аласыз.

Әңгімелесу және әңгімелесу

Мен істеген басқа Android қосымшасы «Talk And Talk Dictation» болды.

Бұл бағдарламаның интерфейсі шаблондардың ең жақсысы болды және дауысты тану шынымен жақсы жұмыс істеді. Диктаторды жазғаннан кейін нәтижелерімді әртүрлі жолдармен, соның ішінде электрондық пошта арқылы бөлісе алдым.

Бүгінгі күні linux on.com сайтына қош келдіңіз, біз мәтінді мәтінге аудару туралы сөйлесіп жатырмыз

Жоғарыда келтірілген мәтінді көріп тұрғаныңыздай, бұл сіз күткендей мүмкін. Баяу сөйлесу кілт болып табылады.

Резюме

Түпнұсқалық Linux дауысты тану және арнайы диктантпен айналысуға болады. Google Voice API-ді қолданатын кейбір бағдарламалар бар, бірақ олар әлі де репозиторийлерде тізімделмеген.

ChromeOS қолданбалары сәл жақсы, бірақ менің Android телефоным арқылы ең жақсы нәтижелерге қол жеткізілді. Мүмкін, телефон жақсы микрофонға ие болуы мүмкін, сондықтан дауысты тану бағдарламалық құралы конверсияның жақсы мүмкіндіктерін білдіреді.

Дауысты тану үшін шын мәнінде қолдануға болатындығын анықтау үшін, аз орнатуды талап ететін интуитивті болуы керек. Сіз түсінікті болу үшін тілдік үлгілер мен сөздіктермен араласпаңыз.

Дегенмен, дауысты танудың барлық өнері өте қиын, себебі әрқайсысы әртүрлі дауыспен сөйлейді және бүкіл әлемде қолданылатын жүздеген тіл туралы алаңдаушылық тудыратын бір елде аймақтан аймаққа дейін көптеген диалектілер бар.

Сондықтан, менің талдауым, дауысты тану бағдарламалық қамтамасыз ету әлі де жұмыс істеп жатыр.