L-Istat ta 'Rikonoxximent tal-Voice Linux

Introduzzjoni

Qed infisser ħafna ħin biex nirriċerkaw għal artikli u ħafna drabi naħseb dwar is-suġġett ta 'oġġett waqt li mixi lejn l-istazzjon tal-ferrovija jew meta nagħmlu u b'mod ġenerali.

Waħda filgħaxija waqt li mixi l-1.5 mili lejn l-istazzjon mix-xogħol tiegħi ħsibt "ma jkunx tajjeb jekk nista 'nirreġistra dak li ridt ngħid u mbagħad ittraskrivietha awtomatikament f'fajl ta' test li kelli nista 'neditja u nformat aktar tard" .

Qattajt ħafna sigħat twal li nħarsu lejn l-għażliet differenti disponibbli għar-rikonoxximent u d-detezzjoni tal-vuċi, inkluż ir-reġistrazzjoni diretta permezz ta 'mikrofonu permezz ta' softwer tad-detezzjoni f'Linux, ir-reġistrazzjoni tal-fajl għal format MP3 jew WAV u konverżjoni permezz tal-linja tal-kmand, kif ukoll bl- u applikazzjonijiet Android.

Dan l-artikolu jenfasizza s-sejbiet tiegħi wara ġranet ta 'xogħol iebes.

Għażliet ta 'Linux

Jippruvaw isibu software ta 'dedikazzjoni u rikonoxximent tal-vuċi fil-Linux mhux faċli daqs kemm jista' jkun u l-għażliet disponibbli mhumiex għaqlija.

Din il-paġna tal-wikja għandha lista ta 'għażliet potenzjali inklużi CMU Sphinx, Julius u Simon.

Qed nagħmel użu minn SparkyLinux li huwa bbażat fuq it-Testing ta 'Debian fil-mument u nista' ngħidilkom li l-uniku pakkett ta 'rikonoxximent tal-vuċi disponibbli fir-repożitorji huwa Sphinx.

Il-programmi Linux indiġeni li jien kont nipprovaw kienu PocketSphinx, li użajt biex tikkonverti fajls WAV għat-test u Freespeech-VR li hija applikazzjoni python li tippermettilek tirreġistra dritta minn mikrofonu.

Qatt ippruvajt koppja ta 'apps Chrome inklużi VoiceNote II u Dictanote.

Finalment ipprovajt id-Dikjarazzjoni u l-Email u d-Dikjarazzjoni ta 'Tkellim u Tkellem Apps Android.

Freespeech-VR

Freespeech-VR mhijiex disponibbli fir-repożitorji standard. I tniżżel il-fajls minn hawn.

Wara t-tniżżil u l-estrazzjoni tal-kontenut tal-fajl zip fetaħ terminal u nibgħajt fil-folder fejn ġew estratti l-fajls.

I ittajpja l-kmand li ġej biex tiftaħ freespeech-vr.

sudo python freespeech-vr

Għandi par headphones b'mikrofonu pjuttost deċenti u aċċent pjuttost ċara tan-Nofsinhar Ingliż.

It-test li ġej deher fit-tieqa freespeech-vr:

Merħba lill-klieb ta 'l-unità ta' l-eżitu Illum Għandek tiżgura Kif It-Testijiet Immaniġġjati Jeħtieġ li jittestjaw Meta Meta t-Test Jintuża l-mod tas-sistema Diskors I il-Biex wieħed wieħed kien biss Waħda t-tama li toqgħod U Il-Mezzi ta 'Tiġieġ waħda deheb bħala sistema L-Ea meta tkun ismu s-swaba 'ta' wara titlob telefon Dan il-fajl Ftit biżżejjed kaxxi tat-telefon għal Hands-Spazju sphinx Going Dik mhix telefowns se tinqasam A mħarreġ u u għodod Użu titkellem Meta spiċċajt Say A used file Aħħar istorja A U l-użu mill-Meta huwa ħafna kif is-suċċess Dan il-Linux kien kif Tevita hu

Nixtieq ngħid issa li dan mhuwiex il-websajt tal-Unità tal-Klieb u fl-ebda mument ma semmi xi ħaġa dwar it-tiġieġ Golden. Fil-fatt kont qed tipprova tiddeskrivi l-proċess ta 'użu ta' softwer għar-rikonoxximent tal-vuċi.

I ppruvajt is-softwer ftit drabi inkluż żift u veloċità differenti imma l-preċiżjoni kienet fqira.

PocketSphinx

PocketSphinx huwa kapaċi jieħu fajl WAV u jikkonvertih għal test bl-użu tal-linja tal-kmand.

PocketSphinx huwa disponibbli permezz tar-repożitorji ta 'Debian u għandu jkun disponibbli għall-biċċa l-kbira tad-distribuzzjonijiet.

Il-kwistjoni ewlenija li sibt ma 'PocketSphinx hija li kważi għandek bżonn grad fil-kunċetti ta' rikonoxximent tal-vuċi, fajls tal-lingwa, dizzjunarji u kif tħarreġ is-sistema.

Wara l-installazzjoni tal-PocketSphinx għandek tmur għall-websajt tal-CMU Sphinx u aqra kemm jista 'jkun l-informazzjoni. Għandek bżonn ukoll li tniżżel il-fajl mudell li ġej.

(Jekk m'intix kelliem nattiv ta 'l-Ingliż agħżel il-mudell tal-lingwa li huwa xieraq għalik).

Id-dokumentazzjoni għal PocketSphinx u Sphinx in ġenerali hija diffiċli biex tinftiehem għall-persuna lajka iżda minn dak li nista 'nagħmel il-fajls tad-dizzjunarju ntużaw biex nipprovdu lista ta' kliem possibbli u mudelli tal-lingwa għandhom lista ta 'pronunzji potenzjali.

Biex tittestja PocketSphinx I użat reġistrazzjoni tal-vuċi tiegħi stess, snippet minn Al Pacino f '"The Devils Advocate" u snippet minn "Morgan Freeman". Il-punt ta 'dan kien li tipprova vuċijiet differenti u għalija m'hemm ħadd li jista' jgħid storja b'mod ċar daqs Morgan Freeman u ħadd ma jagħti linja bħal Al Pacino.

Għal PocketSphinx li taħdem jeħtieġ fajl WAV u jeħtieġ li jkun f'ċertu format. Jekk il-fajl huwa f'format MP3, uża l-kmand ffmpeg biex tikkonvertiha f'format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Biex tmexxi PocketSphinx, uża l-kmand li ġej:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous jieħu fajl WAV u jikkonvertih għat-test.

Fil-kmand hawn fuq pocketsphinx huwa qal li juża fajl tad-dizzjunarju imsejjaħ "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" bil-mudell tal-lingwa "cmusphinx-5.0-en-us.lm". Il-fajl li qed jiġi konvertit fit-test jissejjaħ voice2.wav (li huwa reġistrazzjoni li għamilt bil-vuċi tiegħi). Finalment, it-2> tqiegħed l-output verbose kollu li m'għandekx bżonn neċessarjament f'fajl imsejjaħ voice2.log. Ir-riżultati attwali tat-test jintwerew fit-tieqa tat-terminal.

Ir-riżultati li jużaw vuċi tiegħi huma kif ġej:

merħba għall-jmiss dwar ukoll l-ebda suġġett ta 'din il-ġimgħa dwar liema softwer ta' rikonoxximent f'minuta

Ir-riżultati mhumiex daqshekk orribbli daqs il-freespeech-vr iżda għadhom ma jistgħux jintużaw. Imbagħad ipprova uża PocketSphinx ma 'Al Pacino iżda dan ma rritorna l-ebda riżultat.

Finalment ippruvajt tuża l-vuċi ta 'Morgan Freeman mill-film "Bruce Almighty" u hawn huma r-riżultati:

000000000: aħna ser fuq tagħha
000000001: huma kollha iebsa yeah il-jum li issa dritt yeah dan huwa l-aktar we've ġew ħajjin jien parti mill-hot
000000002: fil-lift li huwa l-qofol ta 'daqsxejn ta' baseball f'nofsinhar jew taf x'għandek tagħmel fil-ħajja
000000003: x'inhuma dawk li se jirkupraw
000000004: ma kitbuhx
000000005: huma għandhom fuq me right out
000000006: trid tkun regoli
000000007: Stajt kont qed nistenna int
000000008: u huwa tgħallem hawn li kienet illustrazzjoni kienet il-parti tal-Milied qattiel
000000009: jirriżulta mill-mod kif tikteb o. ħmar li ħsibt ftit dejjem jilbsu wieħed
000000010: bħall-problema magħquda mhux se tagħti hu l-ġid ninsab l-istima tagħhom f'dak il-mument meta aħna ma dak kollu li taħseb li jien fid-dinja se djar u rajt li
000000011: missier li għandu dan
000000012: x'inhu ħafna dwar dan
000000013: dak mogħti
000000014: dak kollu li dawk li ma jaqgħux għal lott
000000015: dritt fil-ħarifa
000000016: istiva sewwa għalija
000000017: huwa kuntent jekk jiena naħseb ukoll li huma se jkollhom li dak li se dak kollu li miżżewweġ fuq ma kienx nagħmlu i bħall-kuntrarju tal-mod

It-test tiegħi bilkemm jista 'jitqies bħala xjentifiku u l-iżviluppaturi ta' PocketSphinx jistgħu jiddikjaraw li ma jużax is-softwer b'mod korrett. Hemm ukoll teknika msejħa taħriġ tal-vuċi li tista 'tintuża biex toħloq dizzjunarji u fajls tal-lingwa aħjar.

Madankollu l-opinjoni ewlenija tiegħi hija li huwa diffiċli wisq għall-użu standard ta 'kuljum.

VoiceNote II

VoiceNote II hija App Chrome li tuża l-API ta 'rikonoxximent tal-Google Voice.

Jekk qed tuża l-browsers Chrome jew Chromium tista 'tinstalla VoiceNote II permezz tal- Web Store .

L-ikoni fuq VoiceNote II huma mfassla b'mod stramb kif għandek bżonn biex titwaqqaf il-lingwa fil-qiegħ tat-tieqa u l-buttuna ta 'l-editjar tinsab ukoll fil-qiegħ, iżda l-buttuna ta' reġistrazzjoni tinsab fil-pożizzjoni ta 'fuq.

L-ewwel ħaġa li għandek bżonn tagħmel hu li tagħżel lingwa u dan jista 'jinkiseb billi tikklikkja fuq l-ikona dinjija.

Biex tibda r-reġistrazzjoni, ikklikkja fuq l-ikona tal-mikrofonu u tibda titkellem fil-mikrofonu tiegħek. Għall-aqwa riżultati sibt li nitkellmu bil-mod kien essenzjali sabiex is-softwer ikollu ċ-ċans li jibqa 'għaddej.

Ir-riżultati ma kinux kbar kif jidher hawn taħt:

Hello u merħba għall-konnessjoni. About.com artikoli ta 'llum dwar il-vuċi għar-rikonverżjoni tat-test ta' dunelm farrell 2008 bħala konverżjonijiet u qal ukoll appoġġjat l-aħjar mod kif sibt addon test bil-vuċi biex turi pakkett 2014debian jew rpm li tiftaħ it-tip ta 'vuċi għad-diskors għat-test tiftaħ jekk trid tagħżel vs għażel f'edinburgh Franċiż german inti tikseb il-ħin f'residenza magħquda fuq il-baħar mikrofoni li inti spiċċajt it-test tiegħek bħala fajl tat-test biex iżżid sew dak l-aċċent Ingliż standard ħafna min-Nofsinhar ta 'l-Ingilterija l-aħjar għalih iżda jien ser it-testvia din torrentalong bid-dokument attwali u tista 'tara għall-iżbalji li makethank inti għal listeningfriends

Dikanot

Dictanote hija App Chrome oħra li tista 'tintuża għal skopijiet ta' dettatura u dehret bħala aktar intuwittiv iżda r-riżultati ma kinux aħjar minn VoiceNote II.

I użajt biss il-verżjoni demo ta 'Dictanote li ma tħallikx toħloq dokumenti ġodda iżda tħallik tkellem fuq test li diġà huwa fl-editur. Kelli nagħmel test tar-rikonoxximent tal-vuċi iżda r-riżultati ma kinux aħjar minn VoiceNote II u għalhekk ma rreġistrajtx għall-verżjoni pro.

Dikjarazzjoni u Mail

"Dikjarazzjoni u Mail" hija Applikazzjoni Android li tuża l-API nativa ta 'rikonoxximent tal-vuċi Google.

Ir-riżultati minn "Dikjarazzjoni u Mail" kienu ħafna aħjar minn kwalunkwe programm ieħor attent sa dan il-punt.

hello nilqghu ghal Linux dwar., Illum qed nitkellmu dwar il-konverżjoni tal-hoss ghat-test

Il-trick bi "Dikjarazzjoni u Mail" huwa li jitkellem bil-mod u jiddikjara kif ukoll tista 'b'eċċent anke.

Wara li tkun spiċċajt titkellem tista 'tibgħat ir-riżultati lilek innifsek.

Dikjarazzjoni Talk And Talk

L-Applikazzjoni oħra ta 'Android li ppruvajt kienet "Dikjarazzjoni Talk And Talk".

L-interfaċċja għal din l-app kienet l-aqwa tal-mazz u r-rikonoxximent tal-vuċi ħadmet tajjeb tabilħaqq. Wara li rreġistra d-dettikazzjoni, kont nistaqsi r-riżultati f'diversi modi, inkluż permezz ta 'email.

merħba lill linux about.com illum qed nitkellmu dwar il-konverżjoni tad-diskors għat-test

Kif tistgħu taraw it-test ta 'hawn fuq huwa dwar ċar kemm tista' possibilment tistenna li tikseb. Nitkellmu bil-mod hija ċ-ċavetta.

Sinteżi

Native Linux għandu xi mod biex imur fir-rigward ta 'rikonoxximent tal-Vuċi u speċifikament dettatura. Hemm xi applikazzjonijiet li jużaw l-API Google Voice iżda għadhom mhumiex elenkati fir-repożitorji.

L-applikazzjonijiet ta 'ChromeOS huma xi ftit aħjar iżda bil-bosta l-aħjar riżultati intlaħqu bl-użu tat-telefon Android tiegħi. Forsi l-telefown għandu mikrofonu aħjar u għalhekk is-softwer għar-rikonoxximent tal-vuċi għandu ċans aħjar ta 'konverżjoni.

Sabiex ir-rikonoxximent tal-vuċi jsir tassew utilizzabbli jeħtieġ li jkun aktar intuwittiv b'inqas setup meħtieġ. M'għandekx bżonn tgħaqqad il-mudelli tal-lingwa u d-dizzjunarji biex tagħmlu intelliġibbli.

Madankollu jien napprezza li l-arti kollha tar-rikonoxximent tal-vuċi hija ta 'sfida għaliex kulħadd għandu vuċi differenti u hemm ħafna djaletti minn reġjun għal ieħor f'pajjiż wieħed u qatt ma jinkwetaw dwar il-mijiet ta' lingwi użati fid-dinja kollha.

L-analiżi tiegħi, għalhekk, hija li s-softwer għar-rikonoxximent tal-vuċi għadu qed jaħdem.