د لینوکس وائس ریکارډ ریاست

پېژندنه

زه ډیر وختونه د مقالو لپاره تحقیقات کوو او ډیری وختونه زه د یوې مقالې لپاره د موضوع موضوع په اړه فکر کوم پداسې حال کې چې د ریل سټېشن ته ځي یا کله چې عموما بهر او یا هم.

یو ماښام زما د کار څخه سټیشن ته 1.5 میله تګ راتګ ما فکر وکړ "دا به ښه نه وي که زه هغه څه ریکارډ کړم چې زه غواړم ووایم او بیا یې د متن متن کې خپل ځان لیږدولی کوم چې زه یې وروسته لیکل او بڼه کولی شم" .

ما د ډیری اوږدې ساعتونو لپاره د غږ پیژندنې او تلیفون لپاره شتون درلود چې په مستقیمه توګه د مایکروفون له لارې د لینکس کې د تاکتیک سافټویر په کارولو سره ثبت کول، فایل فایل او یا هم د WAV بڼه کې ثبت کول او د کمانډ کرښه له لارې بدلول، او همدارنګه د کروم کارول او د انټرنیټ کاریالونه.

دا مقاله زما موندنې د ورځې د سخت کار څخه وروسته څرګندوي.

لینوکس اختیارونه

په لینکس کې د تلیفون او غږ پیژندنې سافټویر موندلو هڅه کول آسانه ندي ځکه چې کیدی شي دا وي او اختیارونه شتون نلري چې چټک وي.

د ويکيپېډيا پاڼې د احتمالي انتخابونو لست لري چې پکې CMU Sphinx، Julius او Simon.

زه د SparkyLinux کارولو څخه کوم چې په اوس وخت کې د Debian ازموینې پر بنسټ والړ دی او زه تاسو ته ووایې چې په ذخیره کې یوازې د غږ پیژندنې پیرود Sphinx دی.

د لینکس اصلي لینډ پروګرامونه چې هڅه یې پیل کړې PocketSphinx وو، کوم چې ما د WAV فایلونو متن او Freespeech-VR ته یو د بدلولو لپاره وکارول کوم چې تاسو د مایکروفون څخه مستقیم ثبت کړی.

ما د VoiceNote II او Dictanote په ګډون د څو کروم ایپسونو هڅه وکړه.

په پاى کې ما د "اعلاميې او بريښناليک" او "د خبرو او خبرو اعلاميه" د انټرنيټ ايپسونو هڅه وکړه.

فریډیټ - VR

Freespeech-VR په معياري ذخیره کې شتون نلري. ما دلته د فایلونو ډاونلوډ وکړ.

د زپ فایل د منځپانګو ډکولو او راټولولو وروسته ما یو ټرمینل پرانیست او هغه فولډر ته یې ولیږدم چېرې یې فایلونو ته لیږدول شوې.

ما د Freespeech-vr پرانیستلو لپاره لاندې کمانډ ټیکلی.

سوډی پیډون افعال - vr

زه یو څو سرفریفونونه لرم چې یو مناسب مایکروفون ولري او د انګلیسي انګلیسي سویلي بیان په روښانه توګه واضح کړم.

لاندې متن په فرش ویک کړکۍ کې ښکاره شو:

د پایلو یونټ ته ښه راغلاست نن نن ورځ ډاډ ترلاسه کړئ چې څنګه مینځل شوي ټیسټونه باید ازموینه وکړي کله چې د متن لپاره یو سیسټم وکارول شي خبرې زه زه هر یو یواځې د پاتې کیدو لپاره هیله مند یو او د چرګانو د خوړو لپاره د سیسټم په توګه زرغون EA کله چې زما نوم بل زما نوم بلل کیږې دا فایل د قضیې تلیفون ډیر لاسونه ته لیږدوي - سپنین ځای ته ځي دا سپوږمکۍ نه وي یو روزل شوی او وسیله د خبرو کولو کارول کله چې تاسو بشپړ کړئ تاسو د کارول شوي فایل سره ووایاست کیسه A او کله چې دا څومره بریالیتوب دی دا لینوکس لکه څنګه چې تاسو مخنیوی کوئ

زه غواړم اوس ووایم چې دا د کتے ویب پاڼه نه ده او هیڅکله مې د سرو زرو چرګانو سره هیڅ کوم څه نه دي ویلي. زه په حقیقت کې هڅه کوم چې د غږ پیژندلو سافټویر کارولو پروسې تشریح کړم.

ما دا سافټویر څو ځلې هڅه وکړه چې د مختلف سرعت او سرعت په شمول، مګر درستیت کمزوری وو.

جیب سایټکس

PocketSphinx وړتیا لري چې د WAV فایل واخلئ او دا د کمانډ کرښه په کارولو سره متن بدل کړئ.

PocketSphinx د Debian ذخیره کونکو لخوا شتون لري او باید د ډیری تخصیص لپاره موجود وي.

د PocketSphinx سره موندل شوي اصلي مسله دا ده چې تاسو په سمدستي ډول د غږ پیژندلو، د ژبې فایلونو، لغاتونو او د سیسټم د روزلو څرنګوالی کې درس ته اړتیا لرئ.

د جیبی سایټکس نصبولو وروسته تاسو باید د CMU سپڼ ویب پاڼه ته لاړ شئ او څومره ممکنه معلومات ولولی. تاسو باید د لاندې ماډل فایل ډک کړئ.

(که تاسو د انګلیسي ژبې معرفي نه یاست نو د ژبې ماډل غوره کړئ چې ستاسو لپاره مناسبه وي).

د PocketSphinx او Sphinx لپاره اسناد په عمومي توګه د لیدو کسانو لپاره پیژندل ستونزمن دي مګر د هغه څه څخه چې زه ژوندی فایلونه جوړولی شي د ممکنه کلمو لیست چمتو کولو لپاره کارول کیږي او د ژبې ماډل د احتمالي لغاتونو لیست لري.

د جیبی سایټکس ازموینې لپاره زما د خپل غږ ریکارډ استعمال کړ، د الیکینوینو څخه "د شیطان مدافعینو" او د "مورگن فرینمان" څخه یوه ټوټه ټوټه ټوټه وه. د دې ټکی د بیلابیلو غږونو هڅه کوله او زما لپاره داسې څوک شتون نلري کوم چې یو داستان بیان کړي لکه څنګه چې واضح یې د مورگن فرینمان او هیڅوک د الیک پیکینو په څیر یو کرښه نه وړاندې کوي.

د PocketSphinx لپاره کار کولو لپاره دا د WAV فایل فایل ته اړتیا لري او اړتیا لري چې په یو مشخص بڼه کې وي. که فایل په MP3 بڼه کې وي د ffmpeg کمانډ کارولو لپاره دا د WAV بڼه بدلوي:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

د PocketSphinx د چلولو لپاره لاندې کمانډ کاروئ:

جیب سایټس.

pocketetsphinx_continuous د WAV فایل اخلي او متن یې متن بدلوي.

په دې قوماندې کې چې د جیټټیسفینکس پورته ویل کیږي، د ژبې نمونې سره "cmusphinx-5.0-en-us.lm" سره د لغت نمونې "د / /r/share/pocketsphinx/model/lm/en_US/cmu07a.dic" په نامه د لغت لغت فایل استعمالوي. دا فايل په متن کې بدلېږي غږ غږ.w.wav (کوم چې زما د غږ سره جوړ شوى دى). په پای کې 2> ځایونه ټول منشي محصول چې تاسو یې اړین نه یاست د غږ 2.log په نوم یو فایل ته اړتیا لري. د ازموینې ریښتینې پایلې د ټرمینل په کړکۍ کې ښودل شوي.

زما غږ په کارولو سره پایلې په الندې ډول دي:

راتلونکی ته ښه راغلاست په دې اونۍ کې پدې اونۍ کې د کومې منل شوې سافټویر په اړه موضوع نلري

پایله د افسوس سره سم نه وی بلکې د واقعیت وړ کارول کیږي. ما بیا د PocketSphinx کارولو هڅه وکړه چې د ال Pacino سره مګر مګر دا هیڅ نتیجه نه ده راغلې.

په پای کې ما د "بروس الاسلام" فلم څخه د مورګین فرینمان غږ غږولو هڅه وکړه او دا پایلې یې دي:

000000000: موږ به هغې ته ورسوو
000000001: ټول هغه سخت دي چې تاسو اوس اوس دا دا هغه څوک دي چې موږ ژوندي یاست
000000002: په لفٹ کې څوک چې د باسیسبال څخه لږ کلیدی دی یا پوهیږي چې په ژوند کې څه وکړي
000000003: هغه څه دي چې بیرته بیرته راځي
000000004: دوی دا نه لیکلی
000000005: دوی ما په سمه توګه لري
000000006: تاسو باید مقررات ولرئ
000000007: زه تمه لرم
000000008: او هغه دلته زده کړه چې دا یو انځور د کریسټیم ګوند و
000000009: دا د لیکلو لپاره یوه لاره ده. ګومان کوم چې لږ تر لږه یو یې واخیست
000000010: لکه څنګه چې د یووالي ستونزه به هغه ته نه ورکوي هغه ښه وي زه په هغه وخت کې اټکل یم کله چې موږ ټول هغه څه نه درلودل چې تاسو فکر کوئ زه په نړۍ کې کورونه به وینم او ما لیدلي چې
000000011: یو پلار چې څوک لري
000000012: پدې اړه څه شی دی
000000013: هغه ته ورکوي
000000014: هر څه چې تاسو یې د ډیری لپاره نه راځي
000000015: سم په منی کې
000000016: ښه بس زما لپاره
000000017: دا یو ناخوشۍ که زه فکر کوم چې دوی به دا وي چې دا هغه څه چې به یې واده کړی وي موږ نه غواړو چې د لارې په پرتله

زما ازمايښت ممکن په سختۍ سره وپيژندل شي او د PocketSphinx پرمختياونکي شايد ووايي چې زه دا سافټ وير په سمه توګه نه کاروم. د غږ روزنې په نامه یو تخنیک هم شتون لري کوم چې د غوره لغاتونو او ژبو فایلونو د جوړولو لپاره کارول کیدی شي.

زما د پام وړ اندیښنه دا ده چې دا د ورځني معیاري کارونې لپاره خورا ستونزمن کار دی.

VoiceNote II

VoiceNote II یو کروم اپ دی چې د Google Voice recognition API استعمالوي.

که تاسو د کروم یا Chromium براؤزر کاروئ نو تاسو د Web Store له لارې VoiceNote II لګولی شئ.

د VoiceNote II په اړه شبیهونه په یوه عجيب فیزیک کې ساتل کیږي لکه څنګه چې تاسو د کړکۍ په ښکته برخه کې ژبه اړین کړئ او د تڼۍ تڼۍ هم په ټیټ کې وي، مګر د ریکارډ بکس په پورته ښی ځای کې دی.

هغه څه چې تاسو یې اړتیا لرئ ژبه ده، او دا د نړۍ په آئیکن کې کلیک کولو سره ترلاسه کیدی شي.

د ثبت کولو پیل کولو لپاره، د مایکروفون په نښه کېکاږئ او په خپل مایکروفون کې یې خبرې پیل کړئ. د غوره پایلو لپاره ما په ورو ورو ویناوه ورو ورو کلید وه نو دا سافټویر به د ساتلو یو فرصت ولري.

پایلې ښې نه وې لکه څنګه چې لیدل کیدی شي:

سلام او ښه راغلاست. که څه هم تاسو غواړئ د غوره کولو لاره غوره کړئ نو په ښه توګه یې د 2014 کال نیټه یا د rpm کڅوړه ښودلو لپاره د غږ متن اضافه کوله. که څه هم تاسو په یوه سمندري ماڼۍ کې د متن دوتنې په لیکلو سره خپل متن لیکلو لپاره بشپړ کړ، دا د انګلستان د جنوب څخه ډیر معیاري انګریزي لیکنه د هغې لپاره غوره ده مګر زه دې متن ته تللی یم د اصلي سند سره او تاسو د هغو غلطیو لپاره چې تاسو د ملګریانو اوریدلو لپاره تاسیسیکان لیدلی شئ لیدلی شئ

ډیکټانټو

ډیکاکانټ یو بل کروم ایپل دی چې د تاکید کولو اهدافو لپاره کارول کیدلی شي او په ټوله کې راځي چې ډیر بدیل وي مګر پایلې د VoiceNote II څخه ښه نه وې.

ما یوازې د ډیکاکانټو ډیمو ورژن وکاروله کوم چې تاسو د نوو اسنادو د جوړولو څخه منع کوي مګر دا تاسو ته د متن په اړه خبرې کولې چې دمخه یې په مدیر کې دي. زه وتوانیدم چې د غږ پیژندنې آزموینه وکړم مګر پایلې د VoiceNote II څخه ښه نه وې او له همدې کبله ما د پروډیر لپاره نښې نښانې نه وې کړې.

اعلامیه او میل

"اعلامیه او میل" د یو انټرنیشنل کاریال دی چې د اصلي ګووګل د غږ پیژندنې API کاروي.

د "اعلامیې او میل" پایلې د نورو پروګرامونو په پرتله خورا ښه وې چې پدې کې هڅه شوې وه.

سلام لینکس ته ښه راغلاست.، نن موږ د غږ متن ته د بدلون په اړه خبرې کوو

د "اعلامیې او میل" سره چلن باید ورو ورو او تعقیب شي او همدارنګه تاسو کولی شئ د حتی د تلفاتو سره هم کولی شئ.

کله چې تاسو خبرې کولې نو تاسو کولی شئ خپل ځانونه ته بریښنالیک ولرئ.

د خبرو او خبرو اعلامیه

بله د انټرنیټ غوښتنلیک چې ما هڅه کړې "د خبرو او خبرو اترو" وه.

د دې اکاډمۍ انټرنیټ د ډوډۍ ترټولو غوره و او د غږ پیژندل په واقعیت کې ښه کار کړی. د ديکتاتورۍ د ثبتولو وروسته زه وتوانیدم پایلې په بیلابیلو لارو کې د بریښناليک له الرې شریکې کړم.

نن سبا لینکس ته ښه راغلاست نن موږ د متن ته د وینا بدله کولو په اړه خبرې کوو

لکه څنګه چې تاسو د پورته متن متن وګورئ د روښانه په څیر دی لکه څنګه چې تاسو کیدای شي د تمې وړ وي. په ورو ورو خبرې کول کلیدی دی.

لنډیز

اصلي لینکس د غږ پیژندنې او په ځانګړي ډول تکرار سره د تګ کولو یو لاری لري. ځینې ​​داسې غوښتنلیکونه دي چې د Google Voice API استعمالوي مګر دوی لاهم په ذخیره کې لست ندي.

د ChromeOS غوښتنلیکونه لږ ښه دي مګر د ماینونو له لارې تر ټولو غوره پایلې زما د Android تلیفون په کارولو سره ترلاسه شوي. کیدای شي دا ټلیفون ښه مایکروفون ولري او له دې کبله د غږ پیژندلو سافټویر د بدلون بدله غوره کوي.

د غږ پیژندنې لپاره په واقعیت کې د استفادې وړ کیدل اړین دي چې د اړتیا وړ لږ سیسټم سره ډیر بد او بد وي. تاسو باید د ژبې ماډلونو او لغاتونو سره د نږدې کولو اړتیا ونلرئ ترڅو دا پوه شي.

زه حتی د قدر وړ یم چې د غږونو ټول پیژندل ډیر ستونزمن کار دی ځکه چې هرڅوک یو بل غږ لري او په ټوله نړۍ کې د سیمې څخه سیمې ته ډیرې ژبې شتون لري چې په ټوله نړۍ کې د سلګونو ژبو په اړه اندیښمن دي.

له همدې امله زما تحلیل دا دی چې د غږ پیژندلو سافټویر اوس هم په پرمختګ کې کار کوي.