[ad_1]
به لطف پیشرفت در فرآیند گفتار و زبان طبیعی، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. اکنون، میتوانید ابزار خانگی خود را برای پخش موسیقی دریافت کنید یا آن را با دستورات صوتی اجرا کنید، که این ویژگی قبلاً در برخی از دستگاهها وجود دارد.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از عربی صحبت می کنید، که از منطقه ای به منطقه دیگر متفاوت است و ممکن است برخی آن را درک نکنند، داستان متفاوتی است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا زبان دیگری با پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که کنار گذاشته شدهاید.
ساخت این مجموعه احمد علی را برای یافتن راه حل جذب کرد. او یک مهندس اصلی در گروه فناوری زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیانگذار عربی گفتار است، «جامعهای که برای بهرهمندی از علم و فناوری گفتار عربی وجود دارد. “
علی چندین سال پیش زمانی که در IBM کار می کرد، مجذوب ایده صحبت کردن با ماشین ها، لوازم خانگی و ابزارها شد. آیا میتوانیم دستگاهی بسازیم که بتواند لهجههای مختلف را بفهمد – یک پزشک اطفال مصری برای خودکار کردن دستور العملها، یک معلم سوری برای کمک به بچهها برای رسیدن به اصل درس، یا یک آشپز مراکشی که بهترین دستور العملهای کوسکوس را توضیح میدهد؟» او اظهار داشت. با این حال، الگوریتمهایی که این ماشینها را کنترل میکنند، قادر به فیلتر کردن حدود 30 نوع عربی نیستند، چه رسد به درک آنها. در حال حاضر، ابزارهای تشخیص گفتار عموماً فقط به زبان انگلیسی و برخی از زبان های دیگر کار می کنند.
همهگیری ویروس کرونا اتکای خود را به فناوری صدا افزایش داده است، جایی که فناوری پردازش زبان طبیعی به افراد کمک میکند دستورالعملهای ماندن در خانه و معیارهای فاصله فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده ها استفاده می کنیم، آینده هنوز پر از برنامه های کاربردی است.
میلیونها نفر در سراسر جهان از دورههای گسترده آنلاین (MOOCs) برای دسترسی آزاد و مشارکت نامحدود استفاده میکنند. تشخیص گفتار یکی از ویژگیهای اصلی در MOOC است، که در آن دانشآموزان میتوانند به قسمتهای خاصی از محتوای گفته شده در دوره نگاه کنند و ترجمه را از طریق زیرنویس فعال کنند. فن آوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در کلاس های درس دانشگاه امکان پذیر می کند.
بر اساس مقاله اخیر در مجله Speech Technology، پیشبینی میشود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیونها مصرفکننده و شرکت در سراسر جهان به رباتهای صوتی نه تنها برای برقراری ارتباط با دستگاهها یا اتومبیلها، بلکه همچنین برای برقراری ارتباط با ماشینها، متکی هستند. برای بهبود خدمات به مشتریان، هدایت نوآوری در مراقبت های بهداشتی، و افزایش دسترسی و فراگیری برای افراد دارای اختلالات شنوایی، گفتار یا حرکتی.
در یک نظرسنجی در سال 2019، Capgemini تخمین میزند که تا سال 2022، بیش از دو نفر از هر سه مصرفکننده به جای مراجعه به فروشگاه یا شعبه بانک، دستیار صوتی را انتخاب میکنند. بخشی که به دلیل زندگی و تجارت دور از خانه، فاصله فیزیکی و تجارتی که بیش از نیم سال است که این بیماری همه گیر در این دنیا به وجود آورده است، به درستی قابل استفاده است.
با این حال، این دستگاه نتوانست به بسیاری از مناطق جهان ارسال شود. برای 30 نوع زبان عربی و میلیون ها نفر، این یک فرصت از دست رفته است.
عربی برای ماشین
رباتهای صوتی که انگلیسی یا فرانسوی صحبت میکنند بسیار عالی هستند. با این حال، یادگیری ماشینی برای درک زبان عربی به دلایل متعددی دشوار است. اینها سه چالش رایج شناخته شده هستند:
- کمتر انتقادی. گویش عربی همان طور که معمولاً تلفظ می شود عامیانه است. به طور کلی متن موجود دیاکریتیک نیست، به این معنی که دارای لهجه هایی مانند حاد (´) یا سنگین (`) نیست که ارزش صوتی حرف را نشان دهد. بنابراین، تعیین محل حروف صدادار دشوار است.
- کمبود منابع. فقدان داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها قوانین املایی استانداردی ندارند که نحوه نگارش زبان را تعیین کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تأکید. این منابع برای آموزش مدل های کامپیوتری بسیار مهم هستند و در واقع تعداد بسیار کمی بر توسعه تشخیص گفتار عربی تأثیر می گذارند.
- پیچیدگی مورفولوژیکی عربی زبانان در بسیاری از تغییر کد نقش دارند. به عنوان مثال، در مناطق تحت اشغال فرانسه – شمال آفریقا، مراکش، الجزایر، و تونس – این گویش ها شامل بسیاری از کلمات فرانسوی قرض گرفته شده است. در نتیجه، تعداد زیادی کلمات تلفظ شده از دایره واژگان خارج شده است، به طوری که فناوری تشخیص گفتار نامفهوم است زیرا کلمات عربی نیستند.
علی گفت: «اما میدان به سرعت در حال حرکت است. این یک تلاش مشترک بین بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی، پروژه ArabicSpeech را برای ترکیب ترجمههای عربی با گویشهای بومی از هر منطقه رهبری کرد. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجا که لهجه ها تابع مرز نیستند، این می تواند به اندازه یک گویش در هر شهر باشد. برای مثال، یک گویشور بومی مصری می تواند بین یک گویش اسکندریه از همشهری اسوان (فاصله 1000 کیلومتری روی نقشه) تمایز قائل شود.
آینده ای بسازید که فناوری را برای همه بشناسد
در این مرحله، ماشینها تقریباً به اندازه رونویسکنندههای انسانی دقیق هستند، تا حد زیادی به لطف پیشرفتها در شبکههای عصبی عمیق، یک زیرشاخه یادگیری ماشینی در هوش مصنوعی که بر الگوریتمهای الهامبخش نحوه عملکرد مغز انسان، از نظر بیولوژیکی و عملکردی متکی است. با این حال، تا به حال، تشخیص گفتار تا حدودی به طور کلی هک شده است. این فناوری سابقه تکیه بر ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و مدل سازی زبان را دارد. همه ماژول ها باید به طور جداگانه آموزش داده شوند. اخیراً، محققان مدلهایی را آموزش میدهند که ویژگیهای صوتی را مستقیماً به رونویسی متن تبدیل میکنند و به طور بالقوه همه بخشها را برای کار نهایی بهینه میکنند.
حتی با وجود این پیشرفت ها، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی اصلی دستورات صوتی بدهد. او گفت: «سال 2021 است و من هنوز نمیتوانم با بسیاری از دستگاهها به گویش خود صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص دستگاه گفتار عربی چند لهجه ای هنوز اتفاق نیفتاده است.
قرار دادن این موضوع در کانون کار علی، که در اولین تبدیل کننده برای شناخت گفتار عربی و لهجه های آن به اوج خود رسیده است. یکی که تاکنون به عملکرد بی نظیری دست یافته است. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.
دلایل متعددی وجود دارد که علی و تیمش تاکنون در ساخت این دستگاه گفتار موفق بوده اند. او به ویژه گفت: “نیاز به منابع در همه گویش ها وجود دارد. ما باید منابعی را برای آموزش این مدل ها بسازیم. پیشرفت در پردازش کامپیوتری به این معنی است که یادگیری ماشینی فشرده محاسباتی اکنون در واحدهای پردازش گرافیکی رخ می دهد که می توانند پردازش کنند. و گرافیک پیچیده را به سرعت نمایش دهید همانطور که علی گفت: “ما معماری خوب، ماژول های خوب و داده هایی داریم که واقعیت را نشان می دهد.”
محققان QCRI و Canary AI به تازگی مدلی را ایجاد کرده اند که می تواند به برابری انسانی در اخبار پخش عربی دست یابد. این سیستم اثر زیرنویس گزارش های روزانه الجزیره را نشان می دهد. در حالی که میزان خطای انسانی انگلیسی (HER) تقریباً 5.6٪ است، این مطالعه نشان می دهد که HER عربی بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، می تواند به 10٪ برسد. به لطف پیشرفتهای اخیر در یادگیری عمیق و معماری سرتاسر، دستگاههای تشخیص گفتار عربی میتوانند سخنرانان بومی را در اخبار پخش شکست دهند.
در حالی که به نظر می رسد تشخیص گفتار عربی استاندارد مدرن به خوبی کار می کند، محققان QCRI و Canary AI بسیار خوشحال هستند که مرزهای پردازش گویش را آزمایش می کنند و نتایج خوبی به دست می آورند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، توجه به گویش چیزی است که لازم است تا دستیاران صوتی بتوانند ما را درک کنند.
این محتوا توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.
[ad_2]