یادگیری ماشینی قابلیت‌های رونویسی عربی را بهبود می‌بخشد

[ad_1]

با پیشرفت در پردازش زبان و پردازش زبان طبیعی، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود در مورد بهترین مواد تشکیل دهنده سالاد بپرسید. در حال حاضر این امکان وجود دارد که از ابزار خانگی خود درخواست کنید موسیقی پخش کند یا آن را با فرمان صوتی باز کنید، عملکردی که قبلاً در بسیاری از دستگاه ها وجود دارد.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر یک از لهجه‌های دیگر زبان عربی صحبت می‌کنید که از منطقه‌ای به منطقه دیگر بسیار متفاوت است و برخی از آنها برای یکدیگر نامفهوم هستند، این داستان متفاوت است. اگر زبان اول شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شده‌اید.

این سازه های پیچیده احمد علی را مجذوب یافتن راه حل کرد. او مهندس ارشد گروه فن‌آوری‌های زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر و بنیان‌گذار عربی‌اسپیچ، «جامعه‌ای که به نفع زبان‌شناسی و زبان عربی وجود دارد» است. فن آوری های زبان”. “

دفتر مرکزی بنیاد قطر

علی سال‌ها پیش در IBM مجذوب ایده صحبت کردن با ماشین‌ها، گجت‌ها و وسایل بود. «آیا می‌توانیم دستگاهی بسازیم که گویش‌های مختلف را بفهمد – یک پزشک اطفال مصری که دستور پخت را خودکار می‌کند، یک معلم سوری که به بچه‌ها کمک می‌کند مهم‌ترین بخش‌های درس‌هایشان را یاد بگیرند، یا یک آشپز مراکشی که بهترین دستور پخت کوسکوس را توصیف می‌کند؟» او دراز می‌کشد. با این حال، الگوریتم‌هایی که این ماشین‌ها را نیرو می‌دهند، نمی‌توانند در میان 30 نوع عربی جستجو کنند، چه رسد به درک آنها. اکثر ابزارهای تشخیص گفتار این روزها فقط به زبان انگلیسی و تعداد انگشت شماری از زبان های دیگر کار می کنند.

همه‌گیری ویروس کرونا باعث افزایش اتکا به فناوری‌های زبانی شده است، با روش‌هایی که فناوری‌های پردازش زبان طبیعی به مردم کمک می‌کند تا دستورالعمل‌های اقامت در خانه و اقدامات فاصله‌گذاری فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانواده خود استفاده می‌کنیم، در آینده برنامه‌های کاربردی بیشتری نیز در دسترس است.

میلیون‌ها نفر در سراسر جهان از دوره‌های آنلاین باز گسترده (MOOC) برای دسترسی آزاد و مشارکت نامحدود استفاده می‌کنند. تشخیص گفتار یکی از عملکردهای اصلی MOOC است که به دانش‌آموزان امکان می‌دهد محتوای گفتاری دوره‌ها را در حوزه‌های خاص جستجو کنند و ترجمه‌ها را از طریق زیرنویس فعال کنند. فناوری گفتار، سخنرانی‌ها را قادر می‌سازد تا برای نمایش کلمات گفتاری به عنوان متن در کلاس‌های درس دانشگاه دیجیتالی شوند.

احمد علی، دانشگاه حمد بن کهلیفه

بر اساس مقاله اخیر در مجله Speech Technology، پیش‌بینی می‌شود که بازار تشخیص گفتار و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون‌ها مشتری و کسب‌وکار در سراسر جهان به ربات‌های صوتی متکی هستند، نه فقط برای تعامل با دستگاه‌ها یا ماشین‌های خود، بلکه همچنین برای بهبود خدمات مشتری، ایجاد نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و شمول برای افراد دارای ناتوانی های شنوایی، گفتاری یا حرکتی.

در یک نظرسنجی در سال 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف‌کننده به جای بازدید از مغازه‌ها یا شعب بانک، دستیار صوتی را انتخاب می‌کنند. نسبتی که به درستی می تواند افزایش یابد، با توجه به زندگی و تجارت داخلی و از نظر فیزیکی دور که این بیماری همه گیر بیش از یک سال و نیم بر جهان تحمیل کرده است.

با این وجود، این دستگاه ها نمی توانند به بخش های بزرگی از جهان تحویل داده شوند. برای این 30 نوع زبان عربی و میلیون ها نفر، این یک فرصت بسیار از دست رفته است.

عربی برای ماشین آلات

ربات‌های صوتی انگلیسی یا فرانسوی زبان بسیار عالی هستند. با این حال، آموزش زبان عربی به ماشین ها به دلایل متعددی دشوار است. این سه چالش به طور کلی شناخته شده است:

  1. فقدان علائم دیاکریتیک لهجه های عربی عمدتاً به صورت عامیانه صحبت می شوند. بیشتر متن های موجود به صورت واضح بیان نمی شوند، یعنی هیچ لهجه ای مانند حاد (´) یا حکاکی (`) وجود ندارد که مقادیر صوتی حروف را نشان می دهد. از این رو، تعیین اینکه حروف صدادار به کجا می روند دشوار است.
  2. کمبود منابع. فقدان تاریخ های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. به طور کلی، آنها فاقد قوانین املایی استانداردی هستند که نحوه نگارش یک زبان را دیکته می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و تاکید. این منابع در آموزش مدل‌های رایانه‌ای حیاتی هستند، و این واقعیت که تعداد بسیار کمی از آنها وجود دارد، مانع توسعه تشخیص گفتار عربی شده است.
  3. پیچیدگی مورفولوژیکی عربی زبانان بسیاری از کدها را تغییر می دهند. به عنوان مثال، در مناطقی که فرانسوی ها مستعمره آنها هستند – شمال آفریقا، مراکش، الجزایر و تونس – گویش ها حاوی بسیاری از کلمات فرانسوی عاریه شده هستند. در نتیجه، تعداد زیادی واژه به اصطلاح خارج از واژگان وجود دارد که فناوری‌های تشخیص گفتار نمی‌توانند آن‌ها را درک کنند، زیرا این کلمات عربی نیستند.

علی می گوید: «اما میدان با سرعت رعد و برق حرکت می کند. این تلاش مشترک بسیاری از محققان برای پیشبرد سریعتر آن است. آزمایشگاه فناوری زبان عربی علی پروژه ArabicSpeech را رهبری می کند تا ترجمه های عربی را با گویش های بومی هر منطقه همراه کند. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که لهجه ها به هیچ محدودیتی پایبند نیستند، این می تواند به اندازه یک گویش در هر شهر درجه بندی شود. به عنوان مثال، یک زبان مادری مصری می تواند بین لهجه اسکندریه خود و همشهری خود از اسوان (1000 کیلومتر دورتر روی نقشه) تمایز قائل شود.

ساختن آینده ای با فناوری برای همه

در این مرحله، ماشین‌ها تقریباً به اندازه رونویس‌کننده‌های انسانی دقیق هستند، تا حد زیادی به لطف پیشرفت‌ها در شبکه‌های عصبی عمیق، شاخه‌ای از یادگیری ماشینی در هوش مصنوعی بر اساس الگوریتم‌هایی که از عملکرد بیولوژیکی و عملکردی مغز انسان الهام گرفته‌اند. با این حال، تا همین اواخر، تشخیص گفتار کمی هک شده بود. این فناوری همیشه به ماژول های مختلف برای مدل سازی صوتی، ساخت واژگان تلفظ و مدل سازی زبان متکی بوده است. همه ماژول هایی که باید به طور جداگانه آموزش داده شوند. اخیراً، محققان مدل‌هایی را آموزش داده‌اند که ویژگی‌های صوتی را مستقیماً به رونویسی‌های متنی تبدیل می‌کنند و به طور بالقوه همه بخش‌ها را برای کار نهایی بهینه می‌کنند.

علی‌رغم این پیشرفت‌ها، علی هنوز نمی‌تواند دستورات صوتی را به زبان عربی مادری خود به اکثر دستگاه‌ها بدهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌ها به گویش خودم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی زبان عربی با گویش های متعدد هنوز انجام نشده است.

ایجاد این امکان در مرکز کار علی قرار دارد که در اولین تبدیل کننده برای شناخت زبان عربی و لهجه های آن به اوج خود رسید. یکی که به عملکرد بی سابقه ای دست یافته است. فناوری موسوم به سیستم رونویسی پیشرفته QCRI در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوا به صورت آنلاین استفاده می شود.

دلایل مختلفی وجود دارد که علی و تیمش در حال حاضر با موفقیت این موتورهای گفتار را توسعه می دهند. او قبل از هر چیز می گوید: «نیاز به تأمین منابع برای همه گویش ها وجود دارد. ما باید منابعی را بسازیم تا مدل را آموزش دهیم.” پیشرفت در پردازش محاسباتی به این معنی است که یادگیری ماشین فشرده محاسباتی اکنون در واحد پردازش گرافیکی انجام می شود که می تواند گرافیک های پیچیده را به سرعت پردازش و نمایش دهد. علی می گوید: “ما معماری عالی، ماژول ها و داده های خوبی داریم که واقعیت را نشان می دهد.”

محققان QCRI و Kanari AI اخیراً مدل‌هایی را توسعه داده‌اند که می‌توانند برابری انسانی را در پخش اخبار عربی به دست آورند. این سیستم اثرات زیرنویس کردن گزارش های روزانه الجزیره را نشان می دهد. در حالی که میزان خطای انسانی (HER) در انگلیسی حدود 5.6٪ است، این تحقیق نشان داد که به دلیل پیچیدگی صرفی زبان و فقدان قوانین املایی استاندارد در گویش عربی، HER عربی به طور قابل توجهی بالاتر است و می تواند به 10٪ برسد. به لطف پیشرفت‌های اخیر در یادگیری عمیق و معماری انتها به انتها، موتور تشخیص گفتار عربی موفق می‌شود در پیام‌های پخش شده از زبان مادری پیشی بگیرد.

در حالی که به نظر می‌رسد تشخیص گفتار در عربی استاندارد مدرن به خوبی کار می‌کند، محققان QCRI و Kanari AI مشغول آزمایش محدودیت‌های پردازش لهجه‌ای و گرفتن نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، ما باید به گویش توجه کنیم تا دستیاران زبان ما را درک کنند.

این محتوا توسط موسسه تحقیقات محاسبات قطر در دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر، نوشته شده است. این توسط تحریریه مجله MIT Technology Review نوشته نشده است.

[ad_2]

Kaia Lambert

گیمر. طرفدار رسانه های اجتماعی متخصص وب Wannabe. متعصب آبجو ارتباط دهنده. کارآفرین. گیک زامبی شیطانی. طرفدار پرشور تلویزیون عاشق بیکن غیرقابل درمان.

تماس با ما