روشی است که بر پایه اتصال به هم پیوسته چندین واحدپردازشی ساخته می­ شود. از تعدادی نرون تشکیل می­ شود که ورودی را به خروجی ربط می­ دهند. از روش­هایی است که برای تشخیص دیداری صحبت به فراوانی به کار گرفته شده است در [۲۷] از شبکه عصبی MLP با توابع انتقال تانژانت سیگموید در لایه پنهان و خروجی به استفاده شده است. این شبکه در دو مرحله، یک بار برای آموزش و تست فقط بر روی زاویه­ های گشودگی افقی و بار دیگر بر روی زاویه­ های گشودگی افقی و عمودی به کار گرفته شده است. در [۳۴] نیز از شبکه عصبی MLP استفاده شده که در آن تابع فعال­سازی ورودی و خروجی به صورت خطی و تابع فعال­سازی لایه میانی سیگموید می­باشد و خروجی به صورت Y=W2 *F(W1 *X + B1) + B2 می­باشد و وزن­های شبکه طوری تغییر می­ کنند که مجموع مربع خطا می­نیمم شود. در [۳۶] شبکه چند لایه Feed Forward Back Propagation Error به کار گرفته شده است.
پایان نامه - مقاله - پروژه
۳-۳-۱-۱ شبکه ­های پیش­خور
شبکه ­های پیش­خور، شبکه­ هایی هستند که مسیر پاسخ آن­ها همواره رو به جلو پردازش می­ شود و به نرون­های لایه­ های قبل باز نمی­گردد. در این نوع شبکه­ ها به سیگنال ها اجازه می­ دهند تنها از مسیر یک طرفه عبور کنند یعنی از ورودی تا خروجی. بنابراین باز خوردی وجود ندارد یعنی که خروجی هر لایه تاثیری بر همان لایه ندارد.
۳-۳-۱-۲ الگوریتم پس انتشار خطا
عمده­ترین کاربرد قانون یادگیری پس انتشار، در شبکه ­های عصبی پیش­خور است که عموما شبکه ­های چند لایه پرسپترون[۸۶] هم نامیده می­شوند. این الگوریتم بر قانون یادگیری اصلاح خطا مبتنی می­باشد. این قانون از دو مسیر اصلی تشکیل شده است. مسیر اول یا مسیر رفت است که در این مسیر، بردار ورودی به شبکه اعمال و تاثیرش از طزیق لایه میانی به لایه خروجی انتشار می­یابد. در این مسیر پارامترهای شبکه بدون تغییر در نظر گرفته می­شوند. در مسیر دوم یا مسیر برگشت پارامترهای شبکه تغییر کرده و تنظیم می­شوند. این تنظیم مطابق با قانون اصلاح خطا صورت می­گیرد.
۳-۳-۲ مدل مخفی مارکوف
در [۳۷] از سیستم HMM از ۳۳ مدل HMM برای شناسایی ۳۳ کلمه تشکیل شده است. هر مدل HMM یک مدل ۳ حالته چپ به راست با ۲ مخلوط گوسی[۸۷] برای هر حالت می­باشد. ابتدا مدل ها مقدار­دهی اولیه شده و سپس با نسخه جاسازی شده[۸۸] آموزشی از الگوریتم بام- ولش [۸۹] دوباره تخمین زده می­شوند. در ادامه داده آموزشی هم­تراز شده برای مدل شدن با الگوریتم ویتربی[۹۰] برای محاسبه چگالی زمانی حالات مورد استفاده قرار گرفته است. برای شناسایی یک کلمه جدید ، ویژگی­های استخراج شده از آن، به عنوان ورودی به سیستم HMM اعمال و ماکزیمم احتمال مدل به­ عنوان خروجی شناسایی شده و کلمه متناظر به شکل متن نمایش داده شده است.
فصل چهارم : ویژگی­های استخراجی و پیاده­سازی روش پیشنهادی و معرفی پایگاه داده
۴-۱ پایگاه داده
در این کار از پایگاه داده­ای که در [۲۷] به کار برده شده است استفاده نمودیم. که در آن از چند مونث و مذکر برای ادای تعدادی از کلمات فارسی استفاده شده است که هر گوینده دو بار یا بیشتر کلمات را ادا کرده است. تصویر چهره از قسمت پایین صورت گوینده­ها می­باشد. از ۵ زن و ۱ مرد در این کار استفاده نمودیم که هر کدام کلمات تک سیلابی را ۲ و یا ۳ بار تکرار نمودند. تصاویر در اندازه ۳۲۰*۲۴۰ می­باشند. این پایگاه داده شامل فایل­های صوتی نیز می­باشد که با توجه به عدم نیاز به آن­ها مورد استفاده قرار نگرفتند. این مجموعه تمامی مصوت­ها را در بر می­گیرد در زیر کلمات تک سیلابی ادا شده آورده شده است.
جدول۴-۱ کلمات تک سیلابی در بانک اطلاعاتی

 

أ إ اُ آ ای او
هشت
ده
صد
سر
اسب
قند
سد
یک
سه
شش
سر
دل
خرس
کیک
دو
نه
سر
در
گرگ
موز
تند
آب
آش
چای
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...