ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی در رابطه با استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی- فایل ...

روشی است که بر پایه اتصال به هم پیوسته چندین واحدپردازشی ساخته می شود. از تعدادی نرون تشکیل می شود که ورودی را به خروجی ربط می دهند. از روشهایی است که برای تشخیص دیداری صحبت به فراوانی به کار گرفته شده است در [۲۷] از شبکه عصبی MLP با توابع انتقال تانژانت سیگموید در لایه پنهان و خروجی به استفاده شده است. این شبکه در دو مرحله، یک بار برای آموزش و تست فقط بر روی زاویه های گشودگی افقی و بار دیگر بر روی زاویه های گشودگی افقی و عمودی به کار گرفته شده است. در [۳۴] نیز از شبکه عصبی MLP استفاده شده که در آن تابع فعالسازی ورودی و خروجی به صورت خطی و تابع فعالسازی لایه میانی سیگموید میباشد و خروجی به صورت Y=W₂ *F(W₁ *X + B₁) + B₂ میباشد و وزنهای شبکه طوری تغییر می کنند که مجموع مربع خطا مینیمم شود. در [۳۶] شبکه چند لایه Feed Forward Back Propagation Error به کار گرفته شده است.

۳-۳-۱-۱ شبکه های پیشخور
شبکه های پیشخور، شبکه هایی هستند که مسیر پاسخ آنها همواره رو به جلو پردازش می شود و به نرونهای لایه های قبل باز نمیگردد. در این نوع شبکه ها به سیگنالها اجازه می دهند تنها از مسیر یک طرفه عبور کنند یعنی از ورودی تا خروجی. بنابراین بازخوردی وجود ندارد یعنی که خروجی هر لایه تاثیری بر همان لایه ندارد.
۳-۳-۱-۲ الگوریتم پس انتشار خطا
عمدهترین کاربرد قانون یادگیری پس انتشار، در شبکه های عصبی پیشخور است که عموما شبکه های چند لایه پرسپترون^[۸۶] هم نامیده میشوند. این الگوریتم بر قانون یادگیری اصلاح خطا مبتنی میباشد. این قانون از دو مسیر اصلی تشکیل شده است. مسیر اول یا مسیر رفت است که در این مسیر، بردار ورودی به شبکه اعمال و تاثیرش از طزیق لایه میانی به لایه خروجی انتشار مییابد. در این مسیر پارامترهای شبکه بدون تغییر در نظر گرفته میشوند. در مسیر دوم یا مسیر برگشت پارامترهای شبکه تغییر کرده و تنظیم میشوند. این تنظیم مطابق با قانون اصلاح خطا صورت میگیرد.
۳-۳-۲ مدل مخفی مارکوف
در [۳۷] از سیستم HMM از ۳۳ مدل HMM برای شناسایی ۳۳ کلمه تشکیل شده است. هر مدل HMM یک مدل ۳ حالته چپ به راست با ۲ مخلوط گوسی^[۸۷] برای هر حالت میباشد. ابتدا مدلها مقداردهی اولیه شده و سپس با نسخه جاسازی شده^[۸۸] آموزشی از الگوریتم بام- ولش ^[۸۹] دوباره تخمین زده میشوند. در ادامه داده آموزشی همتراز شده برای مدل شدن با الگوریتم ویتربی^[۹۰] برای محاسبه چگالی زمانی حالات مورد استفاده قرار گرفته است. برای شناسایی یک کلمه جدید ، ویژگیهای استخراج شده از آن، به عنوان ورودی به سیستم HMM اعمال و ماکزیمم احتمال مدل به عنوان خروجی شناسایی شده و کلمه متناظر به شکل متن نمایش داده شده است.
فصل چهارم : ویژگیهای استخراجی و پیادهسازی روش پیشنهادی و معرفی پایگاه داده
۴-۱ پایگاه داده
در این کار از پایگاه دادهای که در [۲۷] به کار برده شده است استفاده نمودیم. که در آن از چند مونث و مذکر برای ادای تعدادی از کلمات فارسی استفاده شده است که هر گوینده دو بار یا بیشتر کلمات را ادا کرده است. تصویر چهره از قسمت پایین صورت گویندهها میباشد. از ۵ زن و ۱ مرد در این کار استفاده نمودیم که هر کدام کلمات تک سیلابی را ۲ و یا ۳ بار تکرار نمودند. تصاویر در اندازه ۳۲۰*۲۴۰ میباشند. این پایگاه داده شامل فایلهای صوتی نیز میباشد که با توجه به عدم نیاز به آنها مورد استفاده قرار نگرفتند. این مجموعه تمامی مصوتها را در بر میگیرد در زیر کلمات تک سیلابی ادا شده آورده شده است.
جدول۴-۱ کلمات تک سیلابی در بانک اطلاعاتی

أ	إ	اُ	آ	ای	او
هشت ده صد سر اسب قند سد	یک سه شش سر دل خرس کیک	دو نه سر در گرگ موز تند	آب آش چای

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب