راهنمای ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی درباره : استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی- ...

جاییکه m بردار میانگین کل نمونهها و m_i بردار میانگین کلاس iام و l_iتعداد کلاس iام و c تعداد کلاسها است. ضرایب مهم کسینوسی به LDA اعمال و بردار ویژگی از آن محاسبه شد.
۲-۸-۳-۵ DCT + LSDA
این روش ساختار هندسی و تفکیککنندگی را با هم در نظر میگیرد که برای این کار دو گراف ، گراف بین کلاسها G_bو گراف درون کلاسها G_wدر نظر گرفته می شود. مجموعه ای شامل نقاط همسایه با x_i که برچسب یکسانی دارند را با N_w(x_i) و نقاطی که برچسب آنها متفاوت است یا به عبارتی مربوط به کلاسهای مختلفند با N_b(x_i) نشان داده می شود. y = (y₁ , y₂ , ……, y_m )^Tمدلی است که گراف بین کلاس و گراف درون کلاس را به یک خط نگاشت می کند به طوریکه نقاط اتصال از G_w تا جایی که ممکن است نزدیک به هم و نقاط اتصال G_b از هم دور بمانند.

( الف) (ب) (ج)

(د)
شکل ۲-۱۱ (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار میگیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل میکند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل میکند. (د) بعد از اعمال LSDA فاصله بین کلاسهای متفاوت ماکزیمم شده است.
معیار برای انتخاب این نقشه یا مدل بهینهسازی دو تابع زیر است.
رابطه (۲-۳۹)
رابطه (۲-۴۰)
جاییکه W_w , W_bماتریسهای وزن گرافها میباشند و داریم:
رابطه (۲-۴۱)
رابطه (۲-۴۲)
جاییکه N_b(x_i) , N_w(x_i) برای k همسایه نزدیک بین کلاس و درون کلاس قرار میگیرند.) N_w ( x_i همسایههایی که برچسب یکسان با x_i دارند و N_b(x_i) هسایههایی که برچسب متفاوت دارند را شامل می شود. بعد از یافتن بردار طرح ^[۶۰] داریم y^T= a^T X .
تابع هدف برای رابطه (۲-۳۹)، با باز کردن رابطه به max a^TXW_wX^Ta و برای رابطه (۲-۴۰) به max a^TXL_bX^Ta کاهش داده می شود. که L_b= D_b – W_b لاپلاسین^[۶۱] ماتریس G_b است. که D_b ماتریسی قطری است که ورودیهایش مجموع ستونها یا سطرهای W_b میباشد.
رابطه (۲-۴۳) , D_W,ii = D_b,ii =
در نهایت مسئله بهینهسازی به یافتن arg max a^TX(αL_b+(1-α)W_w)X^Ta کاهش مییابد با توجه به اینکه a^TXD_wX^Ta=1 یا y^TD_wy=1 و α مقدار ثابتی که ۱≥ α≥۰ است.
با حل رابطه X(αL_b+(1-α)W_w)X^Ta = λXD_wX^Ta بردار ستونی شامل a₁ , a₂ ,…….. , a_d به دست می آید.
مانند مراحل قبل پس از اعمال تبدیل کسینوسی به ناحیه مورد نظر و استخراج ضرایب مهم ، آنها به LSDA داده شده و خروجی به عنوان بردار ویژگی در نظر گرفته شده است.
این روشها بر روی پایگاه داده (HIT Bi CAVDB)^[62] که شامل ۱۰۰۰ کلمه است که هر کدام ۳ مرتبه تکرار شده و فایلها دارای فرمت ‘Avi’ هستند و به صورت دستی به فریمهایشان مطابق با سیگنالهای صوتی سگمنتبندی شده اند اعمال شده است. که ۹۶ سیلاب متفاوت چینی (کلاس) را شامل می شود و با نرخ ۲۵ فریم بر ثانیه ضبط و سایز تصاویر ۲۵۶*۲۵۶ میباشد.
۲-۸-۳-۶ ماتریس انتقال ویژگی
چون برای یک کلمه ، تعداد متفاوتی فریم برای نمونههای مختلف وجود دارد بنابراین غیر ممکن است که برای آموزش ماتریس انتقال استفاده شوند. پس شکل لب به ده کلاس مطابق با ارتفاع و پهنای لب و گردشدگی و دندانها دستهبندی می شود. از هر نوع ۶۰ نمونه برای آموزش ماتریس انتقال ویژگی LSDA انتخاب شده است. در نهایت از این ماتریس برای استخراج ویژگی نهایی استفاده و چون شکل لب ها به ۱۰ کلاس دستهبندی شده ، بعد ویژگی ۹ در نظر گرفته شده و برای یک کلمه شامل n فریم برداری به سایز n*9 به دست آمده است. برای شناسایی DTW^[63] بکار گرفته شده و روشها با هم مقایسه شده اند که نتایج حاصل از روش DCT + LSDA از سایر روشها بهتر بوده است.
۲-۹ مدل لب با منحنی بیزیر^[۶۴]
در [۲۴] یک مدل لب جدید مبتنی بر منحنیهای بیزیر برای محاسبه حرکتهای لب استفاده شده است. این مدل توسط تعدادی نقطه که به وسیله مدل شکل فعال شکل گرفتهاند تعریف می شود. در اینجا ابتدا صورت و لبها آشکار میشوند. بعد لبها توسط پنج منحنی بیزیر مدل میشوند. که هر کدام توسط دو نقطه انتهایی p_{0 ,} p₂ و یک نقطه کنترل p₁ مانند شکل (۲- ۱۱) تعریف و به صورت زیر نوشته میشوند.
رابطه (۲- ۴۴) P(t)= ϕ_۰(t) p₀ + ϕ_۱(t) p₁+ ϕ_۲(t)p₂
ϕ_۰(t)= (1–t)³, ϕ_۱(t)= 3t(1–t)² , ϕ_۲(t) = (3t² – ۲t³) , tϵ [۰,۱]

شکل ۲- ۱۲ سمت چپ منحنی بیزیر و سمت راست مدل لب
مدل شامل چهار نقطه انتهایی e₁,e₂ ,e₃ ,e₄ و پنج نقطه کنترل c₁ , c₂ , c₃ , c₄ , c₅میباشد. این مدل ۱۵۰ نقطه ویژگی (جایی که هر منحنی شامل ۳۰ نقطه است) را که مرزهای لب را تعریف می کنند فشرده می کند. مدل هر شکل از ویزمهای آلمانی را تطبیق میدهد و قادر است که حرکتهای لب را محاسبه کند. که حرکتهای لب توسط مدل شکل فعال می تواند توصیف شود.
در[۲۵] سیستم دیداری انسان (HVS) مبتنی بر معیارهای کیفیت تصویر به ویژه شباهت ساختاری موجک پیچیده^[۶۵] (CW-SSIM) و درستی اطلاعات تصویری^[۶۶] (VIF)به عنوان معیارهای تشابه استفاده شده است.
CW-SSIM برای هر باند فرعی از اولین تجزیه موجک محاسبه می شود و سپس، میانگین این مقادیر چندین معیار CW-SSIM برای هر تصویر به دست میدهد. که جزئیات آن در [۲۶] بیان شده است. فرهنگی^[۶۷] از مصوتها که شامل ۴ ویدیوی ضبط شده برای هر مصوت است جمعآوری شده و با ویدیوی آزمایش مقایسه می شود. SSIM تابعی از روشنایی، اختلاف روشنایی^[۶۸] و تابع ساختار تصویر است.
S(x , y) = I(x , y). c(x , y).s(x , y)
رابطه (۲- ۴۵) = ().().(
چون SSIM عملکرد خوبی نداشته از CW-SSIM استفاده شده است. که در زیر روابط آن ذکر شده است.
(c_x , c_y) = (c_x , c_y) .(c_x , c_y)
رابطه (۲- ۴۶)= *
c_x = {c_x,i| i= 1,2,…,N} , c_y= {c_y,i|i= 1,2,….,N}
که c_x و c_y ضرایب موجک هستند. k مقدار ثابتی برای پایداری است.
همه تصاویر ویدیویی ابتدا به فریمهایشان با نرخ ۲۵ فریم بر ثانیه شکسته میشوند. هر ویدیو حدود ۱۰۰ فریم دارد. چند فریم با فریمهای متناظرش در دیگر دنبالهها توسط CW-SSIM و VIF مقایسه می شود.
۲-۱۰ جداسازی ناحیه لب با کا- مینز^[۶۹]
در[۲۷] از روشی تلفیقی از روشهای استخراج رنگ قرمز، روش کا- مینز و باینری کردن تصاویر برای استخراج ناحیه دهان در فریمها استفاده شده است. در این مطالعه علاوه بر ویژگیهای ارتفاع و پهنای دهان، زاویه گشودگی عمودی و افقی دهان که در شکل (۲- ۱۲) نشان داده شده است نیز استخراج می شود.
شکل ۲- ۱۳ زاویه گشودگی افقی _۲α و زاویه گشودگی عمودی _۱α
بعد از تعیین ناحیه دهان بر روی رشته تصاویر رنگی مربوط به کلمات دو سیلابی فارسی، سیلابها جداسازی شده و مصوت موجود در هر یک از سیلابها شناسایی می شود.
در [۲۸] توسط قطعهبندی و روشهای مدلسازی یک بردار ویژگی تصویری متشکل از ویژگیهای داخلی و خارجی دهان از دنباله تصویر لب برای شناسایی به دست آمده است. از نمایش نوار باریک^[۷۰]برای تبدیل ویژگیهای نمونه گیری شده زمان گسسته از فریمهای ویدیویی به حوزه پیوسته استفاده شده است.
بعد از ایجاد مدلهای مناسب کلمه از ضرایبspline ، روش کلاسهبندی ماکزیمم احتمال (EM) برای شناسایی اتخاذ شده است. از مدل شکل فعال استفاده شده، پهنا و ارتفاع لب به دست آورده شده و نرمالیزه شده و همچنین، بردارهای ویژه محاسبه و سه مقدار اول وزنها انتخاب شده اند. از ویژگیهای داخلی دهان نیز مساحت ناحیه دندانها و گشودگی داخلی دهان که نرمالیزه شده هستند نیز استفاده شده است.

موضوعات: بدون موضوع لینک ثابت

فرم در حال بارگذاری ...

فید نظر برای این مطلب