جایی­که m بردار میانگین کل نمونه­ها و mi بردار میانگین کلاس i ام و lتعداد کلاس i ام و c تعداد کلاس­ها است. ضرایب مهم کسینوسی به LDA اعمال و بردار ویژگی از آن محاسبه شد.
۲-۸-۳-۵ DCT + LSDA
این روش ساختار هندسی و تفکیک­کنندگی را با هم در نظر می­گیرد که برای این کار دو گراف ، گراف بین کلاس­ها Gو گراف درون کلاس­ها Gدر نظر گرفته می­ شود. مجموعه ­ای شامل نقاط همسایه با xi که برچسب یکسانی دارند را با Nw(xi) و نقاطی که برچسب آن­ها متفاوت است یا به عبارتی مربوط به کلاس­های مختلفند با Nb(xi) نشان داده می­ شود. y = (y1 , y2 , ……, ym )مدلی است که گراف بین کلاس و گراف درون کلاس را به یک خط نگاشت می­ کند به طوری­که نقاط اتصال از Gw تا جایی که ممکن است نزدیک به هم و نقاط اتصال Gb از هم دور بمانند.
پایان نامه - مقاله - پروژه

( الف) (ب) (ج)

(د)
شکل ۲-۱۱ (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است.
معیار برای انتخاب این نقشه یا مدل بهینه سازی دو تابع زیر است.
رابطه (۲-۳۹)
رابطه (۲-۴۰)
جایی­که Ww , Wماتریس­های وزن گراف­ها می­باشند و داریم:
رابطه (۲-۴۱)
رابطه (۲-۴۲)
جاییکه Nb(xi) , Nw(xi) برای k همسایه نزدیک بین کلاس و درون کلاس قرار می­گیرند.) Nw ( xi همسایه­هایی که برچسب یکسان با xi دارند و Nb(xi) هسایه­هایی که برچسب متفاوت دارند را شامل می­ شود. بعد از یافتن بردار طرح [۶۰] داریم yT= aT X .
تابع هدف برای رابطه (۲-۳۹)، با باز کردن رابطه به max aTXWwXTa و برای رابطه (۲-۴۰) به max aTXLbXTa کاهش داده می­ شود. که Lb= Db – Wb لاپلاسین[۶۱] ماتریس Gb است. که Db ماتریسی قطری است که ورودی­هایش مجموع ستون­ها یا سطرهای Wb می­باشد.
رابطه (۲-۴۳) , DW,ii = Db,ii =
در نهایت مسئله بهینه­سازی به یافتن arg max aTX(αLb+(1-α)Ww)XTa کاهش می­یابد با توجه به اینکه aTXDwXTa=1 یا yTDwy=1 و α مقدار ثابتی که ۱≥ α≥۰ است.
با حل رابطه X(αLb+(1-α)Ww)XTa = λXDwXTa بردار ستونی شامل a1 , a2 ,…….. , ad به دست می ­آید.
مانند مراحل قبل پس از اعمال تبدیل کسینوسی به ناحیه مورد نظر و استخراج ضرایب مهم ، آن­ها به LSDA داده شده و خروجی به عنوان بردار ویژگی در نظر گرفته شده است.
این روش­ها بر روی پایگاه داده (HIT Bi CAVDB)[62] که شامل ۱۰۰۰ کلمه است که هر کدام ۳ مرتبه تکرار شده و فایل­ها دارای فرمت ‘Avi’ هستند و به­ صورت دستی به فریم­هایشان مطابق با سیگنال­های صوتی سگمنت­بندی شده ­اند اعمال شده است. که ۹۶ سیلاب متفاوت چینی (کلاس) را شامل می­ شود و با نرخ ۲۵ فریم بر ثانیه ضبط و سایز تصاویر ۲۵۶*۲۵۶ می­باشد.
۲-۸-۳-۶ ماتریس انتقال ویژگی
چون برای یک کلمه ، تعداد متفاوتی فریم برای نمونه­های مختلف وجود دارد بنابراین غیر ممکن است که برای آموزش ماتریس انتقال استفاده شوند. پس شکل لب به ده کلاس مطابق با ارتفاع و پهنای لب و گردشدگی و دندان­ها دسته­بندی می­ شود. از هر نوع ۶۰ نمونه برای آموزش ماتریس انتقال ویژگی LSDA انتخاب شده است. در نهایت از این ماتریس برای استخراج ویژگی نهایی استفاده و چون شکل لب ها به ۱۰ کلاس دسته­بندی شده ، بعد ویژگی ۹ در نظر گرفته شده و برای یک کلمه شامل n فریم برداری به سایز n*9 به دست آمده است. برای شناسایی DTW[63] بکار گرفته شده و روش­ها با هم مقایسه شده ­اند که نتایج حاصل از روش DCT + LSDA از سایر روش­ها بهتر بوده است.
۲-۹ مدل لب با منحنی بیزیر[۶۴]
در [۲۴] یک مدل لب جدید مبتنی بر منحنی­های بیزیر برای محاسبه حرکت­های لب استفاده شده است. این مدل توسط تعدادی نقطه که به وسیله مدل شکل فعال شکل گرفته­اند تعریف می­ شود. در این­جا ابتدا صورت و لب­ها آشکار می­شوند. بعد لب­ها توسط پنج منحنی بیزیر مدل می­شوند. که هر کدام توسط دو نقطه انتهایی p0 , p2 و یک نقطه کنترل p1 مانند شکل (۲- ۱۱) تعریف و به صورت زیر نوشته می­شوند.
رابطه (۲- ۴۴) P(t)= ϕ۰(t) p0 + ϕ۱(t) p1+ ϕ۲(t)p2
ϕ۰(t)= (1–t), ϕ۱(t)= 3t(1–t)2 , ϕ۲(t) = (3t2 – ۲t3) , tϵ [۰,۱]

شکل ۲- ۱۲ سمت چپ منحنی بیزیر و سمت راست مدل لب
مدل شامل چهار نقطه انتهایی e,e2 ,e3 ,e4 و پنج نقطه کنترل c1 , c2 , c3 , c4 , cمی­باشد. این مدل ۱۵۰ نقطه ویژگی (جایی که هر منحنی شامل ۳۰ نقطه است) را که مرزهای لب را تعریف می­ کنند فشرده می­ کند. مدل هر شکل از ویزم­های آلمانی را تطبیق می­دهد و قادر است که حرکت­های لب را محاسبه کند. که حرکت­های لب توسط مدل شکل فعال می ­تواند توصیف شود.
در[۲۵] سیستم دیداری انسان (HVS) مبتنی بر معیارهای کیفیت تصویر به ویژه شباهت ساختاری موجک پیچیده[۶۵] (CW-SSIM) و درستی اطلاعات تصویری[۶۶] (VIF)به عنوان معیارهای تشابه استفاده شده است.
CW-SSIM برای هر باند فرعی از اولین تجزیه موجک محاسبه می­ شود و سپس، میانگین این مقادیر چندین معیار CW-SSIM برای هر تصویر به دست می­دهد. که جزئیات آن در [۲۶] بیان شده است. فرهنگی[۶۷] از مصوت­ها که شامل ۴ ویدیوی ضبط شده برای هر مصوت است جمع­آوری شده و با ویدیوی آزمایش مقایسه می­ شود. SSIM تابعی از روشنایی، اختلاف روشنایی[۶۸] و تابع ساختار تصویر است.
S(x , y) = I(x , y). c(x , y).s(x , y)
رابطه (۲- ۴۵) = ().().(
چون SSIM عملکرد خوبی نداشته از CW-SSIM استفاده شده است. که در زیر روابط آن ذکر شده است.
(cx , cy) = (cx , cy) .(cx , cy)
رابطه (۲- ۴۶)= *
cx = {cx,i | i= 1,2,…,N} , c= {cy,i |i= 1,2,….,N}
که cx و cy ضرایب موجک هستند. k مقدار ثابتی برای پایداری است.
همه تصاویر ویدیویی ابتدا به فریم­هایشان با نرخ ۲۵ فریم بر ثانیه شکسته می­شوند. هر ویدیو حدود ۱۰۰ فریم دارد. چند فریم با فریم­های متناظرش در دیگر دنباله­ها توسط CW-SSIM و VIF مقایسه می­ شود.
۲-۱۰ جداسازی ناحیه لب با کا- مینز[۶۹]
در[۲۷] از روشی تلفیقی از روش­های استخراج رنگ قرمز، روش کا- مینز و باینری کردن تصاویر برای استخراج ناحیه دهان در فریم­ها استفاده شده است. در این مطالعه علاوه بر ویژگی­های ارتفاع و پهنای دهان، زاویه گشودگی عمودی و افقی دهان که در شکل (۲- ۱۲) نشان داده شده است نیز استخراج می­ شود.
شکل ۲- ۱۳ زاویه گشودگی افقی ۲α و زاویه گشودگی عمودی ۱α
بعد از تعیین ناحیه دهان بر روی رشته تصاویر رنگی مربوط به کلمات دو سیلابی فارسی، سیلاب­ها جداسازی شده و مصوت موجود در هر یک از سیلاب­ها شناسایی می­ شود.
در [۲۸] توسط قطعه­بندی و روش­های مدل­سازی یک بردار ویژگی تصویری متشکل از ویژگی­های داخلی و خارجی دهان از دنباله تصویر لب برای شناسایی به دست آمده است. از نمایش نوار باریک[۷۰] برای تبدیل ویژگی­های نمونه گیری شده زمان گسسته از فریم­های ویدیویی به حوزه پیوسته استفاده شده است.
بعد از ایجاد مدل­های مناسب کلمه از ضرایبspline ، روش کلاسه­بندی ماکزیمم احتمال (EM) برای شناسایی اتخاذ شده است. از مدل شکل فعال استفاده شده، پهنا و ارتفاع لب به دست آورده شده و نرمالیزه شده و همچنین، بردارهای ویژه محاسبه و سه مقدار اول وزن­ها انتخاب شده ­اند. از ویژگی­های داخلی دهان نیز مساحت ناحیه دندان­ها و گشودگی داخلی دهان که نرمالیزه شده هستند نیز استفاده شده است.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...