مفاهیم اولیه در پردازش تصویر

1-1مقدمه

    علم پردازش تصویر، از علوم پرکاربرد و مفید در فنون مهندسی می باشد و از دیرباز مطالعات و تحقیقات گسترده ای در این زمینه صورت گرفته و پیشرفت های فراوانی حاصل شده است.

    سرعت گسترش این پیشرفت ها به حدی بوده است، که هم اکنون و پس از گذشت مدت زمان کوتاهی می توان تأثیر پردازش تصویر را در بسیاری از علوم و صنایع به وضوح مشاهده نمود.

    در حالی که برخی از این کاربردها، آن گونه به پردازش تصویر وابسته است، که بدون آن اساساً قابل استفاده نمی باشد.

     نظر به این که علم پردازش تصویر به صورت جامع و تخصصی در دنیای امروزی، روز به روز نقش اساسی و مهم تری پیدا می کند و در کشور ما نیز تقریباً در آغاز راه است.

     مسئله بزرگی داده های تصویری و تلاش جهت حذف نویز و اختلالات تصویری نظیر پارامترهای حاصل از منابع نوری نامناسب، عدم تناسب ترکیب رنگ ها و عوامل متعدد دیگر در تصاویر دریافتی، از موضوعات بسیار مهم در کار با تصاویر و پردازش آنها می باشد.

1-2 پردازش تصویر چیست؟

     امروزه با پیشرفت های متعددی که در روش های اخذ اطلاعات گسسته مانند اسکنرها و دوربین های دیجیتالی به وجود آمده است، پردازش تصویر کاربرد فراوانی یافته است.

     تصاویر حاصل از این اطلاعات همواره در حد قابل توجهی دارای نویز و یا تیرگی محسوس بوده است و در مواردی نیز دارای مشکل محو شدگی مرزهای نمونه های داخل تصویر می باشد، که باعث کاهش وضوح تصویر دریافتی می گردد.

     به مجموعه عملیات و پردازش هایی که در راستای آنالیز تصویر در زمینه های مختلف انجام شده است، علم پردازش تصویر گویند.

1-3کاربردهای علم پردازش تصویر

     علم پردازش تصویر از جمله علوم پر کاربرد و مفید در صنعت می باشد، که در زیر نمونه ای از کاربردهای پردازش تصویر در زمینه های مختلف آورده شده است.

الف) کاربردهای صنعتی مانند کنترل کیفیت بسته بندی دارو در یک کارخانه

ب) کاربردهای امنیتی مانند تشخیص حرکت، تشخیص اثر انگشت، تشخیص چهره و تشخیص دست خط یا امضا

ج) کاربردهای پزشکی مانند ارتقای ویژگی های تصاویر اشعه x، تولید تصاویر MRI از مغز و یا تصاویر مربوطه به CTScan

ز) کاربردهای نظامی مانند تشخیص و هدف یابی خودکار اهداف متحرک یا ثابت توسط موشک های هوا به زمین

1-4آشنایی با مفهوم پیکسل در یک تصویر

     پیکسل (Pixel) شکل مختصر Picture Elements نقطه های بسیار ریز مربع شکلی هستند که از تجمع آنها، تصویر روی صفحه نمایش یا روی کاغذ (توسط چاپگر) شکل می گیرد. همان طور که بیت، کوچک ترین واحد اطلاعات قابل پردازش توسط کامپیوتر است، پیکسل نیز کوچک ترین عنصر سخت افزار و نرم افزار نمایشی یا چاپی است که برای شکل گرفتن تصاویر مورد استفاده قرار می گیرد. اگر برای هر پیکسل تنها دو رنگ (معمولاً سیاه و سفید) در نظر گرفته شود، توسط یک بیت از اطلاعات قابل کددهی است و در صورتی که بیش از دو بیت برای ارائه یک پیکسل استفاده شود، محدوده رنگ ها یا سایه های خاکستری وسیع تری، قابل ارائه خواهد بود.

1-5 آشنایی با مفهوم عمق بیتی

    مقدار هر نقطه (پر یا خالی) در یک یا چند بیت اطلاعات ذخیره می شود. برای تصاویر ساده تک رنگ، یک بیت برای نشان دادن هر نقطه کافیست، اما در تصاویر رنگی و سایه های خاکستری، هر نقطه نیاز به بیش از یک بیت اطلاعات دارد.

    هرچه از بیت های بیشتری برای نشان دادن یک نقطه استفاده شود، رنگ ها و سایه های خاکستری بیشتری را می توان نشان داد. غلظت نقاط یا همان Resolution، وضوح تصویر را تعیین می کند، این ویژگی با واحد نقطه در اینچ یا همان dpi و یا با تعداد ردیف ها و ستون ها مثلاً 640 x 480 سنجیده می شود. برای نمایش تصویر bit-map بر روی مانیتور یا چاپ آن با پرینتر، کامپیوتر bit-map را به pixel برای نمایش بر روی مانیتور یا به ink dots برای چاپ تبدیل می کند.

    اساس کار اسکنرهای Optical و دستگاه فاکس، تبدیل متن یا تصویر به bit-map می باشد. تصاویر bit-map را اغلب به عنوان تصاویری با خطوط موازی (raster) می شناسند. راه های دیگری نیز برای نشان دادن تصاویر وجود دارد، vector graphics یا object-oriented graphics است. با روش vector graphics، تصاویر با فرمول های ریاضی که تمام اشکال تصویر را تعریف می کند، نشان داده می شوند. این روش انعطاف پذیرتر از bit-map می باشد، چرا که اگر آنها را با اندازه های مختلفی نیز بسنجید، یکسان به نظر خواهند رسید.

    تصاویر bit-map در صورت کوچک یا بزرگ شدن، تکه تکه خواهند شد. فونت هایی با اشکال outline fonts scalable fonts, vector یا vector fonts نامیده می شوند.

فونت های bit-map را raster نامیده و تنها می توان آنها را برای یک طرح مشخص با size و وضوح تعیین شده طراحی کرد.

1-6 آشنایی با مفهوم بعد یک تصویر

    تصویرهای مبتنی بر نقشه بیتی، همواره به صورت شبکه های مربع شکل بزرگ می باشند، این شبکه ها مانند صفحه شطرنج یا موزاییک های کف آشپزخانه می باشند. این شبکه های مربع شکل بزرگ از مربع های کوچک تری تشکیل شده اند. یکی از مشخصه هایی که همواره می توان در مورد شبکه ها بیان نمود، این است که دارای ابعاد می باشند. صفحه شطرنج همواره 8*8 است، اما شبکه پیکسل های تشکیل دهنده صفحه نمایش کامپیوتر، 800*600 است.

     ابعاد شبکه در واقع معادل تعداد مربع هایی است، که طول و عرض تصویر را تشکیل داده اند و ربطی به اندازه واقعی تصویر ندارند.

1-7چگونگی تشکیل رنگ در چشم انسان

     جهت مشاهده و درک هر رنگ، سه انرژی جداگانه مربوط به سه رنگ اصلی دریافت شده و از ترکیب آنان با یکدیگر رنگ تصویر ایجاد خواهد شد. لازم به ذکر است که هر سیستم گیرنده، منحنی حساسیت رنگی مختص به خود را داشته و لذا ترکیب سه انرژی رنگی R(x,y) انرژی رنگ قرمز، G(x,y) انرژی رنگ سبز، B(x,y) انرژی رنگ آبی دریافتی می باشند.

     بدین ترتیب جهت مشخص نمودن هر تصویر رنگی، باید از سه ماتریس جهت مقادیر قرمز (Red)، سبز (Green) و آبی (Blue) هر نقطه از تصویر (پیکسل) استفاده نمود. رنگ هر پیکسل توسط ترکیب سه رنگ اصلی در سه ماتریس داده شده، به دست می آید.

1-8 پردازش تصویر رنگی

     استفاده از رنگ در پردازش تصویر، دو انگیزه اصلی دارد: دلیل اول تحلیل خودکار تصویر. رنگ، توصیف گر توانایی است که در اغلب موارد شناسایی و استخراج شیء از صحنه را ساده می سازد.

      دلیل دوم در مواردی که تحلیل تصویر به وسیله انسان انجام می شود، چشم انسان قادر است هزاران سایه و شدت رنگ را، در مقایسه با حدود 24 سایه خاکستری تشخیص دهد.

      پردازش تصویر رنگی در حوزه اصلی به دو دسته تقسیم می شود: پردازش تمام رنگ و پردازش شبه رنگی.

در گروه اول، تصاویر مورد نظر معمولاً با یک Sensor تمام رنگی نظیر دوربین تلویزیون رنگی با پیمایش گر رنگی (color scaner) برداشته می شوند.

      در گروه دوم، به هر شدت تک رنگ خاص یا محدوده ای از شدت ها یک سایه رنگی منتسب می شود. تقریباً تا همین اواخر، بیشر پردازش تصویر رنگی به صورت شبه رنگی انجام می شد.

      پیشرفت قابل توجهی که در دهه 1980 انجام شد، باعث گردید Sensorهای رنگی و سخت افزار لازم برای پردازش تصویر رنگی با قیمت های قابل قبولی در دسترس قرار گیرند. در نتیجه این پیشرفت ها استفاده از روش های پردازش تصویر تمام رنگی در محدوده وسیعی از کاربردها در حال افزایش است.

1-9آشنایی با انواع مدل های رنگ

     هدف از انتخاب مدل رنگ، تسهیل مشخص سازی رنگ ها در یک استاندارد است، که معمولاً روش مورد قبولی می باشد. در اصل مدل رنگ، تعیین یک سامانه مختصات سه بعدی و زیر فضایی، درون آن سامانه است که در آن سامانه هر رنگ تنها با یک نقطه بیان می شود.

    بیشتر مدل های رنگی که اکنون استفاده می شوند، به سمت سخت افزار (مانند نمایشگرها و چاپگرهای رنگی) یا کاربردهایی گرایش دارند، که هدف آنها کار با رنگ می باشد، نظیر تولید گرافیک های رنگی برای (Animation).

 عمومی ترین مدل های سخت افزارگرا عبارتند از:

مدل RGB (آبی، قرمز، سبز) برای نمایشگرهای رنگی و یک گروه وسیع از دوربین های وسیع،

مدل CMY (آبی فیروزه ای، بنفش، زرد) برای چاپگرهای رنگی و مدل YIQ، که یک استاندارد پخش تلویزیون رنگی است.

    در مدل سوم، Y متناظر با لومیناتوس است، I و Q دو مؤلفه رنگ هستند، که به ترتیب هم فاز (Inphase) و متعامد (Quadrature) خوانده می شود. مدل HIS (اصل رنگ، اشباع، مقدار) از مدل هایی هستند که به طور مکرر برای کار با تصویر رنگی استفاده می شوند.

    مدل های رنگی RGB، YIQ و HIS متداول ترین مدل هایی هستند، که برای پردازش تصویر استفاده می شوند. در بخش های بعد ویژگی های اصلی این سه مدل معرفی خواهند شد.

گرچه مدل CMY به جای استفاده در پردازش تصویر واقعی، در چاپ استفاده می شود اما به دلیل اهمیت آن در به دست آوردن خروجی های چاپی، در این جا نیز بررسی می شود.

1-10مدل رنگ RGB

    این مدل بر اساس سامانه مختصات کارتزین است.زیرا فضای رنگی مورد علاقه مکعب تصویر زیر می باشد.

در این مدل، محدوده خاکستری از سیاه تا سفید در طول خط و اصل این دو نقطه قرار دارد و سایر رنگ ها نیز نقاطی روی یا درون مکعب هستند که با بردارهایی که از مبدأ می گذرد تعریف می شود. برای تسهیل مدل، فرض بر این است که تمام مقادیر رنگ تراز شده اند طوری که مکعب تصویر زیر مکعب واحد باشد، یعنی فرض می شود که تمام مقادیر G, R و B در محدوده [0و1] قرار دارند.

     هر تصویر در مدل رنگ RGB سه صفحه مستقل دارد، که هر صفحه برای رنگ اولیه می باشد. وقتی این سه صفحه به نمایشگر RGB داده شوند، روی صفحه فسفری ترکیب می شوند تا یک تصویر رنگی را تولید کنند. بنابراین وقتی خود تصاویر به طور طبیعی بر حسب سه صفحه رنگی بیان شوند، استفاده  از مدل RGB جهت پردازش تصویر معنا می یابد. همچنین اغلب دوربین های رنگی که برای تصویربرداری رقمی به کار می روند، از این قالب استفاده می کنند که این موضوع خود به تنهایی مدل RGB را مدل مهمی در مبحث پردازش تصویر می سازد.

    یکی از بهترین مثال های کاربرد مدل RGB، پردازش داده های تصویری چند طیفی هوایی یا ماهواره ای است.

    تصاویر به وسیله حس گرهای تصویربرداری که در محدوده طیفی مختلف کار می کنند، گرفته می شوند. برای نمونه، هر قاب خروجی تصویربردار LANDSAT دارای 4 تصویر رقمی است. (LANDSAT مخفف عبارت Land Sattellite است.) (این نام را NASA به ماهواره هایی داده است که جهت نظارت سطح زمین ساخته می شوند.) همه تصویرها از یک صحنه هستند، که در محدوده پنجره طیفی متفاوتی گرفته می شوند.

    دو پنجره از چهار پنجره فوق، در بخش مرئی طیف هستند، که تقریباً متناظر با سبز و قرمز می باشند. دو پنجره دیگر در بخش مادون قرمز طیف هستند. بنابراین هر صفحه تصویر (Image Plane) معنای فیزیکی دارد و ترکیبات رنگی که با استفاده از مدل RGB برای پردازش و نمایش به دست می آیند، معمولاً وقتی معنا پیدا می کنند، که روی یک صفحه رنگی دیده شوند، یا هنگام بخش بندی تصویر رنگی بر اساس مؤلفه های طیفی آن معنا دارند.

    فرض کنید، که مسئله، ارتقای تصویر رنگی صورت انسان که بخشی از آن در سایه مخفی است، باشد. تعدیل بافت نگار ابزار ایده الی برای حل این نوع مسائل می باشد. به دلیل وجود سه تصویر و به دلیل آن که تعدیل بافت نگار با مقادیر شدت کار می کند، روال این است که هر یک از صفحه تصویرها به طور مستقل تحت تعدیل بافت نگار قرار گیرد. به احتمال زیاد، بخشی که در سایه مخفی است، ارتقا می یابد.

    نتیجه این که، خواص رنگی مهم در تصویر، نظیر تنهای نرم (Flesh tone) روی نمایشگر RGB به طور طبیعی ظاهر نمی شوند.

1-11مدل رنگ CMY

     فیروزه ای، بنفش و زرد رنگ های ثانویه نوری یا رنگ های اولیه مادی هستند. مثال وقتی بر سطح پوشیده از ماده رنگی فیروزه ای، نور سفید تابیده می شود، هیچ نور قرمزی از آن منعکس نمی شود، یعنی فیروزه ای نور قرمز را از نور سفید تفریق می کند.

     بیشتر وسایلی که مواد رنگی را بر روی کاغذ می نشانند، نظیر چاپگرها و کپی بردارهای رنگی، به داده های CMY نیاز دارند، یا این که در داخل خود، داده های RGB را به CMY تبدیل می کنند. این تبدیل با استفاده از عمل ساده انجام می شود. دوباره فرض بر این است که تمام مقادیر رنگی به محدوده [1و0] تراز شده اند.

1-12مدل رنگ YIQ

      مدل YIQ در پخش عمومی تلویزیون رنگی تجارتی استفاده می شود. در واقع YIQ تغییر تصویر RGB به منظور افزایش بازده انتقال و حفظ سازگاری با استانداردهای تلویزیون تک رنگ می باشد. مؤلفه Y در سامانه YIQ، تمام اطلاعات ویدئویی مورد نیاز تلویزیون تک رنگ می باشد. تبدیل RGB به YIQ به صورت رابطه زیر تعریف می شود:

     جهت به دست آوردن مقادیر RGB، از مقادیر YIQ به عرض باند (یا در حالت دیجیتالی) بیشتری برای نمایش Y و عرض باند (یا بیت های) کمتری برای نمایش I و Q نیاز دارد.

     مزیت اصلی مدل رنگ YIQ در پردازش تصویر ناشی از این خاصیت است که اطلاعات لومیناتوس (Y) و اطلاعات رنگی I و Q ناهمبسته (Decoupled) هستند.

1-13 مدل رنگی HIS

    اصل رنگ است، که رنگ خالص را توصیف می کند (زرد، نارنجی یا قرمز خالص)، در حالی که اشباع میزانی که یک رنگ خالص با نور سفید ترقیق شده است، ر می دهد. سودمندی مدل رنگ HIS مدیون دو عامل اصلی است.

1. مؤلفه شدت I، از اطلاعات رنگ تصویر مجزا است.

2. مؤلفه های اصل رنگ و اشباع، رابطه نزدیکی با روش دریافت رنگ توسط انسان دارند.

این ویژگی ها، مدل HIS را به ابزار ایده آلی برای تولید الگوریتم های پردازش تصویر که مبتنی بر بعضی خواص احساس رنگ سامانه بینایی انسان هستند، تبدیل می کند.

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد