خیلی ساده است. چند راه وجود داره:

ساده ترین و کم هزینه ترین: یک وبکم و یه کامپیوتر ( لپتاپ-pc-رزبری و ...) و نوشتن کد تو کتابخونه های پردازش تصویر مثله openCV که تقریبا از همه ی زبان های معروف پشتیبانی میکنه.
kinect: برای کینکت به اینجا سر بزنیدhttps://openkinect.org/wiki/Main_Page
leap motion: ذقت خیلی بالایی داره ( 0.01mm) ولی محدودیتش اینه که دستگاه همیشه باید زیر دستتون باشه!