Jul 19, 2021
從機器視覺的角度,由簡入(rù)繁從相機標定(dìng),平麵物(wù)體檢測、有紋理物體、無紋理(lǐ)物體、深度學習、與任務/運動規劃結合等6個方(fāng)麵深度解析文章的標題。
首先,草莓视频污在线观看要了解,機器人領域的視覺(Machine Vision)跟計算機領域(Computer Vision)的視覺(jiào)有一些(xiē)不同:機器視覺的目的是給機(jī)器(qì)人提供操作物體的信息。所以,機器(qì)視覺(jiào)的研究大概有這幾(jǐ)塊:
1. 物體識別(Object Recognition):在圖像中檢測到物(wù)體(tǐ)類型等,這跟 CV 的研究有很大一部分交叉;
2. 位姿估計(Pose Estimation):計算出物體在攝像機坐標係下的位(wèi)置和姿態,對於機器人而言,需要抓取東西,不僅要知(zhī)道這是什麽,也需要(yào)知道它具體(tǐ)在哪裏;
3. 相機標定(Camera Calibration):因為上麵做(zuò)的隻是計算了(le)物體在相機坐標係下的坐標,草莓视频污在线观看還需要確定相機跟機器人的相(xiàng)對位置和姿態,這樣才(cái)可以將物體位姿轉換到機器人位姿。
當然,我這(zhè)裏主要(yào)是在(zài)物體抓取領域的機器視覺(jiào);SLAM 等其他領域的就先不講了。
由於視覺是機器人感知的(de)一塊很重要內容,所以研究也非常多了,我就我了解的一些,按(àn)照由簡入繁的順序介紹吧。
一. 相機標定
這其(qí)實屬於比較成熟的領域。由於草莓视频污在线观看所有物體(tǐ)識別都隻是計算物體在相機坐標係下的位姿,但是,機器人操作(zuò)物體需要知道物體在機器人坐標係下的位姿。所以,草莓视频污在线观看先(xiān)需要對相機的位姿進行標定。
內(nèi)參(cān)標定(dìng)就(jiù)不說了,參照張正友的論文,或者各種標定工具箱;
外參(cān)標定的話,根據(jù)相機安裝(zhuāng)位置,有兩種(zhǒng)方式:
兩種方式的求解思路都類似,首先是眼在(zài)手外(Eye to Hand)
隻需在機械臂末端固定一個(gè)棋盤格,在相機視野內(nèi)運動幾個姿態。由於相機可以計算出棋盤格相對於相機坐(zuò)標係的位姿A_i 、機器人運動學正解可以計算出機器(qì)人底座到(dào)末端抓(zhuā)手之間的位姿變(biàn)化E_i 、而末端爪手與棋盤格的(de)位姿相對固(gù)定不變。
這樣,草莓视频污在线观看就可以得(dé)到一個坐標係環 CX=XD
這種結構的求解有很多(duō)方法,我這邊給出(chū)一個(gè)參考文獻:
Shiu, Yiu Cheung, and Shaheen Ahmad. "Calibration of wrist-mounted robotic sensors by solving homogeneous transform equations of the form AX= XB."ieee Transactions on Robotics and Automation 5.1 (1989): 16-29.
而對於眼在手上(Eye in Hand)的情況,也類似,在地上隨便放一(yī)個棋盤格(與機器人基座固連),然後讓機械臂帶著相機走幾個位姿(zī),然後也可以形成一(yī)個AX=XB 的坐標環。
二. 平(píng)麵物體檢測
這是目前工業(yè)流水線上最常見的場景。目前來看,這一(yī)領域對視覺的要求是:快速、精確、穩定。所以,一般(bān)是(shì)采用最簡(jiǎn)單的邊緣提(tí)取+邊緣匹(pǐ)配/形(xíng)狀匹配的方法;而且,為了提高穩定性、一般會通過主要打光源、采用反差大的背(bèi)景等手(shǒu)段,減少係(xì)統變量。
目(mù)前,很多智能相機(如 cognex)都(dōu)直接內嵌了這些功能;而且,物體一般都是放置(zhì)在一個平(píng)麵上,相機隻需計算(suàn)物體(tǐ)的(x,y,θ)T 三自由度位姿即可。
另外,這種應用場(chǎng)景一般都是用於處理一種特定工件,相當於隻有位姿估計(jì),而沒有(yǒu)物體識別。
當然,工業上追求穩定性無可厚非,但是隨(suí)著生產(chǎn)自動化的要求(qiú)越來越高,以(yǐ)及服務類機器人的興起。對更複雜物體的完整位姿(x,y,z,rx,ry,rz)T 估計也就成了機器視覺的研究熱點。
三.有紋理的物體
機器人(rén)視覺領域是最早(zǎo)開始研究有紋理的物體的,如飲料瓶、零食盒等表麵帶有豐富紋理的都屬於這一類。
當然,這些物體也還是可以用類(lèi)似邊緣提取+模板匹配的方法。但是,實際機器人操作過程中,環境會(huì)更(gèng)加(jiā)複雜:光照條件不確定(光照)、物體距離相機距離不確定(尺度(dù))、相機看物體的角度不確定(旋轉、仿射)、甚至是被其他物(wù)體遮擋(遮擋)。
幸好有一位叫做 Lowe 的大神,提出了一(yī)個(gè)叫做 SIFT (Scale-invariant feature transform)的超強局部(bù)特(tè)征點:
Lowe, David G. "Distinctive image features from scale-invariant keypoints."International journal of computer vision 60.2 (2004): 91-110.
具體原理可以看上麵這篇被引用 4萬+ 的(de)論文或各種博客,簡單地說,這個方法提取的特征點隻跟物體表麵的某部分紋理(lǐ)有關(guān),與光(guāng)照變化、尺度(dù)變化、仿射變換、整個物體無關。
因此,利用 SIFT 特征點,可(kě)以直接在相(xiàng)機圖像中尋找到與數據庫中相同的特征點,這樣(yàng),就可以確定相機中的物體是什麽東西(物體識別)。
對於不會變(biàn)形的物體(tǐ),特征點在物體坐標係下的位置是固定的。所(suǒ)以,草莓视频污在线观看在獲取若幹點對之後,就可以直接求解出相機中物體與數據庫中物體之間的(de)單應性矩陣。
如果草莓视频污在线观看(men)用深度相(xiàng)機(如Kinect)或者雙目(mù)視(shì)覺方法,確定出每個特征點的 3D 位置。那麽,直接求(qiú)解這個 PnP 問題,就可以計算出物(wù)體在當前相機坐標係下(xià)的位姿。
↑ 這裏就放(fàng)一個實驗室之前畢業師兄的成(chéng)果(guǒ)
當然,實際操作過程中還是有很多細節工作才(cái)可以讓它真正(zhèng)可用的,如:先利用點(diǎn)雲分割和歐氏距(jù)離去除背景的影響、選用特征比較穩定的物體(有時候(hòu) SIFT 也會變化)、利用貝葉斯方法加速匹配等。
而且,除了 SIFT 之外,後來又出了一大堆(duī)類似的特征點,如 SURF、ORB 等。
四. 無紋理的物(wù)體
好了,有問題的物體容易解決(jué),那麽(me)生活中或者工業裏還有很(hěn)多物體是(shì)沒有紋理的:
草莓视频污在线观看最容易想到的就(jiù)是:是否(fǒu)有一種特征點,可以描述物體形狀,同時具有跟 SIFT 相似的不變性?
不幸的是,據我了(le)解,目前沒有這種特征點(diǎn)。
所以(yǐ),之前一大類方(fāng)法還是采用基於模板匹配的(de)辦法,但是,對匹配的特征進行了專門(mén)選擇(不隻是邊緣等簡單特征)。
這裏,我介紹一個草莓视频污在线观看(men)實驗室之(zhī)前使用和重現過的(de)算法 LineMod:
Hinterstoisser, Stefan, et al. "Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011.
簡(jiǎn)單而言,這篇論文同(tóng)時利用了彩(cǎi)色圖像的圖像梯度和深度圖像的表(biǎo)麵法向作為特征(zhēng),與數(shù)據庫中(zhōng)的模板進行匹配。
由於數據庫中的模板是(shì)從一個(gè)物(wù)體的多個視角拍攝後生成的,所(suǒ)以(yǐ)這樣匹配得到的物體位姿隻能算是初步估計,並不精確。
但是,隻要有了這個初步估計的物體位姿,草莓视频污在线观看就可以直接采用 ICP 算法(Iterative closest point)匹配物體模型與 3D 點雲,從而得到物體在相機坐標係下的精確位姿。
當然(rán),這個算法在(zài)具(jù)體實施過程中還是有很多細節(jiē)的:如(rú)何建立模板(bǎn)、顏(yán)色梯度的(de)表示等。另外,這種方(fāng)法無法應對物體被遮(zhē)擋的情況。(當然,通過降低(dī)匹配閾值,可(kě)以應對部分遮擋,但是會(huì)造成誤識別)。
針對部分遮擋的情況,草莓视频污在线观看實驗室(shì)的張博士(shì)去年對 LineMod 進行了(le)改進,但由於論(lùn)文尚未發表,所以就先不過多涉(shè)及了。
五.深度學習
由於深度(dù)學習在計算機視覺領(lǐng)域得到了非常好的效果,草莓视频污在线观看做機器人(rén)的自然也會嚐試把 DL 用到機器人的物體識(shí)別中。
首先,對於物體識別,這個就可以照搬 DL 的研究(jiū)成果了,各種 CNN 拿過來用就(jiù)好了。在 2016 年的(de)『亞馬遜(xùn)抓取大賽』中,很多隊伍都采用了 DL 作為物體識別算法。
然而, 在這個比賽中(zhōng),雖然很(hěn)多人采用 DL 進行物(wù)體識別,但在物體位姿估計方麵都還是使用比較簡單(dān)、或者傳統的算法。似乎並未廣泛采用 DL。如 周博(bó)磊 所說,一般是采用(yòng) semantic segmentation network 在彩色圖像上進行(háng)物體分割,之後,將分割出的(de)部分點雲與物體 3D 模型進行 ICP 匹配。
當然,直接用神經網(wǎng)絡(luò)做(zuò)位姿(zī)估計的工作也是有的,如這(zhè)篇:
Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
它的方(fāng)法大概是(shì)這樣(yàng):對於一個物體,取很多小塊 RGB-D 數據(隻關心一個patch,用局部特征可以應對遮擋);每小塊有一個坐標(相對於(yú)物體坐標係);然後(hòu),首先用(yòng)一個自編碼器對數(shù)據進行(háng)降維(wéi);之後(hòu),用將降維後的特征(zhēng)用於訓練Hough Forest。
六. 與(yǔ)任(rèn)務/運動規劃結合
這部分也是比(bǐ)較有意思的研究內容(róng),由(yóu)於機器視覺的目的是給機器人操作物體提供信息,所(suǒ)以,並不限於相機中(zhōng)的物體識別與定位,往往需要跟機器人的其他模塊相結(jié)合。
草莓视频污在线观看讓機器人從(cóng)冰箱中拿一瓶『雪碧』,但是這個 『雪碧』 被『美年達』擋住了。
草莓视频污在线观看人類的做法是這(zhè)樣的(de):先把 『美年(nián)達』 移開,再去取 『雪碧』 。
所以(yǐ),對於機器人來(lái)說,它需要先通過視(shì)覺確(què)定雪碧在『美年達』後(hòu)麵,同時,還需要確定『美年達』這(zhè)個東西(xī)是可以移開的,而不是冰箱門之類固定不可拿開的物體。
當然,將(jiāng)視覺(jiào)跟機器人結合後,會引出其他很多好玩的新東西。由(yóu)於不是我自(zì)己的研究方向,所以(yǐ)也就不再班門(mén)弄斧了。
來源:網絡 侵刪
免責聲明:本文(wén)援引自(zì)網絡或其他媒體,與揚鍛官網無關。其(qí)原創性以及文中陳述文(wén)字和內容(róng)未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字(zì)的真實性、完整性、及時性本站不作任何保證或承(chéng)諾(nuò),請讀者(zhě)僅作(zuò)參考,並請自行核實相關內容。
October 26, 2016
The Most Successful Engineering ContractorDec 29, 2025
十四五回顧,十五五展望:揚鍛壓力機再製造:循環(huán)經濟新模式,賦能製造業可持續發展Dec 25, 2025
0.3mm 超薄均熱(rè)板背後:揚鍛精密衝壓(yā)技(jì)術突破五大難(nán)點,賦能高端散熱