• 
    
      <sub id="3enyw"><ol id="3enyw"></ol></sub>
      <sub id="3enyw"><ol id="3enyw"><nobr id="3enyw"></nobr></ol></sub>

    1. <sub id="3enyw"></sub>
    2. 當前位置: 首頁 文章

      Transformer如何讓自動駕駛變得更聰明?

      智駕最前沿-太平洋號
      自動駕駛領域專業的技術、資訊分享全媒體平臺。我們的slogan是:聚焦智能駕駛 ,緊盯行業前沿。
      + 關注

      [首發于智駕最前沿微信公眾號]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。

      這種能力對自動駕駛來說至關重要。由于駕駛場景復雜多變,自動駕駛系統需要同時處理來自攝像頭、毫米波雷達、激光雷達和高精地圖等多種來源的數據,還要理解車輛、行人等參與者之間隨時間的動態交互。傳統方法在應對這種多模態、長時序的信息關聯時會感覺力不從心,而Transformer的架構特性剛好彌補了這些短板。

      圖片源自:網絡

      Transformer能將“前方100米處一個模糊的物體”、“旁邊車道一輛正在減速的汽車”以及“幾秒鐘前路口突然出現的行人”這些看似獨立的信息碎片,整合成一套統一的“輸入單元”。它會自動在這些單元之間建立有用的聯系,最終提煉出對當前駕駛決策最有價值的核心信息。這種強大的全局關聯能力,讓感知、預測和規劃這些原本界限分明的模塊,可以用一種更集成、更智能的方式協同工作。

      Transformer的核心機制:自注意力和多頭注意力

      Transformer之所以強大,其關鍵在于“自注意力”機制。自注意力機制會將輸入的每一個元素(比如圖像的一塊patch、激光雷達的一個點)轉化為Query(查詢)、Key(鍵)、Value(值)這三種不同的向量:

      查詢:可以理解為當前元素提出的問題:“我應該關注誰?”

      鍵:是其他元素提供的標識:“我是誰?”

      值:是其他元素所包含的實際信息:“我有什么內容。”

      查詢會和所有鍵做相似度比較,得到權重,再把這些權重作用到所有值上,最終得到這個位置的新表示。這個過程就是讓模型自己決定“我應該關注哪些其他位置的信息來更新當前位置的理解”。為了穩定訓練過程,注意力計算會通過一個縮放因子進行調整。

      Transformer不會只做一次注意力計算,而是采用“多頭注意力”,即可以同時進行多組獨立的注意力運算。這好比讓多個專家從不同角度分析同一段信息,有的專家專注于局部細節,有的專家則善于把握全局關系,他們最后會將見解綜合起來,形成更全面、更深刻的理解。

      圖片源自:網絡

      對于自動駕駛中常見的時間序列問題,Transformer可以輕松地將過去若干幀的數據作為輸入序列,通過注意力機制直接學習不同時刻之間的依賴關系。再輔以“位置編碼”來告知模型各個輸入單元的先后順序,從而有效地預測出車輛、行人未來的運動軌跡。

      Transformer對感知的好處

      之前,感知里最常見的做法是用卷積網絡做圖像特征提取,再用專門的檢測頭(如Faster R-CNN、YOLO)做目標檢測。Transformer做的就是把檢測問題重新表述成了“一組查詢去匹配場景里的物體”,這類方法(比如DETR、以及后續變體)減少了很多手工設計的錨框、NMS(非極大值抑制)等步驟,思路上更直接,也更統一。

      1)長距離與稀疏目標的檢測更魯棒

      得益于全局注意力,Transformer在分析一個遠處的小目標時,能夠同時參考近處的大物體和整體的場景上下文。這在目標被部分遮擋或圖像分辨率有限的情況下尤其有用,模型可以依據其他相關線索推斷出“那可能是一個行人”或“遠處有一輛停靠的車輛”。

      2)多模態融合更自然

      自動駕駛車輛裝備了如攝像頭、毫米波雷達和激光雷達等傳感器,Transformer則提供了一個統一的框架,可以將這些不同來源的數據都表示為“輸入單元”,然后通過跨模態注意力機制讓它們自由地交流信息。舉個例子,激光雷達提供的精確三維點云信息可以與攝像頭豐富的紋理、顏色信息相互補充,模型能自動學習在何時、以何種方式信賴哪一種傳感器,實現真正意義上的早期融合。

      圖片源自:網絡

      3)端到端的檢測與跟蹤更容易結合

      Transformer可以把檢測框、歷史軌跡、甚至ID信息都當作token,讓模型同時做檢測和關聯,能減少后處理步驟,降低誤關聯(ID-switch)的概率。Transformer在多目標跟蹤(MOT)領域的進展,可以有效解決自動駕駛里連續幀中物體身份保持的問題。

      Transformer如何讓決策更有洞察力

      預測其他道路參與者的未來軌跡,并規劃出自車的安全路徑,是自動駕駛的核心任務,為實現這一目標,需要模型具備強大的推理能力,能夠理解參與者之間復雜的時空交互。Transformer的自注意力機制在這里再次展現出巨大優勢。

      1)更好地建模交互行為

      傳統方法在建模多智能體交互時會顯得比較僵硬。而Transformer的注意力機制天生就能計算任意兩個參與者之間的影響程度,并能動態地將注意力聚焦在“關鍵參與者”上。如在通過一個無信號燈的路口時,Transformer能同時考慮左側來車、右側準備橫穿的行人以及前方車輛的意圖,從而生成多種合理的未來概率分布,以便自動駕駛汽車可以安全、高效地駕駛。

      2)長時記憶更友好

      某些駕駛行為的預測需要回顧較長的歷史信息。要預測一個行為,有時候需要回看很長時間的過去狀態(比如某輛車的轉向燈在幾秒前就亮了,但始終慢速行駛,現在終于開始并線)。Transformer對長序列的處理比傳統LSTM等要更為穩健,而且可以并行計算,訓練效率會更高。當然,為了處理更長的歷史信息,需采用稀疏注意力、局部—全局混合機制或緩存機制來控制計算量。

      圖片源自:網絡

      3)規劃可以直接利用預測注意力

      當預測模塊和規劃模塊都基于Transformer構建時,它們之間的信息流動會更加順暢。規劃模塊不僅能看到預測模塊輸出的軌跡,甚至能“看到”預測過程中的注意力分布,即其他交通參與者最關心誰。這為自車的決策提供了更深層次的上下文,如在通過一個擁擠路口時,自動駕駛汽車可以對那個注意力高度分散、行為不確定的車輛保持更大的安全距離。

      最后的話

      Transformer為自動駕駛帶來了一種更強大、更靈活的“信息關聯與理解”的新范式。它讓機器能夠像人類一樣,更全面地審視復雜的駕駛環境,將不同來源、不同時間的信息融會貫通,從而做出更前瞻、更合理的決策。

      聲明:本文由太平洋號作者撰寫,觀點僅代表個人,不代表太平洋汽車。文中部分圖片來自于網絡,感謝原作者。
      30
      11-16
      智駕大橫評

      相關車系

      更多>>

      相關推薦

      熱門文章

      |
      97香蕉超级碰碰碰久久兔费_精品无码视频一区二区_91精品国产自产精品_欧美日韩在线观看视频

    3. 
      
        <sub id="3enyw"><ol id="3enyw"></ol></sub>
        <sub id="3enyw"><ol id="3enyw"><nobr id="3enyw"></nobr></ol></sub>

      1. <sub id="3enyw"></sub>
      2. 日韩精品一区二区三区免费视频 | 亚洲日韩欧美在线午夜 | 最新久久精品免费视频 | 中出仑乱中文字幕在线 | 亚洲综合色区在线观看 | 亚洲中文字幕一区精品 |