今天小編分享的科學經驗:OpenCity大模型預測交通路況,零樣本下表現出色,來自港大百度,歡迎閲讀。
長時間交通狀況預測,可以用大模型實現了。
香港大學聯合華南理工大學和百度,推出了長時間城市交通預測模型—— OpenCity。
而且泛化能力極強,可有效應用于廣泛的交通預測場景。
為了解決傳統交通預測模型泛化性及長期預測能力不足的問題,研究團隊新的基礎模型 OpenCity。
OpenCity結合了 Transformer 架構和圖神經網絡,用以模拟交通數據中復雜的時空依賴關系。
通過在大規模、異質性交通數據集上進行預訓練,OpenCity 能夠學習豐富、具有泛化性的表征,這些表征可有效應用于廣泛的交通預測場景。
相比于傳統方法,OpenCity 具有以下特點:
通用時空建模:OpenCity 旨在有效處理不同空間區網域和時間城市交通模式的固有多樣性和變化。
卓越的零樣本預測能力:與僅在目标區網域訓練的全樣本模型相比,OpenCity 展示了更優越的性能。這種顯著的零樣本能力突出了模型學習泛化表征的能力,使其能夠無需廣泛重新訓練或微調即可無縫應用于新的交通環境。
快速的情境适應能力:OpenCity 在不同天的時空預測任務中展現了廣泛的适用性。模型只需快速微調就能适應上下文,可以無縫部署在各種場景中。
可擴展性:OpenCity 展示了有希望的縮放定律,表明該模型有潛力在最小的額外訓練或微調需求下有效地擴展和适應新的、以前未見過的場景。
長時間交通預測面臨挑戰
當前的交通預測模型,主要面臨着三大挑戰。
一是跨區網域空間泛化能力。
當前交通預測模型的一個關鍵局限是它們在空間泛化能力欠佳。
不同地理位置的交通模式可能因基礎設施、人口統計等因素而有很大差異,現有模型通常僅從特定區網域的數據中學習,無法有效地泛化到其他區網域。
然而,在整個城市區網域部署全面的傳感器網絡來收集交通數據是不切實際的。
一種更可行的方法是構建能夠僅使用部分數據就能很好泛化到未見區網域的模型。
此外,開發适用于不同城市的時空模型将顯著降低部署和維護成本。
解決空間泛化挑戰對于創建可以在不同城市環境中無縫部署,無需大量重新訓練或微調的交通模型至關重要。
第二個挑戰是時間泛化與長期預測。
當前的交通預測模型擅長于短期預測,例如預測未來一小時内的交通狀況。
然而,它們在泛化到更長時間框架,如未來幾小時或幾天的能力明顯有限。
這種限制主要是由于模型在有效處理實際城市場景中較長時間範圍内發生的時間分布變化方面的泛化能力較差。
随着預測時間範圍的增加,這些模型難以捕捉和考慮影響長期交通狀況的交通模式的動态變化。
這一限制為城市規劃者和交通機構制定有效的長期戰略帶來了較大障礙。
第三是學習有效的通用表征并應對時空異質性。
學習強大、具有泛化能力的交通動态表征對于開發多功能交通模型至關重要。
通過學習通用表征,模型可以獲得對交通模式的堅固且可轉移的理解,使其能夠有效地應用于多種場景,即使沒有特定領網域的訓練數據。
此外,城市交通模式的特點是其固有的多樣性,在不同的空間區網域和時間顯示出顯著的分布變化。
解決這種異質性對于确保統一的時空交通模型保持多功能性和适應性至關重要。
下方左圖展示了不同交通數據集中數據分布的變化,突出了需要能夠處理這種差異的模型的必要性;
右圖比較了 OpenCity 在零樣本下的性能與基線在全樣本下的性能,盡管存在時空異質性分布偏移挑戰,OpenCity 的表現仍與全樣本基線相當。
為了解決這些挑戰,研究團隊采取了一系列新策略。
用于分布偏移泛化的時空嵌入上下文歸一化
現有方法通常利用訓練數據的統計特性如均值和标準差等,進行數據歸一化。
然而,當測試數據顯示出顯著的數據異質性且與訓練數據分布沒有地理空間重疊時,這些匯總統計可能是不充分的或不可轉移的。
為了應對這一挑戰并适應零樣本交通預測任務,作者采用實例歸一化 IN ( · ) 來處理數據。
這種方法利用每個區網域的單個輸入實例 Xr ∈ ℝ ^T 的均值 μ ( Xr ) 和标準 σ ( Xr ) ,而不依賴于全局訓練集的統計數據,它能夠有效緩解訓練數據和測試數據分布偏移的問題,形式化如下:
用于高效長期預測的 Patch 嵌入
OpenCity 旨在解決長期交通預測問題,這涉及處理增加的輸入時間步數,導致顯著的計算和内存開銷。
為了緩解這些問題,作者采用基于 Patch 的方法按時間維度劃分數據。
定義 P 為 Patch 長度,指定分組到單個 Patch 中的時間步數,以及 S 為步長大小,決定連續 Patch 之間的重疊。
Patch 操作後,輸入數據被重塑為 Xr^P ∈ ℝ ^ ( P × N ) ,其中 N 是塊的數量,N = ( T-P ) / S +1。
通過将一小時的交通數據視為單個補丁的長度,并相應地調整步長(S=P),使得模型能夠捕捉并适應交通數據在延長時間範圍内的演變模式。
此外,基于補丁的處理顯著降低了計算和内存需求,使得更高效和可擴展的長期交通預測成為可能。
在 patch 操作後,作者使用線性轉換和正餘弦位置編碼 PE 以得到最終時空嵌入表征 Er ∈ ℝ ^ ( P × d ) ,它被用于後續組件的輸入,如下:
時空上下文編碼
為了捕捉交通數據中固有的復雜時空模式,模型整合了時間和空間上下文線索。
通過顯式地模拟這兩個關鍵維度之間的相互作用,OpenCity 能夠更好地理解影響交通模式的多方面因素。
這種集成方法使所提出的框架能夠在不同的時間範圍和地理區網域中生成更準确的預測。
時間上下文編碼
OpenCity 模型有效地捕捉了交通數據中的獨特時間模式,例如由日常或周常規引起的周期性變化,以及在更長的時間尺度上的復雜非線性依賴。
具體來説,作者利用一天中的時間 z^ ( d ) ∈ ℝ ^T 和一周中的某天 z^ ( w ) ∈ ℝ ^T 等時間特征來提取周期關聯,然後采用線性層來生成編碼這些時間上下文線索的時間特定嵌入。
通過顯式地模拟交通流的周期性特征,該方法即使在長期預測範圍下也能實行精确預測。
時間上下文編碼過程結合了 patch 操作與時空嵌入表征對齊,形式化如下:
空間上下文編碼
由于地理特性的獨特性,不同區網域的交通模式各不相同(如交通樞紐有着的較高流量)。
為了捕捉這些區網域屬性,作者在交通網絡中整合了空間上下文。
首先,作者計算了标準化的拉普拉斯矩陣,其中 I 和 D 分别是部門矩陣和度數矩陣:
然後作者執行看特征值分解,得到△ =U Λ U^T,其中 U 和 Λ 分别是特征值矩陣和特征向量矩陣。
使用 k 個最小的非平凡特征向量作為區網域嵌入 Φ ∈ ℝ ^ ( R × k ) ,編碼交通網絡的結構信息。
然後通過線性層處理這些嵌入,以獲得最終的空間編碼 C ∈ ℝ ^ ( R × d ) 。
時空依賴建模時間依賴建模
OpenCity 在所提出的 TimeShift Transformer 架構上構建,以編碼時間依賴關系。作者主要從兩個互補的視角捕捉交通模式:
周期性交通轉換:作者的模型捕捉周期性的、反復出現的交通模式,如每小時、每日和每周的循環。通過編碼這些周期性變化,我們的方法可以更好地解釋交通網絡中的固有規律性。
動态交通模式:除了周期性變化外,作者的時間編碼器還捕捉交通數據随時間演變的復雜、非線性時态動态和趨勢。
周期性交通轉換建模
作者利用時間嵌入 D 和空間嵌入 C 捕獲交通中的周期性模式,目标是揭示歷史交通模式與未來實例之間的相關性。
其中,時間嵌入被更新為兩個組成部分:
D^his ∈ ℝ ^ ( R × p × d ) :捕捉歷史時間信号。
D^pre ∈ ℝ ^ ( R × p × d ) :未來預測的預期時間信息。
作者的模型明确地模拟了歷史和未來導向的時間模式,使其能夠更好地學習和利用交通時間序列的周期性特征。
這個過程通過構建時間轉移多頭注意力機制實現——
将未來的時空嵌入作為查詢(Query),歷史的時空嵌入作為鍵(Key),以及歷史的時空數據表示作為值(Value)。
作者引入了 RMSNorm 來提高訓練穩定性。
通過明确建模歷史與未來時間信息之間的關系,OpenCity 具備了發現周期性時空交通模式的能力。
動态交通模式學習
該模塊旨在捕捉不同時間段之間的動态依賴關系,例如,突發的交通事故可能導致交通速度和交通量急劇下降。
為了實現這一點,我們采用類似于周期交通轉換編碼的注意力機制。
不同之處在于,查詢(Q)、鍵(K)和值(V)的輸入被替換為上一步的歸一化輸出(M)。
這一修改使得模型能夠專注于學習不同時間段之間的動态依賴關系,而不僅僅是周期模式。
得到的時間表示 H ∈ ℝ ^ ( R × p × d ) 捕捉了這些動态時空關系。
空間依賴建模
捕捉空間依賴性是模型設計的一個關鍵方面,因為交通網絡表現出強空間相關性,一個區網域的交通狀況往往受到鄰近區網域狀态的影響。
為了建模這些空間關聯,作者采用了圖卷積網絡(GCNs):
殘差連接、RMSNorm 和 SwiGLU 激活函數被用于後續運算。
所提出的模型通過堆疊多層此類時空編碼網絡,捕捉復雜的時空依賴關系,使其能夠學習交通網絡内復雜的關系。
測試結果零樣本 vs. 全樣本
作者全面測試了 OpenCity 的零樣本性能,包括跨區網域,跨城市和跨類型三種情形,并于基線全樣本性能進行對比。
首先,OpenCity 顯現出了卓越的零樣本預測性能。
OpenCity 在零樣本學習方面取得了重大突破,即使不進行微調,也超越了大多數基線。
這突出了該方法在學習大規模交通數據中復雜的時空模式、提取适用于下遊任務的通用見解方面的穩健性和有效性。
OpenCity 在多個數據集上能夠保持前兩名的位置,即使在不領先的情況下差距也保持在 8%(MAE)以内。
卓越的零樣本預測性能凸顯了 OpenCity 在處理多樣化交通數據集上的通用性和适應性,無需廣泛重新訓練。
其關鍵優勢在于可以立即部署到新場景中,顯著減少傳統監督方法通常所需的時間和資源,為實際應用帶來了巨大的好處。
OpenCity 還表現出了卓越的跨任務泛化能力。
作者在交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租車需求(CHI-TAXI)和自行車軌迹(NYC-BIKE)這四個不同的交通數據類别中評估了 OpenCity。
基線分析顯示,雖然各種模型在特定數據類型上表現出色,但沒有一個能夠在所有類别中始終提供最佳結果。
然而,它們在其他領網域保持該水平的表現卻存在困難。
相比之下,OpenCity 在所有測試類别中始終提供高質量的結果,突顯其卓越的穩健性和多功能性。
此外,為了評估 OpenCity 框架的通用性,作者在測試期間評估了其跨類别的零樣本泛化能力(NYC-BIKE)。
結果顯示 OpenCity 在多個指标保持了優異的表現,進一步驗證了其普适性和适應多樣數據類型的能力。
此外,OpenCity 還擁有強大的長期預測能力。
OpenCity 架構的一個關鍵優勢是其卓越的時間泛化能力,其能夠在長期交通預測任務中優于基線方法。
許多現有模型常常難以在延長的時間範圍内維持準确的預測,因為它們傾向于過度拟合歷史模式,未能充分捕捉交通條件的動态和演變特性。
OpenCity 能夠從多樣化交通數據源學習通用時空表征,這使其能夠生成穩健的預測,即使交通模式随時間變化和演進,預測仍然可靠。
有監督預測性能
為了進一步驗證 OpenCity 的性能,作者進行了監督學習評估。
其中,OpenCity 在 one-for-all 設定下與基線在單個數據集端到端訓練測試進行對比。
OpenCity 在監督設定中保持出色的表現,并在大多數評估指标中占據領先優勢。
此外,作者觀察到大多數基線模型在 CAD-X 數據集上表現不佳,可能是因為它們傾向于過度拟合歷史時空模式,使得它們難以泛化到長期交通依賴建模。
相比之下,OpenCity 架構有效地從我們的預訓練階段提取了通用的周期性和動态時空表征,解決了由于跨時間和跨位置分布偏移引起的預測性能不佳的問題。
△有監督性能評估模型快速适應能力探索
本節評估了 OpenCity 在下遊任務中的快速适應能力。
作者關注了一個之前未見過的交通數據集,并采用了 " 高效微調 " 方法,設定如下:
只更新模型的預測頭(最後一個線性層),最多進行三個訓練周期。
結果,OpenCity 在某些指标上的零樣本表現不如基線模型的全樣本表現,這可能是由于交通模式和數據采樣的變化。
然而,經過高效微調後,OpenCity 的表現顯著提升,超過了所有比較的模型。
值得注意的是,OpenCity 的訓練時間只占基線所需時間的 2% 至 32%。
這種快速的适應能力突顯了 OpenCity 作為基礎交通預測模型的潛力,能夠迅速适應新的時空數據類别。
消融實驗
動态交通建模的效用(-DTP):移除動态交通建模模塊後出現性能下降,展示了該模塊能充分分析最近的交通模式,并有效地适應交通條件的突然變化來調整其預測。
周期性交通轉移建模的影響(-PTTM):我移除了周期相關編碼,直接将時間和空間上下文整合到時空嵌入中。通過建模交通流在歷史 - 未來時間對之間的映射,OpenCity 捕捉了控制時空模式演變的一般規律。
空間依賴性建模的影響(-SDM):去除了空間編碼模塊。分析顯示,學習空間關系顯著增強了時空預測能力。通過聚合來自依賴空間區網域的交通信息,模型有效地捕捉了動态交通流模式,從而為零樣本交通預測提供了有價值的輔助信号。
時空上下文編碼的影響(-STC):移除了時空上下文信息的編碼,導致了性能的顯著下降。時間上下文信息幫助模型識别并學習特定時期内的常見交通模式,而區網域嵌入包含了重要的區網域特定特性。這些元素共同提供了理解城市間動态時空模式的寶貴見解。
模型可擴展性研究
作者還探索了 OpenCity 在數據和參數兩個維度上的可擴展性。
其中,參數可擴展性包括三個版本:OpenCitymini(2M 參數)、OpenCitybase(5M 參數)和 OpenCityplus(26M 參數)。
在模型 plus 下,作者使用了 10%、50% 和 100% 的預訓練數據來探索納入更多數據的好處。
為了标準化比較,縱軸代表相對預測誤差值。結果顯示,随着參數和數據規模的增加,OpenCity 的零樣本泛化性能逐漸提升。
這表明 OpenCity 能夠從大規模數據集中提取有價值的知識,并且通過參數擴展增強了其學習能力。
所展示的可擴展性潛力支持 OpenCity 成為通用交通應用的基礎模型的前景。
與大規模時空預測模型的比較
作者還将 OpenCity 與其他先進的大型時空預訓練模型進行比較,包括以強大的零樣本泛化能力著稱的 UniST 和 UrbanGPT。
作者使用了三個模型的預訓練階段均未包含的 CHI-TAXI 數據集進行評估。
結果顯示,OpenCity 在其他先進的大規模時空模型中保持了顯著的性能優勢。
此外,OpenCity 和 UniST 相比于 UrbanGPT 顯示出顯著的效率改進。這可能是因為 UrbanGPT 依賴于通過問答格式進行預測的大型語言模型 ( LLM ) ,這限制了其高效處理批量數據的能力。
所提出的 OpenCity 模型在性能和效率上實現了雙赢,突顯了其作為交通基準測試的強大大規模模型的潛力。
總之,OpenCity 這個用于交通預測的可擴展時空基礎模型,在多個交通預測場景中實現了精确的零樣本預測性能。
通過采用 Transformer 編碼器架構作為建模動态時空依賴關系的主幹,并在大規模交通數據集上進行預訓練,OpenCity 在各種下遊任務上展示了卓越的零樣本預測性能,與全樣本設定下的最先進基線模型的結果相匹配。
論文地址:
http://arxiv.org/abs/2408.10269
GitHub:
https://github.com/HKUDS/OpenCity
項目組主頁:
https://sites.google.com/view/chaoh/home
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>