AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源 - 大酷樂

今天小編分享的科學經驗：AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源，歡迎閲讀。

大模型"上路"，幹起了交通信号控制（TSC）的活～

模型名為LightGPT，以排隊及不同區段快要接近信号燈的車輛對路口交通狀況分析，進而确定最好的信号燈配置。

該模型由香港科技大學（廣州）的研究團隊提出，其背後關鍵是一個名為LLMLight的框架。

該框架向智能體提供詳細的實時交通狀況，并結合先驗知識構成提示，利用大模型卓越的泛化能力，采用符合人類直覺的推理和決策過程來實現有效的交通控制。

在九個交通流數據集上的實驗證明了LLMLight框架的有效性、泛化能力和可解釋性。

具體來説，在真實數據集上，LLMLight在所有基準測試中始終達到了SOTA或與經典強化學習等方法同等的性能水平，并且擁有比後者更為強大的泛化性。

同時，LLMLight還能在決策時提供背後的分析邏輯，這一可解釋性實現了信号燈控制的透明化。

TSC垂類大模型LightGPT在此任務上的決策能力顯著優于GPT-4。

即便在濟南、杭州、紐約等復雜路網下，也展示出突出性能。

目前，LLMLight框架、交通信号燈控制垂類大模型LightGPT已開源。

LLM應用于TSC有何挑戰？

交通信号控制（TSC）是城市交通管理的重要組成部分，旨在優化道路網絡效率并減少擁堵。

現有的TSC研究主要分為兩類：基于交通工程和強化學習的方法。

其中，交通工程方法主要側重于制定有效的啓發式算法，根據車道級交通狀況屬性，動态調整交通信号燈配置。然而，這些方法的設計嚴重依賴人力及專業領網域知識。

之後，多數研究便基于深度強化學習技術來應對這一任務，并在各種交通場景中都表現出了卓越的性能。

然而，基于強化學習的方法也存在明顯缺點。首先，由于他們的訓練數據僅涵蓋有限的交通情況，致使其表現出局限的泛化能力，特别是在轉移到更大規模的交通網絡或在不常見的路況下（例如，極端高流量的情況）。

此外，由于深度神經網絡（DNN）的黑盒特性，基于深度強化學習的方法缺乏可解釋性，這使得研究人員很難理解其在某交通狀況下控制行為的背後邏輯。

而當今，大語言模型憑借其卓越的零樣本學習和泛化能力，它以模仿近似人類的推理過程來解決復雜任務，徹底改變了多個領網域。

例如在交通控制任務上，PromptGAT使用LLM生成人類知識，以此來幫助DNN模型理解TSC任務中的長尾場景（例如極端天氣），旨在彌合現實世界與模拟之間的差距。

不過，雖然現有的研究已經開始探索利用LLM作為輔助工具來增強決策，但直接利用LLM作為TSC智能體進行類人決策的潛力還尚未探尋。

具體而言，其有兩個重要挑戰。

第一個挑戰在于如何使LLM能夠理解實時交通動态并與交通環境做有效互動。

LLM通常在大規模自然語言語料庫上進行預訓練，但很少包含非文本的流量數據（例如傳感器讀數和GPS軌迹）。盡管它們具有跨多種任務和領網域的泛化能力，但實時交通數據和自然語言之間存在固有差距。

如何為信号燈控制任務選擇和開發專有垂類LLM，則是另一個重大挑戰。

首先，通才大模型往往缺乏特定領網域的知識，容易出現專業領網域的幻覺問題。盡管GPT-4等最先進的LLM表現出了優異的泛化能力，但它們的閉源性質和高昂成本并不利于投入到實時TSC任務及其後續優化中。

因此，訓練專門為TSC任務量身定制的LLM成為了當下更優的選擇。

如何将LLM應用于TSC？

為了應對上述挑戰，研究人員提出了LLMLight框架，其旨在整合大語言模型作為智能體，實現交通信号燈控制。

首先該研究将TSC視為部分可觀察的馬爾可夫博弈（Partially Observable Markov Game），其中每個LLM智能體管理一個十字路口的交通燈。

在每個信号切換時間步上，智能體都會收集目标路口的交通狀況，并将其轉換為人類可讀的文本作為實時觀察。

此外，該研究還結合了信息量豐富的任務描述及一條與控制策略有關的常識知識，以幫助LLM理解交通管理任務。交通路口的實時狀态、任務描述與控制動作空間結合，形成了指導智能體決策的知識提示。

最後，LLM控制智能體利用思想鏈 (CoT) 推理來确定下一個時間片的最佳交通信号燈配置。

并且該研究還構建了一個交通信号燈控制垂類大模型LightGPT來增強LLMLight框架。一方面，提出了模仿學習微調（Imitation Fine-tuning），讓學生LLM學習GPT-4產生的高質量決策和推理軌迹。

另一方面，引入了一個由評論家模型指導的策略優化（Critic-gudied Policy Refinement）過程，使其評估和改進LLM智能體的控制。

優化後的LightGPT可以產生比GPT-4更具成本效益且更有效的控制策略，并在不同流量場景中展現出卓越的泛化能力。

一起來看具體實現方法。

LLMLight框架的構建

LLMLight的工作流包括：

交通狀态觀測特征構建：收集交通路口的交通狀态觀測；

常識知識增強的智能體提示構建：組成一則整合了常識知識的提示，用于指導LLM推理出下一時間片最優的交通信号燈配置；

智能體的分析推理及決策：LLM使用構建的提示進行分析推理決策過程，随後做出決策。其流程如下圖所示：

研究人員将交通信号控制定義為一個部分可觀察的馬爾可夫博弈。基于交叉口實時交通狀況的觀察

、交通場景描述

、任務描述

、常識知識

以及信号燈控制動作空間

，以LLM智能體的策略控制目标交通路口的信号燈

。

LLM的輸出為分析推理軌迹

與調節路口信号燈的控制動作

。其目标為優化長期内交通路口的通行效率。其可形式地表示為：

具體來説，對于交通狀态觀測特征構建，研究人員收集了兩種在現實場景中可以簡單獲取到的觀測特征：不同車道上排隊車的數量；同車道上，還未到達路口車的數量。

常識知識增強的智能體提示構建方面，除觀測特征外，研究人員還向LLM提供了在處理交通信号控制任務中其他必不可少的信息，包括交通場景描述

、任務描述

和控制動作空間

。

這使得LLM能夠全面了解任務，從而做出合理的控制決策。

此外，該研究還整合了常識知識

，以緩解通用型LLM在交通控制領網域知識上的局限性。

這些知識規定了智能體需要優先考慮排隊長度較長的車道，而減弱對距離路口較遠車輛的注意力。形式化地，該研究将智能體提示表示為：

提示符模板的簡要示意如下圖所示：

在智能體的分析推理及決策方面，該研究利用上述提示LLM進行零樣本（Zero-Shot）推理。

其決策過程包含兩個關鍵步驟：分析推理及決策。

首先，LLM會對所給任務及常識知識進行理解，并評估各車道的當前交通狀況。

随後，LLM選擇合适的信号燈配置，以允許擁堵最嚴重的車道通行，從而優化交通流量，确保車輛的順暢通過。

通過這種方式，LLMLight不僅可以制定有效的控制策略，還可以為每個決策提供其背後推理邏輯。這會極大有助于建立更具解釋性和透明性的交通控制系統。

形式化地，研究人員将推理和執行行動表示為

，LLM主幹的決策過程示例如下圖所示：

LightGPT模型訓練

此外，該研究還提出了一種訓練方法，以專門優化用于交通信号燈控制的LLM——LightGPT。

它主要包括三個階段：

推理軌迹的收集和篩選：首先，該研究收集GPT-4的思維鏈推理軌迹進行模仿學習微調，之後篩選出與長期優化目标最相符的軌迹以确保數據質量；

模仿學習微調：利用GPT-4的決策及其推理軌迹對學生LLM進行訓練；

評論家模型指導的策略優化：依據評論家模型的反饋進行微調，進一步改善LLM的決策過程。

下圖展示了其訓練流程：

推理軌迹的收集和篩選

利用上述方法構建的提示，該研究首先讓GPT-4與模拟交通環境進行互動，并收集其推理軌迹。

為了确保所收集數據的質量，研究人員篩選出與交通信号燈控制的長期目标最相符軌迹（如最小化未來的排隊長度）。這種篩選操作通過與一個預訓練的動作-價值網絡（Action-Value Network）的對齊來實現。

該研究通過在模拟環境中優化貝爾曼方程（Bellman Equation）來訓練此網絡：

其中

和

是在信号燈切換時間步

時觀察和控制動作，

是獎勵折扣因子。

是獎勵函數，其提供了在觀察

下執行動作

的反饋（如隊列長度的負值）。

是動作-價值函數，用于估計執行

後獲得的未來累積獎勵。

随後，訓練好的動作-價值函數被用作評論家模型來評估GPT-4的決策。研究人員僅保留選擇可得到最高未來獎勵控制動作的推理軌迹，形式化地：

其中

是模拟持續時間，

是智能體提示，

是GPT-4的推理軌迹。

模仿學習微調

這一階段，首先研究人員采用了一種模仿學習過程，令學生LLM基于GPT-4的決策及其推理軌迹進行訓練。

研究人員将提

視為微調指令，将包含GPT-4選擇的控制動作

的推理軌迹

作為期望得到的回答，并以負對數似然（NLL）作為損失函數：

其中

為在提示為

的情況下生成字元

的概率。

評論家模型指導的策略優化

為進一步提高LLM控制策略的有效性，研究人員提出了一種策略優化方法，通過調整LLM的推理軌迹以得出更合理的控制決策。

類似的，該研究繼續使用上述預訓練的動作-價值函數作為評論家模型，以評估由LLM選擇的控制動作。随後，利用一種對齊微調算法來調整推理軌迹，最終引導LLM采取產生更高未來獎勵的決策。

具體而言，有

個在提示

下由策略

采樣的推理軌迹

評論家模型給出每個軌迹

推導出的控制動作的分數

接着，

的字元平均對數似然值表示由

生成

的概率：

該研究采用帶有邊界約束項（RBC）的排名反饋損失進行優化，以指導LLM得出產生得分更高控制動作的推理軌迹：

其中

是比

評分更高的且最低的推理軌迹的概率，β是超參數。

是用于提升產生得分更高控制動作的軌迹的對齊項。

是用于防止性能下降的約束項。

該方法效果如何？

實驗階段，該研究使用了五個真實世界流量數據集，其中包括了來自濟南和杭州的數據。

此外，還利用了兩個在紐約更大的路網下采集的數據，以測試不同方法的在大型路網下的可擴展性。

為了測試在長尾情況下的泛化性，研究人員還合成了兩個額外的數據集，模拟了極端擁堵的路況。

該研究使用了平均旅行時間（ATT），路口平均隊列長度（AQL），以及路口平均等待時間（AWT）作為評價指标。

以下是具體的實驗結果。

總體性能比較

實驗結果表明，配備了LightGPT的LLMLight在所有基準測試中始終達到了SOTA或與經典方法同等的性能水平。

盡管Advanced-CoLight（當前最先進的強化學習方法）在杭州數據集上表現優于LLMLight（LightGPT），但它的決策需要依賴與鄰近路口之間的通信。

值得一提的是，LLMLight（LightGPT）僅利用當前路口的觀測特征就展現出強有競争的結果，表明了其決策顯著的有效性。

對于由通用型大模型驅動的LLMLight，研究人員觀察到GPT-4表現最為出色，并展示出與最先進強化學習方法相當的效果。

同時Llama2-70B和13B分别獲得第二和第三名，這表明LLM在交通信号控制任務中也遵循了規模化定律（scaling law）。

令人驚訝的是，ChatGPT-3.5的表現最不理想。

泛化性的比較

該研究首先測試了不同方法的可遷移性。标有"-T"的模型是在不同的道路網絡上預訓練得到的（例如，使用在濟南預訓練的模型在杭州數據集上評估可遷移性）。反之則在相同的數據集上進行訓練和測試。

該研究觀察到強化學習方法在遷移後性能明顯下降，尤其在濟南1和杭州1數據集中表現尤為明顯。相反，LLMLight（LightGPT）始終表現出優越的性能，并在所有數據集上展現出優異的可遷移性。

之後該研究分析了不同方法的可擴展性，測試它們在應用于規模更大的路網時的性能。

可以觀察到，大多數強化學習方法發生了顯著性能下降，甚至表現出比啓發式方法Maxpressure更差的性能。雖然最先進的強化學習方法在平均旅行時間（ATT）上與LLMLight（LightGPT）相當，但值得注意的是，它們的決策會導致最高延長57.80%的等待時間（AWT）。

這一結果表明，強化學習方法側重于優化排隊車輛的總數，但可能會以犧牲少部分隊列的等待時間為代價。

在實際場景中，等待時間的重要性不容忽視。相比之下，LLMLight可以同時确保最短的旅行時間和等待時間，體現了其拓展到規模更大的路網時的優良的可擴展性和适用性。

最後該研究為了探讨了在極端擁堵情況下不同模型的性能，在濟南和杭州的路網上生成了兩個合成交通流數據集，其流量相比原始數據集增加了約四倍。

與可擴展性實驗類似，強化學習方法也表現出顯著的性能下降，表現出比Maxpressure更差的結果。

相比之下，LLMLight（LightGPT）始終表現出卓越的性能，體現了其在更加繁重的交通條件下的穩健性和實用性。

可解釋性分析

為了評估LLMLight的可解釋性，研究人員在杭州數據集上進行了一個案例模拟。

在這個模拟場景中，北部路段出現了嚴重擁堵，表現為排隊的車輛出現積壓。

下圖詳細展示了LightGPT在此路況下的推理分析過程。

它以理解任務開始，并分析目标交叉口的交通情況以進行決策推理。随後，它明确信号燈NLSL為最優的選擇。

與強化學習方法不同，LLMLight不僅在制定有效的控制策略方面表現出色，而且還能為每個決策提供其背後的詳細解釋。這一獨特特征增強了LLMLight的透明度和可解釋性，有助于研究人員更全面地理解其決策行為。

最後，研究人員表示，LLMLight的下一步研究将着眼于融合多模态信息及群體協同。

多模态大模型可以直接從端到端地提取路口的交通擁堵信息，使模型能夠自行探索可用的視覺特征，進而自我優化出更優的決策。

而群體協同則能夠實現臨近路口、車輛和智能體之間的信息交換，從而獲得全局信息，最終達到優化整體路網的交通效率的目的。

論文鏈接：https://arxiv.org/abs/2312.16044

代碼鏈接：https://github.com/usail-hkust/LLMTSCS

主頁鏈接：https://gungnir2099.github.io/LLMLight-Page/

模型權重鏈接：https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT