近日,信息學院(人工智能學院)青年教師劉寧在人工智能科學問題解答多模態推理領域取得重要進展。研究成果以“T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering”為題,發表在人工智能頂級會議AAAI-2024(CCF A類會議)上。
近年來,隨著人工智能的快速發展,大語言模型(LLMs)在自然語言處理任務中表現出卓越的推理能力,尤其是鏈式推理(CoT)技術。然而,在科學問題解答領域,現有研究大多依賴人工標注的推理過程,這不僅耗費大量時間和資源,還可能因標注者知識有限而遺漏關鍵信息。為此,團隊提出了一種創新框架——T-SciQ,旨在利用大語言模型生成的教學信號來提升小型多模態模型的推理能力,從而高效解決復雜的科學問題。
T-SciQ框架通過零樣本推理技術,自動生成鏈式推理(CoT)和基于計劃的鏈式推理(PCoT),解決了人工標注耗時費力且信息不完整的問題。針對問題的不同復雜程度,靈活選擇最優的教學信號(CoT或PCoT),形成綜合的教學數據集,從而提升模型對簡單問題和復雜問題的適應能力。在ScienceQA這一權威科學問題解答基準上,T-SciQ模型以96.18%的準確率刷新現有最優成績,相較于當前最強的多模態模型提升了4.5%,并超越了人類表現(88.4%)。

圖1: T-SciQ的關鍵步驟:(i)生成教學數據;(ii)混合教學數據;(iii)微調。
如圖1所示,T-SciQ以生成教學數據、混合教學數據及微調的方式,通過混合生成的教學信號,既能利用CoT信號擴展模型的開放知識獲取能力,又能通過PCoT信號實現復雜問題的分解與推理,顯著提高模型在多模態復雜任務中的表現。同時,與傳統依賴人工標注的方法相比,T-SciQ顯著降低了對人工資源的依賴,為多模態科學問題解答的研究提供了全新思路。研究團隊還通過消融實驗和案例分析,驗證了T-SciQ信號在模型訓練中提供更強指導作用的有效性。
上述論文第一完成單位及通訊作者單位為北京林業大學,由北京林業大學、新加坡管理大學、電子科技大學的多方研究人員合作完成。通訊作者為劉寧。
團隊已將相關代碼開源,供學術界和工業界進一步探索(開源鏈接:https://github.com/T-SciQ/T-SciQ)。