快连VPN:速度和安全性最佳的VPN服务
AI21 Lab 推出了一種新的 LLM 架構 Mamba
ai21 lab 推出了一種新的 llm 架構 mamba,同時發佈的還有基於這個架構的模型 jamba。模型將會開源。
Mamba是一款創新的結構化狀態空間(SSM)模型,其設計目的是爲了克服傳統Transformer架構的限制,但它本身也存在一些不足。而Jamba則結合了這兩種技術的優點。Mamba模型採用了一種新穎的結構化狀態空間方法,它通過引入額外的結構信息和語義關係,使得模型可以更好地理解文本的上下文。這種方法對於處理自然語言處理任務,如機器翻譯和文本生成,具有明顯的優勢。Mamba模型通過自動學習和組織
Jamba模型的特點:
- 首個基於創新SSM-Transformer混合架構的生產級Mamba模型
- 與Mixtral 8x7B相比,在長文本上的吞吐量提高了3倍
- 模型支持高達256K的大規模上下文窗口,使更多用戶能夠訪問和使用
- 是其大小類別中唯一一個能在單個GPU上適應高達140K上下文的模型
- 以開放權重在Apache 2.0下發布
- 可在Hugging Face上獲取,並即將登陸NVIDIA API目錄
以上就是AI21 Lab 推出了一種新的 LLM 架構 Mamba的詳細內容,更多請關注本站其它相關文章!