Jina AI開源第二代文字嵌入模型,整體表現接近OpenAI同級模型德國人工智慧新創Jina AI開源了該公司的第二代文字嵌入模型jina-embeddings-v2,新模型現在可以處理...

贴文 1个月前
1.8K 0

Jina AI開源第二代文字嵌入模型,整體表現接近OpenAI同級模型

德國人工智慧新創Jina AI開源了該公司的第二代文字嵌入模型jina-embeddings-v2,新模型現在可以處理多達8,192個token上下文長度。以大規模文字嵌入基準(Massive Text Embedding Benchmark)評估jina-embeddings-v2的能力,整體來說已非常接近同等級模型OpenAI text-embedding-ada-002的表現。

jina-embeddings-v2是完全由Jina AI開發團隊研發、收集資料集和調校的新模型,能力較前一版本大幅提升,其最重要的進步,便是能夠處理8,192個token上下文長度。可以處理更長的上下文,也就代表模型可以應用的領域更為廣泛,像是可以分析法律文件,更細緻地捕捉法律文件中的細節,或是從財務報表中解析關鍵資訊,進行財務預測,也能夠用於開發對話機器,以應對複雜的用戶查詢。

在大規模文字嵌入基準的排名中,開源的jina-embeddings-v2排名第17,與商用的OpenAI text-embedding-ada-002的15名相去不遠,而且在分類、重新排序、檢索和摘要生成等自然語言處理任務,jina-embeddings-v2的表現已經超越text-embedding-ada-002。

目前用戶可以從Huggingface免費下載jina-embeddings-v2模型,官方釋出兩個模型版本,第一個是針對學術研究或是商業分析等高準確性需求任務設計,大小為0.27 GB的基礎模型,另一個則是適用於輕量級應用程式,能夠整合行動應用程式或是供運算資源資源有限的裝置使用的小型模型,容量只有0.07 GB。

Jina AI持續擴展jina-embeddings-v2模型,正著手開發API平臺,供用戶能夠根據需求簡單擴展使用規模,同時Jina AI也將擴增jina-embeddings-v2的能力,支援更多的語言 网页链接

暂无评论

暂无评论...