摩根大通發表懂圖文的輕量級多模態模型DocLLM日前,摩根大通發JPMorgan表自行研發的多模態輕量級語言模型DocLLM,可用來分析企業文件,如發票、收據、合約、表格...

贴文 2个月前
600 0

摩根大通發表懂圖文的輕量級多模態模型DocLLM

日前,摩根大通發JPMorgan表自行研發的多模態輕量級語言模型DocLLM,可用來分析企業文件,如發票、收據、合約、表格和報告等。進一步來說,DocLLM使用OCR得到的邊界框,來添加空間位置資訊,因此不必使用複雜的視覺編碼器,減少處理時間。這麼做,幾乎不增加模型大小,也保留了因果解碼器的架構。

團隊表示,他們的方法將空間資訊與文字資訊分離,能將典型的Transformer自我注意力機制擴展,來捕捉跨模態的互動資訊。由於文件中常出現碎片化的文字區塊和複雜版型,為解決辨識問題,團隊還在自監督預訓練階段,改變預訓練目標,利用填充方式來適應各種文字排版和區塊,模型也能更有效處理混合型或文字不對齊的文件。經測試,DocLLM在16個資料集中的14個,表現比同類模型要好,如Llama 2加上OCR。目前,摩根大通尚未釋出任何DocLLM程式碼或資料集,僅發表論文 网页链接

暂无评论

暂无评论...