亚洲精品亚洲人成在线观看麻豆,在线欧美视频一区,亚洲国产精品一区二区动图,色综合久久丁香婷婷

              當(dāng)前位置:首頁 > 科技文檔 > 自動化 > 正文

              基于MLIR的FP8量化模擬與推理內(nèi)存優(yōu)化

              計算機科學(xué) 頁數(shù): 9 2024-02-20
              摘要: 隨著目標(biāo)檢測模型和語言大模型的迅速發(fā)展,網(wǎng)絡(luò)模型正變得越來越龐大。為了更好地在端側(cè)硬件上進行模型部署,通常采用模型量化技術(shù)對模型進行壓縮。現(xiàn)有的模型量化策略主要基于FP16,BF16和INT8等類型實現(xiàn)。其中,8bit數(shù)據(jù)類型在降低推理內(nèi)存占用與部署開銷方面最為顯著,但INT8類型依賴特定的校準(zhǔn)算法,未能很好地處理動態(tài)范圍大、離群點多的模型。FP8類型能夠更好地擬合神經(jīng)網(wǎng)絡(luò)中的... (共9頁)

              開通會員,享受整站包年服務(wù)立即開通 >