2022-05-16 17:33:23 來源:
近日,一家頭部通信企業使用國產深度學習框架OneFlow在短短一周內就完成了超大規模圖像識別的應用落地,為業界展示了一種全新的解決方案,極大地降低了大規模圖像識別在工業場景中的落地難度。
項目痛點一:上億級別圖像庫待訓練
該企業作為通信行業內的龍頭企業,服務范圍非常廣泛且用戶眾多,導致其待訓練的數據庫圖像量級達到上億級別。曾經,該企業用開源深度學習框架PyTorch進行訓練,但需要對源代碼進行大范圍的“魔改”才能滿足訓練的性能需求,對于企業的人才技術實力有很高的挑戰。
項目痛點二:400多張GPU要應用,短期還無法擴容
為了訓練上億規模的數據庫,該企業配備了400多張GPU以增強算力,但一段時間后該企業發現只是單純增加GPU的數量并不能保證算力的線性增長,因為顯卡間的傳輸效率會限制算力,形成“內存墻”問題。另外,從成本角度考慮,GPU高昂的價格也無法讓該企業短期內擴容來提升算力。
項目痛點三:數據量大、硬件受限,還要短期內上線
由于從易用性角度選用了PyTorch,卻在大規模訓練和部署時問題重重,該企業的工程師們一直在嘗試各種解決方案,項目進度嚴重落后于規劃。為了彌補前面耽誤的時間,該企業迫切需要一個可執行、易上手、周期短的全新方案,以免給業務造成損失。
在綜合評估了市面上所有的深度學習框架后,該企業選擇了新一代國產深度學習框架OneFlow。OneFlow是北京一流科技研發的、具有完全自主知識產權的產品,以“效率為王、易學易用”為產品特色,尤其是在多GPU的分布式環境下表現更是出色。在2020年5月由中國信通院發布的《首輪開源深度學習軟件框架測試報告》中,OneFlow就已在同樣的算法和硬件條件下,從吞吐率和加速比兩個維度領先國外產品。針對本次的難題,OneFlow給出了如下解決方案:
兼容:一鍵切換PyTorch到OneFlow
OneFlow 最新發布的 0.7.0 版本對 PyTorch 接口的兼容性有了進一步的完善,對已經支持的算子都能保證和 PyTorch 的接口在語義和結果上一致。該企業僅用一行代碼就完成了模型代碼的遷移工作,精度對齊也非常方便,為后續工作節省了大量的時間的同時,還為工程師們節省了學習成本。
加速:并行策略助力加速效果提升25倍
OneFlow從誕生之初就將“提升分布式大模型效率”設為目標,模型越大、GPU數量越多,OneFlow的自身優勢就越突出。本次上億的參數量級與400多塊GPU的基礎設定在OneFlow“全局視角”的特色加持下,通過動態轉靜態、算法邏輯約減、提高并行度、靜態編譯優化四大技術,讓該企業在每個性能優化點上均可加速至少125%,最終實現了較傳統方案25倍的加速效果提升。
輕松部署:接口開箱即用,部署大模型簡單易學
“行百里者半九十”,模型訓練好了,但如果無法完整部署,與現有業務系統有機融合,也就無法發揮其真正價值。所以,輕松部署也是深度學習框架需要優化的維度,分布式環境下的超大模型部署更是個復雜的問題。好在OneFlow 內置的 XRT 模塊,并提供了開箱即用的用戶接口,讓該企業在部署訓練好的模型時,僅通過簡單調試就可以完成與業務系統的對接,無需深度修改。
最終,在OneFlow一系列高效易用的技術手段“加持”下,該企業僅用一周時間就完成了從訓練到部署上線的全過程,追回項目進度的同時,并未增加工程師們的工時,真正做到了人工智能應該帶給企業的“降本增效”。該企業AI負責人表示,未來在面臨“大模型、大數據、分布式”的場景時,還會優先選擇OneFlow作為底層支持。
免責聲明:本網站(http://www.instituteofdigitalmarketingusa.com/)內容主要來自原創、合作媒體供稿和第三方投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
本網站刊載的所有內容(包括但不僅限文字、圖片、LOGO、音頻、視頻、軟件、程序等)版權歸原作者所有。任何單位或個人認為本網站中的內容可能涉嫌侵犯其知識產權或存在不實內容時,請及時通知本站,予以刪除。