/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
騰訊的大數據計算機平台,超高性能的分布,騰訊angel平台電腦版利用騰訊大數據部門發布Java和Scala語言開發的分布式機器學習框架.反複優選的調用,騰訊angel平台電腦版提供給你優勢的模型和函數運算,讓你輕鬆掌握高效率的計算機學習方法,利用編程來有效的提升!
Angel 是一個基於參數服務器(Parameter Server)理念開發的高性能分布式機器學習平台,它基於騰訊內部的海量數據進行了反複的調優,並具有廣泛的適用性和穩定性,模型維度越高,優勢越明顯。Angel 由騰訊和北京大學聯合開發,兼顧了工業界的高可用性和學術界的創新性。
Angel 的核心設計理念圍繞模型。它將高維度的大模型合理切分到多個參數服務器節點,並通過高效的模型更新接口和運算函數,以及靈活的同步協議,輕鬆實現各種高效的機器學習算法。
Angel 基於 Java 和 Scala 開發,能在社區的 Yarn 上直接調度運行,並基於 PS Service,支持 Spark on Angel,未來將會支持圖計算和深度學習框架集成。
PS Service
隻啟動 PSServer 和 PSAngent,為其他分布式計算平台提供 PS 服務
基於 PS-Service,不需要修改 Spark 核心代碼,直接開發 Spark-on-Angel 算法,該模式無縫支持 Breeze 數值運算庫
算法庫
集成 Logistic Regression,SVM,KMeans,LDA,MF,GBDT 等機器學習算法
多種優化方法,包括 ADMM,OWLQN,LBFGS 和 GD
支持多種損失函數、評估指標,包含 L1、L2 正則項
算法優化
LDA 采用了 F+LDA 算法用於加速采樣的速度,同時利用流式參數獲取的方法減少網絡參數獲取的延遲
GBDT 使用兩階段樹分裂算法,將部分計算轉移到 PS,減少網絡傳輸,提升速度
ParameterServer
基於 Matrix/Vector 的模型自動切分和管理,兼顧稀疏和稠密兩種格式
支持對 Model 進行 Push 和 Pull 操作,可以自定義複雜的 psFunc
提供多種同步控製機製(BSP/SSP/ASP)
開發運行
數據切分: 自動切分讀取訓練數據,默認兼容了 Hadoop FS 接口
增量訓練:訓練過程中會自動 Checkpoint,而且支持加載模型後,增量訓練
語言支持:係統基於 Scala 和 Java 開發,用戶也可以自由選擇
部署方便:可以直接在 Yarn 社區版本中運行,也支持本地調試模式