OpenAI Triton 已开始合并 AMD ROCm 代码,9 月 20 日举行开发者大会

2023-09-03     网友
OpenAI声称:Triton只要25行代码,就能在FP16矩阵乘法上达到与cuBLAS相当的性能。从Github我们可以看到,OpenAI已经开始在最新的Triton版本中合并通过官方的说法来看,他们已经通过了“test_core.py”上的大多数单元测试环节,但由于各种原因跳过了一些测试。指股网注意到,OpenAI还宣布将于9月20日上午10点至下午4点在加利福尼亚州山景城的微软硅谷园区举行Triton开发者大会,而日程安排中就包括“将Triton引入AMDGPU”和“Triton的英特尔XPU”两大环节,预计Triton将很快摆脱英伟达CUDA垄断的历史。值得一提的是,Triton是开源的,比起闭源的CUDA,其他硬件加速器能直接集成到Triton中,大大减少了为新硬件建立AI编译器栈的时间。在此前发布的PyTorch2.0版本中,TorchInductor便引入了OpenAITriton支持,可为多个加速器和后端自动生成快速代码,同时实现用Python取代CUDA编程来写底层硬件的代码。也就是说,Triton已经是PyTorch2.0后端编译器关键构成部分。实际上,此前AMDROCm则主要是采用Hipify工具实现CUDA兼容,而随着AMD开始为RDNA3消费级显卡提供ROCm支持,预计后续将会有更多平台选择适配AMD硬件。相关阅读:《《广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,指股网所有文章均包含本声明。
OpenAI Triton 已开始合并 AMD ROCm 代码,9 月 20 日举行开发者大会
548
970
412
分享
收藏

本文仅代表作者本人观点,与金汇网无关。
金汇网对文中陈述、观点判断保持中立,不对所包含内容的准确性、
可靠性或完整性提供任何明示或暗示的保证。投资者据此操作,风险自担。

信息提示

确认要删除这条内容吗?