今天把一直想做的事完成了
也就是GPU對轉檔效能影響到底如何?
想當然而採用的是好用且有用的A’s Video converter
GPU 可介入的運算有三部分,影片解碼,放大縮小,影片編碼
針對這三部分分別做了
純CPU(無GPU介入運算) ,純GPU(三部分都有GPU介入運算)
以及靠CPU縮小(其他GPU有介入運算) 靠CPU編碼(其他GPU有介入運算)
註1:A’s Video Converter 無法正確偵測E-350 GPU Load,所以附上GPUZ
註2:這邊的純指的是GPU加入運算的程度
整理成表格是這樣
|
CPU |
GPU |
FPS |
CPU |
100% |
0% |
17 |
GPU |
60% |
29% |
20 |
CPU encode |
66% |
13% |
21 |
CPU scale |
63% |
15% |
18 |
簡單的歸納:
GPU在解碼、放大縮小、編碼都有加速到(但幅度不明顯)
GPU甚至在縮小部分只有減輕CPU負擔,編碼FPS只高純CPU 1 frame
可以注意到除了純CPU之外,GPU(13~29%) CPU(60~66%)都不是高負載狀態
也就是說CPU GPU 存在著一個瓶頸
讓這兩個處理單元需要互相等來等去(沒有充分運算到運算效能)
同場加映 與E-350接近的平台
CPU:K8 X2 3800+(2G);GPU:Radeon HD 4670
(雖然說接近但GPU CPU效能都比E-350 稍微高一些)
測試還是一樣分成四個,純CPU、純GPU、靠CPU縮小、靠CPU編碼
整理成表格是這樣
|
CPU |
GPU |
FPS |
CPU |
100% |
0% |
18 |
GPU |
67% |
20% |
30 |
CPU encode |
75% |
11% |
29 |
CPU scale |
99% |
27% |
34 |
這兩個平台就CPU部分效能來說,同時脈K8跟E-350 相近
(註3:E-350比K10慢10%,K8比K10慢5~15%)
加上時脈的影響K8 X2 3800+ 總效能應該比E-350高10%左右
純CPU編碼的FPS也反應出此現象(K8 X2 3800+ 多了1 frame)
但其他三組測試在GPU加入運算後,E-350就明顯比K8平台低落許多
這邊可以注意到K8平台的 CPU scale部分,整個瓶頸是落在CPU效能上
(Radeon HD 4670 雖然比E-350快不少,
但E-350 GPU load 很輕 問題應該不會是在GPU上)
結論:
為什麼這兩個平台納入GPU運算後效能會差這麼多?
不外乎是APU 通用運算上,GPU、CPU可能出現架構及頻寬衝突
註4:
DDR 400MHz 頻寬(400MHz x 64bit ) / 8bit = 3.2GB/s
DDR3 1066MHz 頻寬(1066MHz x 64bit ) / 8bit = 8.5GB/s
(以上測試這兩個平台都是採單通道)
如果APU會有出頭的一天,AMD必須要解決GPU、CPU的衝突
就AMD釋出消息來看有兩個地方確定有問題
問題1.E-350設計的頻寬遠遠超過記憶體所能負荷的頻寬
由Llano看來 雙通道+1866MHz應該差不多符合 APU設計需求
(不過此時記憶體頻寬是E-350的3.5倍,也就是E-350頻寬嚴重不足)
問題2.當進行Fusion Compute時,CPU存取弱勢必須修正
綜合以上兩者適度反應出
E-350平台在GPU加入計算之後CPU就在60%上下的原因
雖然下圖是Llano的不過Zacate (Bobcat) APU架構大部分與Llano 幾乎相同
註5:
E-350 採64bit Win7、K8 採32bit WinXP
這部份32bit、64bit、Win7、WinXP是否有很大的影響 是個未知數
(看雙方純CPU的FPS符合預期只差10%,猜測不會影響太大)
以下為預測AMD未來繼續發展APU會碰到的問題
GCN核心通用運算大幅提昇
(VLIW4、VLIW5 所能處理之通用運算的範圍跟效能都遠遠不及GCN)
另外GCN 圖形運算效能比起VLIW4提昇30~40%
(E-350還只是VLIW5,今年會推出的Trinity 則是VLIW4)
GCN效能增進帶來的頻寬需求絕非雙通道+DDR3 1866MHz就可以解決
甚至雙通道+DDR4也幾乎可以確定不夠使用
雖然AMD號稱GCN記憶體控制器有改善,可以抑制頻寬需求對APU有幫助
—
感想:AMD啊!
你就早點走入三通道 或者把sideport memory復活 還是把記憶體做在APU上吧
這東西沒解決在怎麼畫唬爛,弄漂亮的PPT 也是沒用的
近期迴響