そこで RDTSC命令を使ったライブラリを書いてみた 。
単精度のFOR文でAVXの8並列とSSEの4並列を比較してみたが、AVXの方がSSEより遅い結果が出てしまった。
そこで計算する順番を入れ替えると倍以上も速度がAVXが早いという当然の結果が出た。
どうやら 256個のデータで比較したせいか 命令キャッシュに2回目の呼び出しが収まるせいで2回目の処理時間が短くなるようだ
【このカテゴリーの最新記事】
- no image
- no image
- no image
- no image