mapreduce
は、同等のfor
ループよりもはるかに遅くなる可能性があります。 小さな(実際の)例:
function dsum(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="9">@inbounds</strong> for j in 1:n
B[j] = mapreduce(k -> A[j,k]*A[k,j], +, z, 1:j)
end
B
end
function dfor(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="10">@inbounds</strong> for j in 1:n
d = z
for k in 1:j
d += A[j,k]*A[k,j]
end
B[j] = d
end
B
end
A = randn(127,127)
time(median(<strong i="11">@benchmark</strong> dsum(A)))/time(median(<strong i="12">@benchmark</strong> dfor(A)))
Julia 0.5、juliabox.comで約x50のパフォーマンス比が得られます。 これは、 for
ループが自動的にsimd
になる可能性があり、mapreduceがそうではないためだと思いますか? A = randn(N,N)
とN
が16
の場合、ギャップは約x75であり、 N = 10000
の場合、ギャップは約x25です。 アレイアクセスA[j,k]
をA[rand(1:size(A,1)),rand(1:size(A,2))]
に置き換えると、両方のパフォーマンスが低下しますが、比率はx1になります。
simd
がx50速い理由ですか?mapreduce
はsum
$の根底にあるため、これは現在言及されていない人気のある罠である可能性があります( mapreduce
とfor
のベンチマーク-配列アクセスのないループでも、x2のパフォーマンスギャップが見られます。たとえば、 mapreduce(identity, +, 0, i for i in 1:n)
と同等の整数の合計for
ループ。このギャップは以前は小さかったようです?CIの別のベンチマークの価値はありますか?)
https://github.com/JuliaLang/julia/issues/15276の重複のように見えます。
行うこと:
function dsum(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="8">@inbounds</strong> for j::Int in 1:n
B[j] = _help(A, j, z)
end
B
end
_help(A, j, z) = mapreduce(k -> A[j,k]*A[k,j], +, z, 1:j)
与える
julia> time(median(<strong i="12">@benchmark</strong> dsum(A)))/time(median(<strong i="13">@benchmark</strong> dfor(A)))
1.0013213312412255
@code_warntype
とCore.Box
を探すことで、問題を確認できます。
これのベンチマークをBaseBenchmarksに配置するための+1。 そこにPRは素晴らしいでしょう。
#15276の重複として終了します。
最も参考になるコメント
これのベンチマークをBaseBenchmarksに配置するための+1。 そこにPRは素晴らしいでしょう。