mapreduce
可能比等效的for
-loop 慢得多。 一个小(现实生活)示例:
function dsum(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="9">@inbounds</strong> for j in 1:n
B[j] = mapreduce(k -> A[j,k]*A[k,j], +, z, 1:j)
end
B
end
function dfor(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="10">@inbounds</strong> for j in 1:n
d = z
for k in 1:j
d += A[j,k]*A[k,j]
end
B[j] = d
end
B
end
A = randn(127,127)
time(median(<strong i="11">@benchmark</strong> dsum(A)))/time(median(<strong i="12">@benchmark</strong> dfor(A)))
在 Julia 0.5, juliabox.com 上给我一个大约 x50 的性能比。 我认为这可能是因为for
-loop 可以自动simd
,而 mapreduce 不是? 当A = randn(N,N)
和N
为16
时,差距约为 x75,而对于N = 10000
,差距约为 x25。 将数组访问A[j,k]
替换A[rand(1:size(A,1)),rand(1:size(A,2))]
会破坏两者的性能,但比率变为 x1。
simd
是 x50 更快的原因吗?mapreduce
是sum
的基础,因此这可能是一个当前未提及的流行陷阱(在没有数组访问的情况下对 $ mapreduce
与for
循环进行基准测试,我仍然看到 x2 的性能差距。例如mapreduce(identity, +, 0, i for i in 1:n)
与等效的整数求和for
循环。看起来这个差距过去更小了?值得在 CI 中进行另一个基准测试吗?)
看起来像https://github.com/JuliaLang/julia/issues/15276 的副本。
正在做:
function dsum(A::Matrix)
z = zero(A[1,1])
n = Base.LinAlg.checksquare(A)
B = Vector{typeof(z)}(n)
<strong i="8">@inbounds</strong> for j::Int in 1:n
B[j] = _help(A, j, z)
end
B
end
_help(A, j, z) = mapreduce(k -> A[j,k]*A[k,j], +, z, 1:j)
给
julia> time(median(<strong i="12">@benchmark</strong> dsum(A)))/time(median(<strong i="13">@benchmark</strong> dfor(A)))
1.0013213312412255
您可以通过@code_warntype
看到问题并寻找Core.Box
。
+1 用于将此基准放在 BaseBenchmarks 中; 一个公关会很棒。
关闭为#15276 的副本。
最有用的评论
+1 用于将此基准放在 BaseBenchmarks 中; 一个公关会很棒。