sched/cputime: Fix steal time accounting vs. CPU hotplug
authorThomas Gleixner <>
Fri, 4 Mar 2016 14:59:42 +0000 (15:59 +0100)
committerBen Hutchings <>
Sat, 30 Apr 2016 22:05:16 +0000 (00:05 +0200)
commit e9532e69b8d1d1284e8ecf8d2586de34aec61244 upstream.

On CPU hotplug the steal time accounting can keep a stale rq->prev_steal_time
value over CPU down and up. So after the CPU comes up again the delta
calculation in steal_account_process_tick() wreckages itself due to the
unsigned math:

 u64 steal = paravirt_steal_clock(smp_processor_id());

 steal -= this_rq()->prev_steal_time;

So if steal is smaller than rq->prev_steal_time we end up with an insane large
value which then gets added to rq->prev_steal_time, resulting in a permanent
wreckage of the accounting. As a consequence the per CPU stats in /proc/stat
become stale.

Nice trick to tell the world how idle the system is (100%) while the CPU is
100% busy running tasks. Though we prefer realistic numbers.

None of the accounting values which use a previous value to account for
fractions is reset at CPU hotplug time. update_rq_clock_task() has a sanity
check for prev_irq_time and prev_steal_time_rq, but that sanity check solely
deals with clock warps and limits the /proc/stat visible wreckage. The
prev_time values are still wrong.

Solution is simple: Reset rq->prev_*_time when the CPU is plugged in again.

Signed-off-by: Thomas Gleixner <>
Acked-by: Rik van Riel <>
Cc: Frederic Weisbecker <>
Cc: Glauber Costa <>
Cc: Linus Torvalds <>
Cc: Peter Zijlstra <>
Fixes: commit 095c0aa83e52 "sched: adjust scheduler cpu power for stolen time"
Fixes: commit aa483808516c "sched: Remove irq time from available CPU power"
Fixes: commit e6e6685accfa "KVM guest: Steal time accounting"
Signed-off-by: Ingo Molnar <>
[bwh: Backported to 3.2: adjust filenames]
Signed-off-by: Ben Hutchings <>

index a7a40b5..33ac1e3 100644 (file)
@@ -2084,6 +2084,19 @@ EXPORT_SYMBOL_GPL(account_system_vtime);
+static inline void account_reset_rq(struct rq *rq)
+       rq->prev_irq_time = 0;
+       rq->prev_steal_time = 0;
+       rq->prev_steal_time_rq = 0;
 static inline u64 steal_ticks(u64 steal)
@@ -6851,6 +6864,7 @@ migration_call(struct notifier_block *nfb, unsigned long action, void *hcpu)
        case CPU_UP_PREPARE:
                rq->calc_load_update = calc_load_update;
+               account_reset_rq(rq);
        case CPU_ONLINE: