rcu: Need to update rnp->gpnum if preemptable RCU is to be reliable
[pandora-kernel.git] / kernel / rcutree.c
index 4d71d4e..c634a92 100644 (file)
@@ -35,6 +35,7 @@
 #include <linux/rcupdate.h>
 #include <linux/interrupt.h>
 #include <linux/sched.h>
+#include <linux/nmi.h>
 #include <asm/atomic.h>
 #include <linux/bitops.h>
 #include <linux/module.h>
@@ -80,6 +81,25 @@ DEFINE_PER_CPU(struct rcu_data, rcu_sched_data);
 struct rcu_state rcu_bh_state = RCU_STATE_INITIALIZER(rcu_bh_state);
 DEFINE_PER_CPU(struct rcu_data, rcu_bh_data);
 
+extern long rcu_batches_completed_sched(void);
+static struct rcu_node *rcu_get_root(struct rcu_state *rsp);
+static void cpu_quiet_msk(unsigned long mask, struct rcu_state *rsp,
+                         struct rcu_node *rnp, unsigned long flags);
+static void cpu_quiet_msk_finish(struct rcu_state *rsp, unsigned long flags);
+#ifdef CONFIG_HOTPLUG_CPU
+static void __rcu_offline_cpu(int cpu, struct rcu_state *rsp);
+#endif /* #ifdef CONFIG_HOTPLUG_CPU */
+static void __rcu_process_callbacks(struct rcu_state *rsp,
+                                   struct rcu_data *rdp);
+static void __call_rcu(struct rcu_head *head,
+                      void (*func)(struct rcu_head *rcu),
+                      struct rcu_state *rsp);
+static int __rcu_pending(struct rcu_state *rsp, struct rcu_data *rdp);
+static void __cpuinit rcu_init_percpu_data(int cpu, struct rcu_state *rsp,
+                                          int preemptable);
+
+#include "rcutree_plugin.h"
+
 /*
  * Note a quiescent state.  Because we do not need to know
  * how many quiescent states passed, just if there was at least
@@ -87,16 +107,27 @@ DEFINE_PER_CPU(struct rcu_data, rcu_bh_data);
  */
 void rcu_sched_qs(int cpu)
 {
-       struct rcu_data *rdp = &per_cpu(rcu_sched_data, cpu);
+       unsigned long flags;
+       struct rcu_data *rdp;
+
+       local_irq_save(flags);
+       rdp = &per_cpu(rcu_sched_data, cpu);
        rdp->passed_quiesc = 1;
        rdp->passed_quiesc_completed = rdp->completed;
+       rcu_preempt_qs(cpu);
+       local_irq_restore(flags);
 }
 
 void rcu_bh_qs(int cpu)
 {
-       struct rcu_data *rdp = &per_cpu(rcu_bh_data, cpu);
+       unsigned long flags;
+       struct rcu_data *rdp;
+
+       local_irq_save(flags);
+       rdp = &per_cpu(rcu_bh_data, cpu);
        rdp->passed_quiesc = 1;
        rdp->passed_quiesc_completed = rdp->completed;
+       local_irq_restore(flags);
 }
 
 #ifdef CONFIG_NO_HZ
@@ -111,6 +142,7 @@ static int qhimark = 10000; /* If this many pending, ignore blimit. */
 static int qlowmark = 100;     /* Once only this many pending, use blimit. */
 
 static void force_quiescent_state(struct rcu_state *rsp, int relaxed);
+static int rcu_pending(int cpu);
 
 /*
  * Return the number of RCU-sched batches processed thus far for debug & stats.
@@ -121,16 +153,6 @@ long rcu_batches_completed_sched(void)
 }
 EXPORT_SYMBOL_GPL(rcu_batches_completed_sched);
 
-/*
- * Return the number of RCU batches processed thus far for debug & stats.
- * @@@ placeholder, maps to rcu_batches_completed_sched().
- */
-long rcu_batches_completed(void)
-{
-       return rcu_batches_completed_sched();
-}
-EXPORT_SYMBOL_GPL(rcu_batches_completed);
-
 /*
  * Return the number of RCU BH batches processed thus far for debug & stats.
  */
@@ -192,6 +214,10 @@ static int rcu_implicit_offline_qs(struct rcu_data *rdp)
                return 1;
        }
 
+       /* If preemptable RCU, no point in sending reschedule IPI. */
+       if (rdp->preemptable)
+               return 0;
+
        /* The CPU is online, so send it a reschedule IPI. */
        if (rdp->cpu != smp_processor_id())
                smp_send_reschedule(rdp->cpu);
@@ -204,7 +230,6 @@ static int rcu_implicit_offline_qs(struct rcu_data *rdp)
 #endif /* #ifdef CONFIG_SMP */
 
 #ifdef CONFIG_NO_HZ
-static DEFINE_RATELIMIT_STATE(rcu_rs, 10 * HZ, 5);
 
 /**
  * rcu_enter_nohz - inform RCU that current CPU is entering nohz
@@ -224,7 +249,7 @@ void rcu_enter_nohz(void)
        rdtp = &__get_cpu_var(rcu_dynticks);
        rdtp->dynticks++;
        rdtp->dynticks_nesting--;
-       WARN_ON_RATELIMIT(rdtp->dynticks & 0x1, &rcu_rs);
+       WARN_ON_ONCE(rdtp->dynticks & 0x1);
        local_irq_restore(flags);
 }
 
@@ -243,7 +268,7 @@ void rcu_exit_nohz(void)
        rdtp = &__get_cpu_var(rcu_dynticks);
        rdtp->dynticks++;
        rdtp->dynticks_nesting++;
-       WARN_ON_RATELIMIT(!(rdtp->dynticks & 0x1), &rcu_rs);
+       WARN_ON_ONCE(!(rdtp->dynticks & 0x1));
        local_irq_restore(flags);
        smp_mb(); /* CPUs seeing ++ must see later RCU read-side crit sects */
 }
@@ -262,7 +287,7 @@ void rcu_nmi_enter(void)
        if (rdtp->dynticks & 0x1)
                return;
        rdtp->dynticks_nmi++;
-       WARN_ON_RATELIMIT(!(rdtp->dynticks_nmi & 0x1), &rcu_rs);
+       WARN_ON_ONCE(!(rdtp->dynticks_nmi & 0x1));
        smp_mb(); /* CPUs seeing ++ must see later RCU read-side crit sects */
 }
 
@@ -281,7 +306,7 @@ void rcu_nmi_exit(void)
                return;
        smp_mb(); /* CPUs seeing ++ must see prior RCU read-side crit sects */
        rdtp->dynticks_nmi++;
-       WARN_ON_RATELIMIT(rdtp->dynticks_nmi & 0x1, &rcu_rs);
+       WARN_ON_ONCE(rdtp->dynticks_nmi & 0x1);
 }
 
 /**
@@ -297,7 +322,7 @@ void rcu_irq_enter(void)
        if (rdtp->dynticks_nesting++)
                return;
        rdtp->dynticks++;
-       WARN_ON_RATELIMIT(!(rdtp->dynticks & 0x1), &rcu_rs);
+       WARN_ON_ONCE(!(rdtp->dynticks & 0x1));
        smp_mb(); /* CPUs seeing ++ must see later RCU read-side crit sects */
 }
 
@@ -316,7 +341,7 @@ void rcu_irq_exit(void)
                return;
        smp_mb(); /* CPUs seeing ++ must see prior RCU read-side crit sects */
        rdtp->dynticks++;
-       WARN_ON_RATELIMIT(rdtp->dynticks & 0x1, &rcu_rs);
+       WARN_ON_ONCE(rdtp->dynticks & 0x1);
 
        /* If the interrupt queued a callback, get out of dyntick mode. */
        if (__get_cpu_var(rcu_sched_data).nxtlist ||
@@ -472,6 +497,7 @@ static void print_other_cpu_stall(struct rcu_state *rsp)
 
        printk(KERN_ERR "INFO: RCU detected CPU stalls:");
        for (; rnp_cur < rnp_end; rnp_cur++) {
+               rcu_print_task_stall(rnp);
                if (rnp_cur->qsmask == 0)
                        continue;
                for (cpu = 0; cpu <= rnp_cur->grphi - rnp_cur->grplo; cpu++)
@@ -480,6 +506,8 @@ static void print_other_cpu_stall(struct rcu_state *rsp)
        }
        printk(" (detected by %d, t=%ld jiffies)\n",
               smp_processor_id(), (long)(jiffies - rsp->gp_start));
+       trigger_all_cpu_backtrace();
+
        force_quiescent_state(rsp, 0);  /* Kick them all. */
 }
 
@@ -490,12 +518,14 @@ static void print_cpu_stall(struct rcu_state *rsp)
 
        printk(KERN_ERR "INFO: RCU detected CPU %d stall (t=%lu jiffies)\n",
                        smp_processor_id(), jiffies - rsp->gp_start);
-       dump_stack();
+       trigger_all_cpu_backtrace();
+
        spin_lock_irqsave(&rnp->lock, flags);
        if ((long)(jiffies - rsp->jiffies_stall) >= 0)
                rsp->jiffies_stall =
                        jiffies + RCU_SECONDS_TILL_STALL_RECHECK;
        spin_unlock_irqrestore(&rnp->lock, flags);
+
        set_need_resched();  /* kick ourselves to get things going. */
 }
 
@@ -602,6 +632,7 @@ rcu_start_gp(struct rcu_state *rsp, unsigned long flags)
        /* Special-case the common single-level case. */
        if (NUM_RCU_NODES == 1) {
                rnp->qsmask = rnp->qsmaskinit;
+               rnp->gpnum = rsp->gpnum;
                rsp->signaled = RCU_SIGNAL_INIT; /* force_quiescent_state OK. */
                spin_unlock_irqrestore(&rnp->lock, flags);
                return;
@@ -627,8 +658,10 @@ rcu_start_gp(struct rcu_state *rsp, unsigned long flags)
         */
 
        rnp_end = rsp->level[NUM_RCU_LVLS - 1];
-       for (rnp_cur = &rsp->node[0]; rnp_cur < rnp_end; rnp_cur++)
+       for (rnp_cur = &rsp->node[0]; rnp_cur < rnp_end; rnp_cur++) {
                rnp_cur->qsmask = rnp_cur->qsmaskinit;
+               rnp->gpnum = rsp->gpnum;
+       }
 
        /*
         * Now set up the leaf nodes.  Here we must be careful.  First,
@@ -649,6 +682,7 @@ rcu_start_gp(struct rcu_state *rsp, unsigned long flags)
        for (; rnp_cur < rnp_end; rnp_cur++) {
                spin_lock(&rnp_cur->lock);      /* irqs already disabled. */
                rnp_cur->qsmask = rnp_cur->qsmaskinit;
+               rnp->gpnum = rsp->gpnum;
                spin_unlock(&rnp_cur->lock);    /* irqs already disabled. */
        }
 
@@ -684,6 +718,19 @@ rcu_process_gp_end(struct rcu_state *rsp, struct rcu_data *rdp)
        local_irq_restore(flags);
 }
 
+/*
+ * Clean up after the prior grace period and let rcu_start_gp() start up
+ * the next grace period if one is needed.  Note that the caller must
+ * hold rnp->lock, as required by rcu_start_gp(), which will release it.
+ */
+static void cpu_quiet_msk_finish(struct rcu_state *rsp, unsigned long flags)
+       __releases(rnp->lock)
+{
+       rsp->completed = rsp->gpnum;
+       rcu_process_gp_end(rsp, rsp->rda[smp_processor_id()]);
+       rcu_start_gp(rsp, flags);  /* releases root node's rnp->lock. */
+}
+
 /*
  * Similar to cpu_quiet(), for which it is a helper function.  Allows
  * a group of CPUs to be quieted at one go, though all the CPUs in the
@@ -705,7 +752,7 @@ cpu_quiet_msk(unsigned long mask, struct rcu_state *rsp, struct rcu_node *rnp,
                        return;
                }
                rnp->qsmask &= ~mask;
-               if (rnp->qsmask != 0) {
+               if (rnp->qsmask != 0 || rcu_preempted_readers(rnp)) {
 
                        /* Other bits still set at this level, so done. */
                        spin_unlock_irqrestore(&rnp->lock, flags);
@@ -725,14 +772,10 @@ cpu_quiet_msk(unsigned long mask, struct rcu_state *rsp, struct rcu_node *rnp,
 
        /*
         * Get here if we are the last CPU to pass through a quiescent
-        * state for this grace period.  Clean up and let rcu_start_gp()
-        * start up the next grace period if one is needed.  Note that
-        * we still hold rnp->lock, as required by rcu_start_gp(), which
-        * will release it.
+        * state for this grace period.  Invoke cpu_quiet_msk_finish()
+        * to clean up and start the next grace period if one is needed.
         */
-       rsp->completed = rsp->gpnum;
-       rcu_process_gp_end(rsp, rsp->rda[smp_processor_id()]);
-       rcu_start_gp(rsp, flags);  /* releases rnp->lock. */
+       cpu_quiet_msk_finish(rsp, flags); /* releases rnp->lock. */
 }
 
 /*
@@ -839,11 +882,12 @@ static void __rcu_offline_cpu(int cpu, struct rcu_state *rsp)
                spin_lock(&rnp->lock);          /* irqs already disabled. */
                rnp->qsmaskinit &= ~mask;
                if (rnp->qsmaskinit != 0) {
-                       spin_unlock(&rnp->lock); /* irqs already disabled. */
+                       spin_unlock(&rnp->lock); /* irqs remain disabled. */
                        break;
                }
+               rcu_preempt_offline_tasks(rsp, rnp);
                mask = rnp->grpmask;
-               spin_unlock(&rnp->lock);        /* irqs already disabled. */
+               spin_unlock(&rnp->lock);        /* irqs remain disabled. */
                rnp = rnp->parent;
        } while (rnp != NULL);
        lastcomp = rsp->completed;
@@ -889,6 +933,7 @@ static void rcu_offline_cpu(int cpu)
 {
        __rcu_offline_cpu(cpu, &rcu_sched_state);
        __rcu_offline_cpu(cpu, &rcu_bh_state);
+       rcu_preempt_offline_cpu(cpu);
 }
 
 #else /* #ifdef CONFIG_HOTPLUG_CPU */
@@ -974,6 +1019,8 @@ static void rcu_do_batch(struct rcu_data *rdp)
  */
 void rcu_check_callbacks(int cpu, int user)
 {
+       if (!rcu_pending(cpu))
+               return; /* if nothing for RCU to do. */
        if (user ||
            (idle_cpu(cpu) && rcu_scheduler_active &&
             !in_softirq() && hardirq_count() <= (1 << HARDIRQ_SHIFT))) {
@@ -1004,6 +1051,7 @@ void rcu_check_callbacks(int cpu, int user)
 
                rcu_bh_qs(cpu);
        }
+       rcu_preempt_check_callbacks(cpu);
        raise_softirq(RCU_SOFTIRQ);
 }
 
@@ -1185,6 +1233,7 @@ static void rcu_process_callbacks(struct softirq_action *unused)
        __rcu_process_callbacks(&rcu_sched_state,
                                &__get_cpu_var(rcu_sched_data));
        __rcu_process_callbacks(&rcu_bh_state, &__get_cpu_var(rcu_bh_data));
+       rcu_preempt_process_callbacks();
 
        /*
         * Memory references from any later RCU read-side critical sections
@@ -1248,17 +1297,6 @@ void call_rcu_sched(struct rcu_head *head, void (*func)(struct rcu_head *rcu))
 }
 EXPORT_SYMBOL_GPL(call_rcu_sched);
 
-/*
- * @@@ Queue an RCU callback for invocation after a grace period.
- * @@@ Placeholder pending rcutree_plugin.h.
- */
-void call_rcu(struct rcu_head *head, void (*func)(struct rcu_head *rcu))
-{
-       call_rcu_sched(head, func);
-}
-EXPORT_SYMBOL_GPL(call_rcu);
-
-
 /*
  * Queue an RCU for invocation after a quicker grace period.
  */
@@ -1329,10 +1367,11 @@ static int __rcu_pending(struct rcu_state *rsp, struct rcu_data *rdp)
  * by the current CPU, returning 1 if so.  This function is part of the
  * RCU implementation; it is -not- an exported member of the RCU API.
  */
-int rcu_pending(int cpu)
+static int rcu_pending(int cpu)
 {
        return __rcu_pending(&rcu_sched_state, &per_cpu(rcu_sched_data, cpu)) ||
-              __rcu_pending(&rcu_bh_state, &per_cpu(rcu_bh_data, cpu));
+              __rcu_pending(&rcu_bh_state, &per_cpu(rcu_bh_data, cpu)) ||
+              rcu_preempt_pending(cpu);
 }
 
 /*
@@ -1345,7 +1384,8 @@ int rcu_needs_cpu(int cpu)
 {
        /* RCU callbacks either ready or pending? */
        return per_cpu(rcu_sched_data, cpu).nxtlist ||
-              per_cpu(rcu_bh_data, cpu).nxtlist;
+              per_cpu(rcu_bh_data, cpu).nxtlist ||
+              rcu_preempt_needs_cpu(cpu);
 }
 
 /*
@@ -1380,7 +1420,7 @@ rcu_boot_init_percpu_data(int cpu, struct rcu_state *rsp)
  * that this CPU cannot possibly have any RCU callbacks in flight yet.
  */
 static void __cpuinit
-rcu_init_percpu_data(int cpu, struct rcu_state *rsp)
+rcu_init_percpu_data(int cpu, struct rcu_state *rsp, int preemptable)
 {
        unsigned long flags;
        long lastcomp;
@@ -1396,6 +1436,7 @@ rcu_init_percpu_data(int cpu, struct rcu_state *rsp)
        rdp->passed_quiesc = 0;  /* We could be racing with new GP, */
        rdp->qs_pending = 1;     /*  so set up to respond to current GP. */
        rdp->beenonline = 1;     /* We have now been online. */
+       rdp->preemptable = preemptable;
        rdp->passed_quiesc_completed = lastcomp - 1;
        rdp->blimit = blimit;
        spin_unlock(&rnp->lock);                /* irqs remain disabled. */
@@ -1438,12 +1479,13 @@ rcu_init_percpu_data(int cpu, struct rcu_state *rsp)
 
 static void __cpuinit rcu_online_cpu(int cpu)
 {
-       rcu_init_percpu_data(cpu, &rcu_sched_state);
-       rcu_init_percpu_data(cpu, &rcu_bh_state);
+       rcu_init_percpu_data(cpu, &rcu_sched_state, 0);
+       rcu_init_percpu_data(cpu, &rcu_bh_state, 0);
+       rcu_preempt_init_percpu_data(cpu);
 }
 
 /*
- * Handle CPU online/offline notifcation events.
+ * Handle CPU online/offline notification events.
  */
 int __cpuinit rcu_cpu_notify(struct notifier_block *self,
                             unsigned long action, void *hcpu)
@@ -1518,6 +1560,7 @@ static void __init rcu_init_one(struct rcu_state *rsp)
                rnp = rsp->level[i];
                for (j = 0; j < rsp->levelcnt[i]; j++, rnp++) {
                        spin_lock_init(&rnp->lock);
+                       rnp->gpnum = 0;
                        rnp->qsmask = 0;
                        rnp->qsmaskinit = 0;
                        rnp->grplo = j * cpustride;
@@ -1535,16 +1578,20 @@ static void __init rcu_init_one(struct rcu_state *rsp)
                                              j / rsp->levelspread[i - 1];
                        }
                        rnp->level = i;
+                       INIT_LIST_HEAD(&rnp->blocked_tasks[0]);
+                       INIT_LIST_HEAD(&rnp->blocked_tasks[1]);
                }
        }
 }
 
 /*
- * Helper macro for __rcu_init().  To be used nowhere else!
- * Assigns leaf node pointers into each CPU's rcu_data structure.
+ * Helper macro for __rcu_init() and __rcu_init_preempt().  To be used
+ * nowhere else!  Assigns leaf node pointers into each CPU's rcu_data
+ * structure.
  */
-#define RCU_DATA_PTR_INIT(rsp, rcu_data) \
+#define RCU_INIT_FLAVOR(rsp, rcu_data) \
 do { \
+       rcu_init_one(rsp); \
        rnp = (rsp)->level[NUM_RCU_LVLS - 1]; \
        j = 0; \
        for_each_possible_cpu(i) { \
@@ -1552,27 +1599,42 @@ do { \
                        j++; \
                per_cpu(rcu_data, i).mynode = &rnp[j]; \
                (rsp)->rda[i] = &per_cpu(rcu_data, i); \
+               rcu_boot_init_percpu_data(i, rsp); \
        } \
 } while (0)
 
+#ifdef CONFIG_TREE_PREEMPT_RCU
+
+void __init __rcu_init_preempt(void)
+{
+       int i;                  /* All used by RCU_INIT_FLAVOR(). */
+       int j;
+       struct rcu_node *rnp;
+
+       RCU_INIT_FLAVOR(&rcu_preempt_state, rcu_preempt_data);
+}
+
+#else /* #ifdef CONFIG_TREE_PREEMPT_RCU */
+
+void __init __rcu_init_preempt(void)
+{
+}
+
+#endif /* #else #ifdef CONFIG_TREE_PREEMPT_RCU */
+
 void __init __rcu_init(void)
 {
-       int i;                  /* All used by RCU_DATA_PTR_INIT(). */
+       int i;                  /* All used by RCU_INIT_FLAVOR(). */
        int j;
        struct rcu_node *rnp;
 
-       printk(KERN_INFO "Hierarchical RCU implementation.\n");
+       rcu_bootup_announce();
 #ifdef CONFIG_RCU_CPU_STALL_DETECTOR
        printk(KERN_INFO "RCU-based detection of stalled CPUs is enabled.\n");
 #endif /* #ifdef CONFIG_RCU_CPU_STALL_DETECTOR */
-       rcu_init_one(&rcu_sched_state);
-       RCU_DATA_PTR_INIT(&rcu_sched_state, rcu_sched_data);
-       for_each_possible_cpu(i)
-               rcu_boot_init_percpu_data(i, &rcu_sched_state);
-       rcu_init_one(&rcu_bh_state);
-       RCU_DATA_PTR_INIT(&rcu_bh_state, rcu_bh_data);
-       for_each_possible_cpu(i)
-               rcu_boot_init_percpu_data(i, &rcu_bh_state);
+       RCU_INIT_FLAVOR(&rcu_sched_state, rcu_sched_data);
+       RCU_INIT_FLAVOR(&rcu_bh_state, rcu_bh_data);
+       __rcu_init_preempt();
        open_softirq(RCU_SOFTIRQ, rcu_process_callbacks);
 }