Merge branch 'linus' into release

[pandora-kernel.git] / mm / memcontrol.c
diff --git a/mm/memcontrol.c b/mm/memcontrol.c

index 3878cfe..e1ee6ad 100644 (file)
--- a/mm/memcontrol.c
+++ b/mm/memcontrol.c
@@ -612,8 +612,10 @@ static void mem_cgroup_charge_statistics(struct mem_cgroup *mem,
         /* pagein of a big page is an event. So, ignore page size */
         if (nr_pages > 0)
                 __this_cpu_inc(mem->stat->count[MEM_CGROUP_STAT_PGPGIN_COUNT]);
-       else
+       else {
                 __this_cpu_inc(mem->stat->count[MEM_CGROUP_STAT_PGPGOUT_COUNT]);
+               nr_pages = -nr_pages; /* for event */
+       }
  
         __this_cpu_add(mem->stat->count[MEM_CGROUP_EVENTS], nr_pages);
  
@@ -827,6 +829,32 @@ void mem_cgroup_del_lru(struct page *page)
         mem_cgroup_del_lru_list(page, page_lru(page));
  }
  
+/*
+ * Writeback is about to end against a page which has been marked for immediate
+ * reclaim.  If it still appears to be reclaimable, move it to the tail of the
+ * inactive list.
+ */
+void mem_cgroup_rotate_reclaimable_page(struct page *page)
+{
+       struct mem_cgroup_per_zone *mz;
+       struct page_cgroup *pc;
+       enum lru_list lru = page_lru(page);
+
+       if (mem_cgroup_disabled())
+               return;
+
+       pc = lookup_page_cgroup(page);
+       /* unused or root page is not rotated. */
+       if (!PageCgroupUsed(pc))
+               return;
+       /* Ensure pc->mem_cgroup is visible after reading PCG_USED. */
+       smp_rmb();
+       if (mem_cgroup_is_root(pc->mem_cgroup))
+               return;
+       mz = page_cgroup_zoneinfo(pc);
+       list_move_tail(&pc->lru, &mz->lists[lru]);
+}
+
  void mem_cgroup_rotate_lru_list(struct page *page, enum lru_list lru)
  {
         struct mem_cgroup_per_zone *mz;
@@ -1111,6 +1139,23 @@ static bool mem_cgroup_check_under_limit(struct mem_cgroup *mem)
         return false;
  }
  
+/**
+ * mem_cgroup_check_margin - check if the memory cgroup allows charging
+ * @mem: memory cgroup to check
+ * @bytes: the number of bytes the caller intends to charge
+ *
+ * Returns a boolean value on whether @mem can be charged @bytes or
+ * whether this would exceed the limit.
+ */
+static bool mem_cgroup_check_margin(struct mem_cgroup *mem, unsigned long bytes)
+{
+       if (!res_counter_check_margin(&mem->res, bytes))
+               return false;
+       if (do_swap_account && !res_counter_check_margin(&mem->memsw, bytes))
+               return false;
+       return true;
+}
+
  static unsigned int get_swappiness(struct mem_cgroup *memcg)
  {
         struct cgroup *cgrp = memcg->css.cgroup;
@@ -1837,23 +1882,34 @@ static int __mem_cgroup_do_charge(struct mem_cgroup *mem, gfp_t gfp_mask,
                 flags |= MEM_CGROUP_RECLAIM_NOSWAP;
         } else
                 mem_over_limit = mem_cgroup_from_res_counter(fail_res, res);
-
-       if (csize > PAGE_SIZE) /* change csize and retry */
+       /*
+        * csize can be either a huge page (HPAGE_SIZE), a batch of
+        * regular pages (CHARGE_SIZE), or a single regular page
+        * (PAGE_SIZE).
+        *
+        * Never reclaim on behalf of optional batching, retry with a
+        * single page instead.
+        */
+       if (csize == CHARGE_SIZE)
                 return CHARGE_RETRY;
  
         if (!(gfp_mask & __GFP_WAIT))
                 return CHARGE_WOULDBLOCK;
  
         ret = mem_cgroup_hierarchical_reclaim(mem_over_limit, NULL,
-                                       gfp_mask, flags);
+                                             gfp_mask, flags);
+       if (mem_cgroup_check_margin(mem_over_limit, csize))
+               return CHARGE_RETRY;
         /*
-        * try_to_free_mem_cgroup_pages() might not give us a full
-        * picture of reclaim. Some pages are reclaimed and might be
-        * moved to swap cache or just unmapped from the cgroup.
-        * Check the limit again to see if the reclaim reduced the
-        * current usage of the cgroup before giving up
+        * Even though the limit is exceeded at this point, reclaim
+        * may have been able to free some pages.  Retry the charge
+        * before killing the task.
+        *
+        * Only for regular pages, though: huge pages are rather
+        * unlikely to succeed so close to the limit, and we fall back
+        * to regular pages anyway in case of failure.
          */
-       if (ret || mem_cgroup_check_under_limit(mem_over_limit))
+       if (csize == PAGE_SIZE && ret)
                 return CHARGE_RETRY;
  
         /*
@@ -2323,13 +2379,19 @@ static int mem_cgroup_charge_common(struct page *page, struct mm_struct *mm,
                                 gfp_t gfp_mask, enum charge_type ctype)
  {
         struct mem_cgroup *mem = NULL;
+       int page_size = PAGE_SIZE;
         struct page_cgroup *pc;
+       bool oom = true;
         int ret;
-       int page_size = PAGE_SIZE;
  
         if (PageTransHuge(page)) {
                 page_size <<= compound_order(page);
                 VM_BUG_ON(!PageTransHuge(page));
+               /*
+                * Never OOM-kill a process for a huge page.  The
+                * fault handler will fall back to regular pages.
+                */
+               oom = false;
         }
  
         pc = lookup_page_cgroup(page);
@@ -2338,7 +2400,7 @@ static int mem_cgroup_charge_common(struct page *page, struct mm_struct *mm,
                 return 0;
         prefetchw(pc);
  
-       ret = __mem_cgroup_try_charge(mm, gfp_mask, &mem, true, page_size);
+       ret = __mem_cgroup_try_charge(mm, gfp_mask, &mem, oom, page_size);
         if (ret || !mem)
                 return ret;
  
@@ -2847,7 +2909,7 @@ static inline int mem_cgroup_move_swap_account(swp_entry_t entry,
   * page belongs to.
   */
  int mem_cgroup_prepare_migration(struct page *page,
-       struct page *newpage, struct mem_cgroup **ptr)
+       struct page *newpage, struct mem_cgroup **ptr, gfp_t gfp_mask)
  {
         struct page_cgroup *pc;
         struct mem_cgroup *mem = NULL;
@@ -2904,7 +2966,7 @@ int mem_cgroup_prepare_migration(struct page *page,
                 return 0;
  
         *ptr = mem;
-       ret = __mem_cgroup_try_charge(NULL, GFP_KERNEL, ptr, false, PAGE_SIZE);
+       ret = __mem_cgroup_try_charge(NULL, gfp_mask, ptr, false, PAGE_SIZE);
         css_put(&mem->css);/* drop extra refcnt */
         if (ret || *ptr == NULL) {
                 if (PageAnon(page)) {
@@ -4701,7 +4763,8 @@ static int mem_cgroup_count_precharge_pte_range(pmd_t *pmd,
         pte_t *pte;
         spinlock_t *ptl;
  
-       VM_BUG_ON(pmd_trans_huge(*pmd));
+       split_huge_page_pmd(walk->mm, pmd);
+
         pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
         for (; addr != end; pte++, addr += PAGE_SIZE)
                 if (is_target_pte_for_mc(vma, addr, *pte, NULL))
@@ -4863,8 +4926,8 @@ static int mem_cgroup_move_charge_pte_range(pmd_t *pmd,
         pte_t *pte;
         spinlock_t *ptl;
  
+       split_huge_page_pmd(walk->mm, pmd);
  retry:
-       VM_BUG_ON(pmd_trans_huge(*pmd));
         pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
         for (; addr != end; addr += PAGE_SIZE) {
                 pte_t ptent = *(pte++);
@@ -5024,9 +5087,9 @@ struct cgroup_subsys mem_cgroup_subsys = {
  static int __init enable_swap_account(char *s)
  {
         /* consider enabled if no parameter or 1 is given */
-       if (!s || !strcmp(s, "1"))
+       if (!(*s) || !strcmp(s, "=1"))
                 really_do_swap_account = 1;
-       else if (!strcmp(s, "0"))
+       else if (!strcmp(s, "=0"))
                 really_do_swap_account = 0;
         return 1;
  }
@@ -5034,7 +5097,8 @@ __setup("swapaccount", enable_swap_account);
  
  static int __init disable_swap_account(char *s)
  {
-       enable_swap_account("0");
+       printk_once("noswapaccount is deprecated and will be removed in 2.6.40. Use swapaccount=0 instead\n");
+       enable_swap_account("=0");
         return 1;
  }
  __setup("noswapaccount", disable_swap_account);