net/mlx4_en: Fix mixed PFC and Global pause user control requests
[pandora-kernel.git] / include / linux / mmzone.h
1 #ifndef _LINUX_MMZONE_H
2 #define _LINUX_MMZONE_H
3
4 #ifndef __ASSEMBLY__
5 #ifndef __GENERATING_BOUNDS_H
6
7 #include <linux/spinlock.h>
8 #include <linux/list.h>
9 #include <linux/wait.h>
10 #include <linux/bitops.h>
11 #include <linux/cache.h>
12 #include <linux/threads.h>
13 #include <linux/numa.h>
14 #include <linux/init.h>
15 #include <linux/seqlock.h>
16 #include <linux/nodemask.h>
17 #include <linux/pageblock-flags.h>
18 #include <generated/bounds.h>
19 #include <linux/atomic.h>
20 #include <asm/page.h>
21
22 /* Free memory management - zoned buddy allocator.  */
23 #ifndef CONFIG_FORCE_MAX_ZONEORDER
24 #define MAX_ORDER 11
25 #else
26 #define MAX_ORDER CONFIG_FORCE_MAX_ZONEORDER
27 #endif
28 #define MAX_ORDER_NR_PAGES (1 << (MAX_ORDER - 1))
29
30 /*
31  * PAGE_ALLOC_COSTLY_ORDER is the order at which allocations are deemed
32  * costly to service.  That is between allocation orders which should
33  * coelesce naturally under reasonable reclaim pressure and those which
34  * will not.
35  */
36 #define PAGE_ALLOC_COSTLY_ORDER 3
37
38 #define MIGRATE_UNMOVABLE     0
39 #define MIGRATE_RECLAIMABLE   1
40 #define MIGRATE_MOVABLE       2
41 #define MIGRATE_PCPTYPES      3 /* the number of types on the pcp lists */
42 #define MIGRATE_RESERVE       3
43 #define MIGRATE_ISOLATE       4 /* can't allocate from here */
44 #define MIGRATE_TYPES         5
45
46 #define for_each_migratetype_order(order, type) \
47         for (order = 0; order < MAX_ORDER; order++) \
48                 for (type = 0; type < MIGRATE_TYPES; type++)
49
50 extern int page_group_by_mobility_disabled;
51
52 static inline int get_pageblock_migratetype(struct page *page)
53 {
54         return get_pageblock_flags_group(page, PB_migrate, PB_migrate_end);
55 }
56
57 struct free_area {
58         struct list_head        free_list[MIGRATE_TYPES];
59         unsigned long           nr_free;
60 };
61
62 struct pglist_data;
63
64 /*
65  * zone->lock and zone->lru_lock are two of the hottest locks in the kernel.
66  * So add a wild amount of padding here to ensure that they fall into separate
67  * cachelines.  There are very few zone structures in the machine, so space
68  * consumption is not a concern here.
69  */
70 #if defined(CONFIG_SMP)
71 struct zone_padding {
72         char x[0];
73 } ____cacheline_internodealigned_in_smp;
74 #define ZONE_PADDING(name)      struct zone_padding name;
75 #else
76 #define ZONE_PADDING(name)
77 #endif
78
79 enum zone_stat_item {
80         /* First 128 byte cacheline (assuming 64 bit words) */
81         NR_FREE_PAGES,
82         NR_LRU_BASE,
83         NR_INACTIVE_ANON = NR_LRU_BASE, /* must match order of LRU_[IN]ACTIVE */
84         NR_ACTIVE_ANON,         /*  "     "     "   "       "         */
85         NR_INACTIVE_FILE,       /*  "     "     "   "       "         */
86         NR_ACTIVE_FILE,         /*  "     "     "   "       "         */
87         NR_UNEVICTABLE,         /*  "     "     "   "       "         */
88         NR_MLOCK,               /* mlock()ed pages found and moved off LRU */
89         NR_ANON_PAGES,  /* Mapped anonymous pages */
90         NR_FILE_MAPPED, /* pagecache pages mapped into pagetables.
91                            only modified from process context */
92         NR_FILE_PAGES,
93         NR_FILE_DIRTY,
94         NR_WRITEBACK,
95         NR_SLAB_RECLAIMABLE,
96         NR_SLAB_UNRECLAIMABLE,
97         NR_PAGETABLE,           /* used for pagetables */
98         /* Second 128 byte cacheline */
99         NR_KERNEL_STACK,
100         NR_KAISERTABLE,
101         NR_UNSTABLE_NFS,        /* NFS unstable pages */
102         NR_BOUNCE,
103         NR_VMSCAN_WRITE,
104         NR_VMSCAN_IMMEDIATE,    /* Prioritise for reclaim when writeback ends */
105         NR_WRITEBACK_TEMP,      /* Writeback using temporary buffers */
106         NR_ISOLATED_ANON,       /* Temporary isolated pages from anon lru */
107         NR_ISOLATED_FILE,       /* Temporary isolated pages from file lru */
108         NR_SHMEM,               /* shmem pages (included tmpfs/GEM pages) */
109         NR_DIRTIED,             /* page dirtyings since bootup */
110         NR_WRITTEN,             /* page writings since bootup */
111 #ifdef CONFIG_NUMA
112         NUMA_HIT,               /* allocated in intended node */
113         NUMA_MISS,              /* allocated in non intended node */
114         NUMA_FOREIGN,           /* was intended here, hit elsewhere */
115         NUMA_INTERLEAVE_HIT,    /* interleaver preferred this zone */
116         NUMA_LOCAL,             /* allocation from local node */
117         NUMA_OTHER,             /* allocation from other node */
118 #endif
119         NR_ANON_TRANSPARENT_HUGEPAGES,
120         NR_VM_ZONE_STAT_ITEMS };
121
122 /*
123  * We do arithmetic on the LRU lists in various places in the code,
124  * so it is important to keep the active lists LRU_ACTIVE higher in
125  * the array than the corresponding inactive lists, and to keep
126  * the *_FILE lists LRU_FILE higher than the corresponding _ANON lists.
127  *
128  * This has to be kept in sync with the statistics in zone_stat_item
129  * above and the descriptions in vmstat_text in mm/vmstat.c
130  */
131 #define LRU_BASE 0
132 #define LRU_ACTIVE 1
133 #define LRU_FILE 2
134
135 enum lru_list {
136         LRU_INACTIVE_ANON = LRU_BASE,
137         LRU_ACTIVE_ANON = LRU_BASE + LRU_ACTIVE,
138         LRU_INACTIVE_FILE = LRU_BASE + LRU_FILE,
139         LRU_ACTIVE_FILE = LRU_BASE + LRU_FILE + LRU_ACTIVE,
140         LRU_UNEVICTABLE,
141         NR_LRU_LISTS
142 };
143
144 #define for_each_lru(l) for (l = 0; l < NR_LRU_LISTS; l++)
145
146 #define for_each_evictable_lru(l) for (l = 0; l <= LRU_ACTIVE_FILE; l++)
147
148 static inline int is_file_lru(enum lru_list l)
149 {
150         return (l == LRU_INACTIVE_FILE || l == LRU_ACTIVE_FILE);
151 }
152
153 static inline int is_active_lru(enum lru_list l)
154 {
155         return (l == LRU_ACTIVE_ANON || l == LRU_ACTIVE_FILE);
156 }
157
158 static inline int is_unevictable_lru(enum lru_list l)
159 {
160         return (l == LRU_UNEVICTABLE);
161 }
162
163 /* Mask used at gathering information at once (see memcontrol.c) */
164 #define LRU_ALL_FILE (BIT(LRU_INACTIVE_FILE) | BIT(LRU_ACTIVE_FILE))
165 #define LRU_ALL_ANON (BIT(LRU_INACTIVE_ANON) | BIT(LRU_ACTIVE_ANON))
166 #define LRU_ALL_EVICTABLE (LRU_ALL_FILE | LRU_ALL_ANON)
167 #define LRU_ALL      ((1 << NR_LRU_LISTS) - 1)
168
169 /* Isolate inactive pages */
170 #define ISOLATE_INACTIVE        ((__force isolate_mode_t)0x1)
171 /* Isolate active pages */
172 #define ISOLATE_ACTIVE          ((__force isolate_mode_t)0x2)
173 /* Isolate clean file */
174 #define ISOLATE_CLEAN           ((__force isolate_mode_t)0x4)
175 /* Isolate unmapped file */
176 #define ISOLATE_UNMAPPED        ((__force isolate_mode_t)0x8)
177 /* Isolate for asynchronous migration */
178 #define ISOLATE_ASYNC_MIGRATE   ((__force isolate_mode_t)0x10)
179
180 /* LRU Isolation modes. */
181 typedef unsigned __bitwise__ isolate_mode_t;
182
183 enum zone_watermarks {
184         WMARK_MIN,
185         WMARK_LOW,
186         WMARK_HIGH,
187         NR_WMARK
188 };
189
190 #define min_wmark_pages(z) (z->watermark[WMARK_MIN])
191 #define low_wmark_pages(z) (z->watermark[WMARK_LOW])
192 #define high_wmark_pages(z) (z->watermark[WMARK_HIGH])
193
194 struct per_cpu_pages {
195         int count;              /* number of pages in the list */
196         int high;               /* high watermark, emptying needed */
197         int batch;              /* chunk size for buddy add/remove */
198
199         /* Lists of pages, one per migrate type stored on the pcp-lists */
200         struct list_head lists[MIGRATE_PCPTYPES];
201 };
202
203 struct per_cpu_pageset {
204         struct per_cpu_pages pcp;
205 #ifdef CONFIG_NUMA
206         s8 expire;
207 #endif
208 #ifdef CONFIG_SMP
209         s8 stat_threshold;
210         s8 vm_stat_diff[NR_VM_ZONE_STAT_ITEMS];
211 #endif
212 };
213
214 #endif /* !__GENERATING_BOUNDS.H */
215
216 enum zone_type {
217 #ifdef CONFIG_ZONE_DMA
218         /*
219          * ZONE_DMA is used when there are devices that are not able
220          * to do DMA to all of addressable memory (ZONE_NORMAL). Then we
221          * carve out the portion of memory that is needed for these devices.
222          * The range is arch specific.
223          *
224          * Some examples
225          *
226          * Architecture         Limit
227          * ---------------------------
228          * parisc, ia64, sparc  <4G
229          * s390                 <2G
230          * arm                  Various
231          * alpha                Unlimited or 0-16MB.
232          *
233          * i386, x86_64 and multiple other arches
234          *                      <16M.
235          */
236         ZONE_DMA,
237 #endif
238 #ifdef CONFIG_ZONE_DMA32
239         /*
240          * x86_64 needs two ZONE_DMAs because it supports devices that are
241          * only able to do DMA to the lower 16M but also 32 bit devices that
242          * can only do DMA areas below 4G.
243          */
244         ZONE_DMA32,
245 #endif
246         /*
247          * Normal addressable memory is in ZONE_NORMAL. DMA operations can be
248          * performed on pages in ZONE_NORMAL if the DMA devices support
249          * transfers to all addressable memory.
250          */
251         ZONE_NORMAL,
252 #ifdef CONFIG_HIGHMEM
253         /*
254          * A memory area that is only addressable by the kernel through
255          * mapping portions into its own address space. This is for example
256          * used by i386 to allow the kernel to address the memory beyond
257          * 900MB. The kernel will set up special mappings (page
258          * table entries on i386) for each page that the kernel needs to
259          * access.
260          */
261         ZONE_HIGHMEM,
262 #endif
263         ZONE_MOVABLE,
264         __MAX_NR_ZONES
265 };
266
267 #ifndef __GENERATING_BOUNDS_H
268
269 /*
270  * When a memory allocation must conform to specific limitations (such
271  * as being suitable for DMA) the caller will pass in hints to the
272  * allocator in the gfp_mask, in the zone modifier bits.  These bits
273  * are used to select a priority ordered list of memory zones which
274  * match the requested limits. See gfp_zone() in include/linux/gfp.h
275  */
276
277 #if MAX_NR_ZONES < 2
278 #define ZONES_SHIFT 0
279 #elif MAX_NR_ZONES <= 2
280 #define ZONES_SHIFT 1
281 #elif MAX_NR_ZONES <= 4
282 #define ZONES_SHIFT 2
283 #else
284 #error ZONES_SHIFT -- too many zones configured adjust calculation
285 #endif
286
287 struct zone_reclaim_stat {
288         /*
289          * The pageout code in vmscan.c keeps track of how many of the
290          * mem/swap backed and file backed pages are refeferenced.
291          * The higher the rotated/scanned ratio, the more valuable
292          * that cache is.
293          *
294          * The anon LRU stats live in [0], file LRU stats in [1]
295          */
296         unsigned long           recent_rotated[2];
297         unsigned long           recent_scanned[2];
298 };
299
300 struct zone {
301         /* Fields commonly accessed by the page allocator */
302
303         /* zone watermarks, access with *_wmark_pages(zone) macros */
304         unsigned long watermark[NR_WMARK];
305
306         /*
307          * When free pages are below this point, additional steps are taken
308          * when reading the number of free pages to avoid per-cpu counter
309          * drift allowing watermarks to be breached
310          */
311         unsigned long percpu_drift_mark;
312
313         /*
314          * We don't know if the memory that we're going to allocate will be freeable
315          * or/and it will be released eventually, so to avoid totally wasting several
316          * GB of ram we must reserve some of the lower zone memory (otherwise we risk
317          * to run OOM on the lower zones despite there's tons of freeable ram
318          * on the higher zones). This array is recalculated at runtime if the
319          * sysctl_lowmem_reserve_ratio sysctl changes.
320          */
321         unsigned long           lowmem_reserve[MAX_NR_ZONES];
322
323 #ifdef CONFIG_NUMA
324         int node;
325         /*
326          * zone reclaim becomes active if more unmapped pages exist.
327          */
328         unsigned long           min_unmapped_pages;
329         unsigned long           min_slab_pages;
330 #endif
331         struct per_cpu_pageset __percpu *pageset;
332         /*
333          * free areas of different sizes
334          */
335         spinlock_t              lock;
336         int                     all_unreclaimable; /* All pages pinned */
337 #ifdef CONFIG_MEMORY_HOTPLUG
338         /* see spanned/present_pages for more description */
339         seqlock_t               span_seqlock;
340 #endif
341         struct free_area        free_area[MAX_ORDER];
342
343 #ifndef CONFIG_SPARSEMEM
344         /*
345          * Flags for a pageblock_nr_pages block. See pageblock-flags.h.
346          * In SPARSEMEM, this map is stored in struct mem_section
347          */
348         unsigned long           *pageblock_flags;
349 #endif /* CONFIG_SPARSEMEM */
350
351 #ifdef CONFIG_COMPACTION
352         /*
353          * On compaction failure, 1<<compact_defer_shift compactions
354          * are skipped before trying again. The number attempted since
355          * last failure is tracked with compact_considered.
356          */
357         unsigned int            compact_considered;
358         unsigned int            compact_defer_shift;
359 #endif
360
361         ZONE_PADDING(_pad1_)
362
363         /* Fields commonly accessed by the page reclaim scanner */
364         spinlock_t              lru_lock;       
365         struct zone_lru {
366                 struct list_head list;
367         } lru[NR_LRU_LISTS];
368
369         struct zone_reclaim_stat reclaim_stat;
370
371         unsigned long           pages_scanned;     /* since last reclaim */
372         unsigned long           flags;             /* zone flags, see below */
373
374         /* Zone statistics */
375         atomic_long_t           vm_stat[NR_VM_ZONE_STAT_ITEMS];
376
377         /*
378          * The target ratio of ACTIVE_ANON to INACTIVE_ANON pages on
379          * this zone's LRU.  Maintained by the pageout code.
380          */
381         unsigned int inactive_ratio;
382
383
384         ZONE_PADDING(_pad2_)
385         /* Rarely used or read-mostly fields */
386
387         /*
388          * wait_table           -- the array holding the hash table
389          * wait_table_hash_nr_entries   -- the size of the hash table array
390          * wait_table_bits      -- wait_table_size == (1 << wait_table_bits)
391          *
392          * The purpose of all these is to keep track of the people
393          * waiting for a page to become available and make them
394          * runnable again when possible. The trouble is that this
395          * consumes a lot of space, especially when so few things
396          * wait on pages at a given time. So instead of using
397          * per-page waitqueues, we use a waitqueue hash table.
398          *
399          * The bucket discipline is to sleep on the same queue when
400          * colliding and wake all in that wait queue when removing.
401          * When something wakes, it must check to be sure its page is
402          * truly available, a la thundering herd. The cost of a
403          * collision is great, but given the expected load of the
404          * table, they should be so rare as to be outweighed by the
405          * benefits from the saved space.
406          *
407          * __wait_on_page_locked() and unlock_page() in mm/filemap.c, are the
408          * primary users of these fields, and in mm/page_alloc.c
409          * free_area_init_core() performs the initialization of them.
410          */
411         wait_queue_head_t       * wait_table;
412         unsigned long           wait_table_hash_nr_entries;
413         unsigned long           wait_table_bits;
414
415         /*
416          * Discontig memory support fields.
417          */
418         struct pglist_data      *zone_pgdat;
419         /* zone_start_pfn == zone_start_paddr >> PAGE_SHIFT */
420         unsigned long           zone_start_pfn;
421
422         /*
423          * zone_start_pfn, spanned_pages and present_pages are all
424          * protected by span_seqlock.  It is a seqlock because it has
425          * to be read outside of zone->lock, and it is done in the main
426          * allocator path.  But, it is written quite infrequently.
427          *
428          * The lock is declared along with zone->lock because it is
429          * frequently read in proximity to zone->lock.  It's good to
430          * give them a chance of being in the same cacheline.
431          */
432         unsigned long           spanned_pages;  /* total size, including holes */
433         unsigned long           present_pages;  /* amount of memory (excluding holes) */
434
435         /*
436          * rarely used fields:
437          */
438         const char              *name;
439 } ____cacheline_internodealigned_in_smp;
440
441 typedef enum {
442         ZONE_RECLAIM_LOCKED,            /* prevents concurrent reclaim */
443         ZONE_OOM_LOCKED,                /* zone is in OOM killer zonelist */
444         ZONE_CONGESTED,                 /* zone has many dirty pages backed by
445                                          * a congested BDI
446                                          */
447 } zone_flags_t;
448
449 static inline void zone_set_flag(struct zone *zone, zone_flags_t flag)
450 {
451         set_bit(flag, &zone->flags);
452 }
453
454 static inline int zone_test_and_set_flag(struct zone *zone, zone_flags_t flag)
455 {
456         return test_and_set_bit(flag, &zone->flags);
457 }
458
459 static inline void zone_clear_flag(struct zone *zone, zone_flags_t flag)
460 {
461         clear_bit(flag, &zone->flags);
462 }
463
464 static inline int zone_is_reclaim_congested(const struct zone *zone)
465 {
466         return test_bit(ZONE_CONGESTED, &zone->flags);
467 }
468
469 static inline int zone_is_reclaim_locked(const struct zone *zone)
470 {
471         return test_bit(ZONE_RECLAIM_LOCKED, &zone->flags);
472 }
473
474 static inline int zone_is_oom_locked(const struct zone *zone)
475 {
476         return test_bit(ZONE_OOM_LOCKED, &zone->flags);
477 }
478
479 /*
480  * The "priority" of VM scanning is how much of the queues we will scan in one
481  * go. A value of 12 for DEF_PRIORITY implies that we will scan 1/4096th of the
482  * queues ("queue_length >> 12") during an aging round.
483  */
484 #define DEF_PRIORITY 12
485
486 /* Maximum number of zones on a zonelist */
487 #define MAX_ZONES_PER_ZONELIST (MAX_NUMNODES * MAX_NR_ZONES)
488
489 #ifdef CONFIG_NUMA
490
491 /*
492  * The NUMA zonelists are doubled because we need zonelists that restrict the
493  * allocations to a single node for GFP_THISNODE.
494  *
495  * [0]  : Zonelist with fallback
496  * [1]  : No fallback (GFP_THISNODE)
497  */
498 #define MAX_ZONELISTS 2
499
500
501 /*
502  * We cache key information from each zonelist for smaller cache
503  * footprint when scanning for free pages in get_page_from_freelist().
504  *
505  * 1) The BITMAP fullzones tracks which zones in a zonelist have come
506  *    up short of free memory since the last time (last_fullzone_zap)
507  *    we zero'd fullzones.
508  * 2) The array z_to_n[] maps each zone in the zonelist to its node
509  *    id, so that we can efficiently evaluate whether that node is
510  *    set in the current tasks mems_allowed.
511  *
512  * Both fullzones and z_to_n[] are one-to-one with the zonelist,
513  * indexed by a zones offset in the zonelist zones[] array.
514  *
515  * The get_page_from_freelist() routine does two scans.  During the
516  * first scan, we skip zones whose corresponding bit in 'fullzones'
517  * is set or whose corresponding node in current->mems_allowed (which
518  * comes from cpusets) is not set.  During the second scan, we bypass
519  * this zonelist_cache, to ensure we look methodically at each zone.
520  *
521  * Once per second, we zero out (zap) fullzones, forcing us to
522  * reconsider nodes that might have regained more free memory.
523  * The field last_full_zap is the time we last zapped fullzones.
524  *
525  * This mechanism reduces the amount of time we waste repeatedly
526  * reexaming zones for free memory when they just came up low on
527  * memory momentarilly ago.
528  *
529  * The zonelist_cache struct members logically belong in struct
530  * zonelist.  However, the mempolicy zonelists constructed for
531  * MPOL_BIND are intentionally variable length (and usually much
532  * shorter).  A general purpose mechanism for handling structs with
533  * multiple variable length members is more mechanism than we want
534  * here.  We resort to some special case hackery instead.
535  *
536  * The MPOL_BIND zonelists don't need this zonelist_cache (in good
537  * part because they are shorter), so we put the fixed length stuff
538  * at the front of the zonelist struct, ending in a variable length
539  * zones[], as is needed by MPOL_BIND.
540  *
541  * Then we put the optional zonelist cache on the end of the zonelist
542  * struct.  This optional stuff is found by a 'zlcache_ptr' pointer in
543  * the fixed length portion at the front of the struct.  This pointer
544  * both enables us to find the zonelist cache, and in the case of
545  * MPOL_BIND zonelists, (which will just set the zlcache_ptr to NULL)
546  * to know that the zonelist cache is not there.
547  *
548  * The end result is that struct zonelists come in two flavors:
549  *  1) The full, fixed length version, shown below, and
550  *  2) The custom zonelists for MPOL_BIND.
551  * The custom MPOL_BIND zonelists have a NULL zlcache_ptr and no zlcache.
552  *
553  * Even though there may be multiple CPU cores on a node modifying
554  * fullzones or last_full_zap in the same zonelist_cache at the same
555  * time, we don't lock it.  This is just hint data - if it is wrong now
556  * and then, the allocator will still function, perhaps a bit slower.
557  */
558
559
560 struct zonelist_cache {
561         unsigned short z_to_n[MAX_ZONES_PER_ZONELIST];          /* zone->nid */
562         DECLARE_BITMAP(fullzones, MAX_ZONES_PER_ZONELIST);      /* zone full? */
563         unsigned long last_full_zap;            /* when last zap'd (jiffies) */
564 };
565 #else
566 #define MAX_ZONELISTS 1
567 struct zonelist_cache;
568 #endif
569
570 /*
571  * This struct contains information about a zone in a zonelist. It is stored
572  * here to avoid dereferences into large structures and lookups of tables
573  */
574 struct zoneref {
575         struct zone *zone;      /* Pointer to actual zone */
576         int zone_idx;           /* zone_idx(zoneref->zone) */
577 };
578
579 /*
580  * One allocation request operates on a zonelist. A zonelist
581  * is a list of zones, the first one is the 'goal' of the
582  * allocation, the other zones are fallback zones, in decreasing
583  * priority.
584  *
585  * If zlcache_ptr is not NULL, then it is just the address of zlcache,
586  * as explained above.  If zlcache_ptr is NULL, there is no zlcache.
587  * *
588  * To speed the reading of the zonelist, the zonerefs contain the zone index
589  * of the entry being read. Helper functions to access information given
590  * a struct zoneref are
591  *
592  * zonelist_zone()      - Return the struct zone * for an entry in _zonerefs
593  * zonelist_zone_idx()  - Return the index of the zone for an entry
594  * zonelist_node_idx()  - Return the index of the node for an entry
595  */
596 struct zonelist {
597         struct zonelist_cache *zlcache_ptr;                  // NULL or &zlcache
598         struct zoneref _zonerefs[MAX_ZONES_PER_ZONELIST + 1];
599 #ifdef CONFIG_NUMA
600         struct zonelist_cache zlcache;                       // optional ...
601 #endif
602 };
603
604 #ifdef CONFIG_ARCH_POPULATES_NODE_MAP
605 struct node_active_region {
606         unsigned long start_pfn;
607         unsigned long end_pfn;
608         int nid;
609 };
610 #endif /* CONFIG_ARCH_POPULATES_NODE_MAP */
611
612 #ifndef CONFIG_DISCONTIGMEM
613 /* The array of struct pages - for discontigmem use pgdat->lmem_map */
614 extern struct page *mem_map;
615 #endif
616
617 /*
618  * The pg_data_t structure is used in machines with CONFIG_DISCONTIGMEM
619  * (mostly NUMA machines?) to denote a higher-level memory zone than the
620  * zone denotes.
621  *
622  * On NUMA machines, each NUMA node would have a pg_data_t to describe
623  * it's memory layout.
624  *
625  * Memory statistics and page replacement data structures are maintained on a
626  * per-zone basis.
627  */
628 struct bootmem_data;
629 typedef struct pglist_data {
630         struct zone node_zones[MAX_NR_ZONES];
631         struct zonelist node_zonelists[MAX_ZONELISTS];
632         int nr_zones;
633 #ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
634         struct page *node_mem_map;
635 #ifdef CONFIG_CGROUP_MEM_RES_CTLR
636         struct page_cgroup *node_page_cgroup;
637 #endif
638 #endif
639 #ifndef CONFIG_NO_BOOTMEM
640         struct bootmem_data *bdata;
641 #endif
642 #ifdef CONFIG_MEMORY_HOTPLUG
643         /*
644          * Must be held any time you expect node_start_pfn, node_present_pages
645          * or node_spanned_pages stay constant.  Holding this will also
646          * guarantee that any pfn_valid() stays that way.
647          *
648          * Nests above zone->lock and zone->size_seqlock.
649          */
650         spinlock_t node_size_lock;
651 #endif
652         unsigned long node_start_pfn;
653         unsigned long node_present_pages; /* total number of physical pages */
654         unsigned long node_spanned_pages; /* total size of physical page
655                                              range, including holes */
656         int node_id;
657         wait_queue_head_t kswapd_wait;
658         struct task_struct *kswapd;     /* Protected by lock_memory_hotplug() */
659         int kswapd_max_order;
660         enum zone_type classzone_idx;
661 } pg_data_t;
662
663 #define node_present_pages(nid) (NODE_DATA(nid)->node_present_pages)
664 #define node_spanned_pages(nid) (NODE_DATA(nid)->node_spanned_pages)
665 #ifdef CONFIG_FLAT_NODE_MEM_MAP
666 #define pgdat_page_nr(pgdat, pagenr)    ((pgdat)->node_mem_map + (pagenr))
667 #else
668 #define pgdat_page_nr(pgdat, pagenr)    pfn_to_page((pgdat)->node_start_pfn + (pagenr))
669 #endif
670 #define nid_page_nr(nid, pagenr)        pgdat_page_nr(NODE_DATA(nid),(pagenr))
671
672 #define node_start_pfn(nid)     (NODE_DATA(nid)->node_start_pfn)
673
674 #define node_end_pfn(nid) ({\
675         pg_data_t *__pgdat = NODE_DATA(nid);\
676         __pgdat->node_start_pfn + __pgdat->node_spanned_pages;\
677 })
678
679 #include <linux/memory_hotplug.h>
680
681 extern struct mutex zonelists_mutex;
682 void build_all_zonelists(void *data);
683 void wakeup_kswapd(struct zone *zone, int order, enum zone_type classzone_idx);
684 bool zone_watermark_ok(struct zone *z, int order, unsigned long mark,
685                 int classzone_idx, int alloc_flags);
686 bool zone_watermark_ok_safe(struct zone *z, int order, unsigned long mark,
687                 int classzone_idx, int alloc_flags);
688 enum memmap_context {
689         MEMMAP_EARLY,
690         MEMMAP_HOTPLUG,
691 };
692 extern int init_currently_empty_zone(struct zone *zone, unsigned long start_pfn,
693                                      unsigned long size,
694                                      enum memmap_context context);
695
696 #ifdef CONFIG_HAVE_MEMORY_PRESENT
697 void memory_present(int nid, unsigned long start, unsigned long end);
698 #else
699 static inline void memory_present(int nid, unsigned long start, unsigned long end) {}
700 #endif
701
702 #ifdef CONFIG_HAVE_MEMORYLESS_NODES
703 int local_memory_node(int node_id);
704 #else
705 static inline int local_memory_node(int node_id) { return node_id; };
706 #endif
707
708 #ifdef CONFIG_NEED_NODE_MEMMAP_SIZE
709 unsigned long __init node_memmap_size_bytes(int, unsigned long, unsigned long);
710 #endif
711
712 /*
713  * zone_idx() returns 0 for the ZONE_DMA zone, 1 for the ZONE_NORMAL zone, etc.
714  */
715 #define zone_idx(zone)          ((zone) - (zone)->zone_pgdat->node_zones)
716
717 static inline int populated_zone(struct zone *zone)
718 {
719         return (!!zone->present_pages);
720 }
721
722 extern int movable_zone;
723
724 static inline int zone_movable_is_highmem(void)
725 {
726 #if defined(CONFIG_HIGHMEM) && defined(CONFIG_ARCH_POPULATES_NODE_MAP)
727         return movable_zone == ZONE_HIGHMEM;
728 #else
729         return 0;
730 #endif
731 }
732
733 static inline int is_highmem_idx(enum zone_type idx)
734 {
735 #ifdef CONFIG_HIGHMEM
736         return (idx == ZONE_HIGHMEM ||
737                 (idx == ZONE_MOVABLE && zone_movable_is_highmem()));
738 #else
739         return 0;
740 #endif
741 }
742
743 static inline int is_normal_idx(enum zone_type idx)
744 {
745         return (idx == ZONE_NORMAL);
746 }
747
748 /**
749  * is_highmem - helper function to quickly check if a struct zone is a 
750  *              highmem zone or not.  This is an attempt to keep references
751  *              to ZONE_{DMA/NORMAL/HIGHMEM/etc} in general code to a minimum.
752  * @zone - pointer to struct zone variable
753  */
754 static inline int is_highmem(struct zone *zone)
755 {
756 #ifdef CONFIG_HIGHMEM
757         int zone_off = (char *)zone - (char *)zone->zone_pgdat->node_zones;
758         return zone_off == ZONE_HIGHMEM * sizeof(*zone) ||
759                (zone_off == ZONE_MOVABLE * sizeof(*zone) &&
760                 zone_movable_is_highmem());
761 #else
762         return 0;
763 #endif
764 }
765
766 static inline int is_normal(struct zone *zone)
767 {
768         return zone == zone->zone_pgdat->node_zones + ZONE_NORMAL;
769 }
770
771 static inline int is_dma32(struct zone *zone)
772 {
773 #ifdef CONFIG_ZONE_DMA32
774         return zone == zone->zone_pgdat->node_zones + ZONE_DMA32;
775 #else
776         return 0;
777 #endif
778 }
779
780 static inline int is_dma(struct zone *zone)
781 {
782 #ifdef CONFIG_ZONE_DMA
783         return zone == zone->zone_pgdat->node_zones + ZONE_DMA;
784 #else
785         return 0;
786 #endif
787 }
788
789 /* These two functions are used to setup the per zone pages min values */
790 struct ctl_table;
791 int min_free_kbytes_sysctl_handler(struct ctl_table *, int,
792                                         void __user *, size_t *, loff_t *);
793 extern int sysctl_lowmem_reserve_ratio[MAX_NR_ZONES-1];
794 int lowmem_reserve_ratio_sysctl_handler(struct ctl_table *, int,
795                                         void __user *, size_t *, loff_t *);
796 int percpu_pagelist_fraction_sysctl_handler(struct ctl_table *, int,
797                                         void __user *, size_t *, loff_t *);
798 int sysctl_min_unmapped_ratio_sysctl_handler(struct ctl_table *, int,
799                         void __user *, size_t *, loff_t *);
800 int sysctl_min_slab_ratio_sysctl_handler(struct ctl_table *, int,
801                         void __user *, size_t *, loff_t *);
802
803 extern int numa_zonelist_order_handler(struct ctl_table *, int,
804                         void __user *, size_t *, loff_t *);
805 extern char numa_zonelist_order[];
806 #define NUMA_ZONELIST_ORDER_LEN 16      /* string buffer size */
807
808 #ifndef CONFIG_NEED_MULTIPLE_NODES
809
810 extern struct pglist_data contig_page_data;
811 #define NODE_DATA(nid)          (&contig_page_data)
812 #define NODE_MEM_MAP(nid)       mem_map
813
814 #else /* CONFIG_NEED_MULTIPLE_NODES */
815
816 #include <asm/mmzone.h>
817
818 #endif /* !CONFIG_NEED_MULTIPLE_NODES */
819
820 extern struct pglist_data *first_online_pgdat(void);
821 extern struct pglist_data *next_online_pgdat(struct pglist_data *pgdat);
822 extern struct zone *next_zone(struct zone *zone);
823
824 /**
825  * for_each_online_pgdat - helper macro to iterate over all online nodes
826  * @pgdat - pointer to a pg_data_t variable
827  */
828 #define for_each_online_pgdat(pgdat)                    \
829         for (pgdat = first_online_pgdat();              \
830              pgdat;                                     \
831              pgdat = next_online_pgdat(pgdat))
832 /**
833  * for_each_zone - helper macro to iterate over all memory zones
834  * @zone - pointer to struct zone variable
835  *
836  * The user only needs to declare the zone variable, for_each_zone
837  * fills it in.
838  */
839 #define for_each_zone(zone)                             \
840         for (zone = (first_online_pgdat())->node_zones; \
841              zone;                                      \
842              zone = next_zone(zone))
843
844 #define for_each_populated_zone(zone)                   \
845         for (zone = (first_online_pgdat())->node_zones; \
846              zone;                                      \
847              zone = next_zone(zone))                    \
848                 if (!populated_zone(zone))              \
849                         ; /* do nothing */              \
850                 else
851
852 static inline struct zone *zonelist_zone(struct zoneref *zoneref)
853 {
854         return zoneref->zone;
855 }
856
857 static inline int zonelist_zone_idx(struct zoneref *zoneref)
858 {
859         return zoneref->zone_idx;
860 }
861
862 static inline int zonelist_node_idx(struct zoneref *zoneref)
863 {
864 #ifdef CONFIG_NUMA
865         /* zone_to_nid not available in this context */
866         return zoneref->zone->node;
867 #else
868         return 0;
869 #endif /* CONFIG_NUMA */
870 }
871
872 /**
873  * next_zones_zonelist - Returns the next zone at or below highest_zoneidx within the allowed nodemask using a cursor within a zonelist as a starting point
874  * @z - The cursor used as a starting point for the search
875  * @highest_zoneidx - The zone index of the highest zone to return
876  * @nodes - An optional nodemask to filter the zonelist with
877  * @zone - The first suitable zone found is returned via this parameter
878  *
879  * This function returns the next zone at or below a given zone index that is
880  * within the allowed nodemask using a cursor as the starting point for the
881  * search. The zoneref returned is a cursor that represents the current zone
882  * being examined. It should be advanced by one before calling
883  * next_zones_zonelist again.
884  */
885 struct zoneref *next_zones_zonelist(struct zoneref *z,
886                                         enum zone_type highest_zoneidx,
887                                         nodemask_t *nodes,
888                                         struct zone **zone);
889
890 /**
891  * first_zones_zonelist - Returns the first zone at or below highest_zoneidx within the allowed nodemask in a zonelist
892  * @zonelist - The zonelist to search for a suitable zone
893  * @highest_zoneidx - The zone index of the highest zone to return
894  * @nodes - An optional nodemask to filter the zonelist with
895  * @zone - The first suitable zone found is returned via this parameter
896  *
897  * This function returns the first zone at or below a given zone index that is
898  * within the allowed nodemask. The zoneref returned is a cursor that can be
899  * used to iterate the zonelist with next_zones_zonelist by advancing it by
900  * one before calling.
901  */
902 static inline struct zoneref *first_zones_zonelist(struct zonelist *zonelist,
903                                         enum zone_type highest_zoneidx,
904                                         nodemask_t *nodes,
905                                         struct zone **zone)
906 {
907         return next_zones_zonelist(zonelist->_zonerefs, highest_zoneidx, nodes,
908                                                                 zone);
909 }
910
911 /**
912  * for_each_zone_zonelist_nodemask - helper macro to iterate over valid zones in a zonelist at or below a given zone index and within a nodemask
913  * @zone - The current zone in the iterator
914  * @z - The current pointer within zonelist->zones being iterated
915  * @zlist - The zonelist being iterated
916  * @highidx - The zone index of the highest zone to return
917  * @nodemask - Nodemask allowed by the allocator
918  *
919  * This iterator iterates though all zones at or below a given zone index and
920  * within a given nodemask
921  */
922 #define for_each_zone_zonelist_nodemask(zone, z, zlist, highidx, nodemask) \
923         for (z = first_zones_zonelist(zlist, highidx, nodemask, &zone); \
924                 zone;                                                   \
925                 z = next_zones_zonelist(++z, highidx, nodemask, &zone)) \
926
927 /**
928  * for_each_zone_zonelist - helper macro to iterate over valid zones in a zonelist at or below a given zone index
929  * @zone - The current zone in the iterator
930  * @z - The current pointer within zonelist->zones being iterated
931  * @zlist - The zonelist being iterated
932  * @highidx - The zone index of the highest zone to return
933  *
934  * This iterator iterates though all zones at or below a given zone index.
935  */
936 #define for_each_zone_zonelist(zone, z, zlist, highidx) \
937         for_each_zone_zonelist_nodemask(zone, z, zlist, highidx, NULL)
938
939 #ifdef CONFIG_SPARSEMEM
940 #include <asm/sparsemem.h>
941 #endif
942
943 #if !defined(CONFIG_HAVE_ARCH_EARLY_PFN_TO_NID) && \
944         !defined(CONFIG_ARCH_POPULATES_NODE_MAP)
945 static inline unsigned long early_pfn_to_nid(unsigned long pfn)
946 {
947         return 0;
948 }
949 #endif
950
951 #ifdef CONFIG_FLATMEM
952 #define pfn_to_nid(pfn)         (0)
953 #endif
954
955 #ifdef CONFIG_SPARSEMEM
956
957 /*
958  * SECTION_SHIFT                #bits space required to store a section #
959  *
960  * PA_SECTION_SHIFT             physical address to/from section number
961  * PFN_SECTION_SHIFT            pfn to/from section number
962  */
963 #define SECTIONS_SHIFT          (MAX_PHYSMEM_BITS - SECTION_SIZE_BITS)
964
965 #define PA_SECTION_SHIFT        (SECTION_SIZE_BITS)
966 #define PFN_SECTION_SHIFT       (SECTION_SIZE_BITS - PAGE_SHIFT)
967
968 #define NR_MEM_SECTIONS         (1UL << SECTIONS_SHIFT)
969
970 #define PAGES_PER_SECTION       (1UL << PFN_SECTION_SHIFT)
971 #define PAGE_SECTION_MASK       (~(PAGES_PER_SECTION-1))
972
973 #define SECTION_BLOCKFLAGS_BITS \
974         ((1UL << (PFN_SECTION_SHIFT - pageblock_order)) * NR_PAGEBLOCK_BITS)
975
976 #if (MAX_ORDER - 1 + PAGE_SHIFT) > SECTION_SIZE_BITS
977 #error Allocator MAX_ORDER exceeds SECTION_SIZE
978 #endif
979
980 #define pfn_to_section_nr(pfn) ((pfn) >> PFN_SECTION_SHIFT)
981 #define section_nr_to_pfn(sec) ((sec) << PFN_SECTION_SHIFT)
982
983 #define SECTION_ALIGN_UP(pfn)   (((pfn) + PAGES_PER_SECTION - 1) & PAGE_SECTION_MASK)
984 #define SECTION_ALIGN_DOWN(pfn) ((pfn) & PAGE_SECTION_MASK)
985
986 struct page;
987 struct page_cgroup;
988 struct mem_section {
989         /*
990          * This is, logically, a pointer to an array of struct
991          * pages.  However, it is stored with some other magic.
992          * (see sparse.c::sparse_init_one_section())
993          *
994          * Additionally during early boot we encode node id of
995          * the location of the section here to guide allocation.
996          * (see sparse.c::memory_present())
997          *
998          * Making it a UL at least makes someone do a cast
999          * before using it wrong.
1000          */
1001         unsigned long section_mem_map;
1002
1003         /* See declaration of similar field in struct zone */
1004         unsigned long *pageblock_flags;
1005 #ifdef CONFIG_CGROUP_MEM_RES_CTLR
1006         /*
1007          * If !SPARSEMEM, pgdat doesn't have page_cgroup pointer. We use
1008          * section. (see memcontrol.h/page_cgroup.h about this.)
1009          */
1010         struct page_cgroup *page_cgroup;
1011         unsigned long pad;
1012 #endif
1013 };
1014
1015 #ifdef CONFIG_SPARSEMEM_EXTREME
1016 #define SECTIONS_PER_ROOT       (PAGE_SIZE / sizeof (struct mem_section))
1017 #else
1018 #define SECTIONS_PER_ROOT       1
1019 #endif
1020
1021 #define SECTION_NR_TO_ROOT(sec) ((sec) / SECTIONS_PER_ROOT)
1022 #define NR_SECTION_ROOTS        DIV_ROUND_UP(NR_MEM_SECTIONS, SECTIONS_PER_ROOT)
1023 #define SECTION_ROOT_MASK       (SECTIONS_PER_ROOT - 1)
1024
1025 #ifdef CONFIG_SPARSEMEM_EXTREME
1026 extern struct mem_section *mem_section[NR_SECTION_ROOTS];
1027 #else
1028 extern struct mem_section mem_section[NR_SECTION_ROOTS][SECTIONS_PER_ROOT];
1029 #endif
1030
1031 static inline struct mem_section *__nr_to_section(unsigned long nr)
1032 {
1033         if (!mem_section[SECTION_NR_TO_ROOT(nr)])
1034                 return NULL;
1035         return &mem_section[SECTION_NR_TO_ROOT(nr)][nr & SECTION_ROOT_MASK];
1036 }
1037 extern int __section_nr(struct mem_section* ms);
1038 extern unsigned long usemap_size(void);
1039
1040 /*
1041  * We use the lower bits of the mem_map pointer to store
1042  * a little bit of information.  There should be at least
1043  * 3 bits here due to 32-bit alignment.
1044  */
1045 #define SECTION_MARKED_PRESENT  (1UL<<0)
1046 #define SECTION_HAS_MEM_MAP     (1UL<<1)
1047 #define SECTION_MAP_LAST_BIT    (1UL<<2)
1048 #define SECTION_MAP_MASK        (~(SECTION_MAP_LAST_BIT-1))
1049 #define SECTION_NID_SHIFT       2
1050
1051 static inline struct page *__section_mem_map_addr(struct mem_section *section)
1052 {
1053         unsigned long map = section->section_mem_map;
1054         map &= SECTION_MAP_MASK;
1055         return (struct page *)map;
1056 }
1057
1058 static inline int present_section(struct mem_section *section)
1059 {
1060         return (section && (section->section_mem_map & SECTION_MARKED_PRESENT));
1061 }
1062
1063 static inline int present_section_nr(unsigned long nr)
1064 {
1065         return present_section(__nr_to_section(nr));
1066 }
1067
1068 static inline int valid_section(struct mem_section *section)
1069 {
1070         return (section && (section->section_mem_map & SECTION_HAS_MEM_MAP));
1071 }
1072
1073 static inline int valid_section_nr(unsigned long nr)
1074 {
1075         return valid_section(__nr_to_section(nr));
1076 }
1077
1078 static inline struct mem_section *__pfn_to_section(unsigned long pfn)
1079 {
1080         return __nr_to_section(pfn_to_section_nr(pfn));
1081 }
1082
1083 #ifndef CONFIG_HAVE_ARCH_PFN_VALID
1084 static inline int pfn_valid(unsigned long pfn)
1085 {
1086         if (pfn_to_section_nr(pfn) >= NR_MEM_SECTIONS)
1087                 return 0;
1088         return valid_section(__nr_to_section(pfn_to_section_nr(pfn)));
1089 }
1090 #endif
1091
1092 static inline int pfn_present(unsigned long pfn)
1093 {
1094         if (pfn_to_section_nr(pfn) >= NR_MEM_SECTIONS)
1095                 return 0;
1096         return present_section(__nr_to_section(pfn_to_section_nr(pfn)));
1097 }
1098
1099 /*
1100  * These are _only_ used during initialisation, therefore they
1101  * can use __initdata ...  They could have names to indicate
1102  * this restriction.
1103  */
1104 #ifdef CONFIG_NUMA
1105 #define pfn_to_nid(pfn)                                                 \
1106 ({                                                                      \
1107         unsigned long __pfn_to_nid_pfn = (pfn);                         \
1108         page_to_nid(pfn_to_page(__pfn_to_nid_pfn));                     \
1109 })
1110 #else
1111 #define pfn_to_nid(pfn)         (0)
1112 #endif
1113
1114 #define early_pfn_valid(pfn)    pfn_valid(pfn)
1115 void sparse_init(void);
1116 #else
1117 #define sparse_init()   do {} while (0)
1118 #define sparse_index_init(_sec, _nid)  do {} while (0)
1119 #endif /* CONFIG_SPARSEMEM */
1120
1121 #ifdef CONFIG_NODES_SPAN_OTHER_NODES
1122 bool early_pfn_in_nid(unsigned long pfn, int nid);
1123 #else
1124 #define early_pfn_in_nid(pfn, nid)      (1)
1125 #endif
1126
1127 #ifndef early_pfn_valid
1128 #define early_pfn_valid(pfn)    (1)
1129 #endif
1130
1131 void memory_present(int nid, unsigned long start, unsigned long end);
1132 unsigned long __init node_memmap_size_bytes(int, unsigned long, unsigned long);
1133
1134 /*
1135  * If it is possible to have holes within a MAX_ORDER_NR_PAGES, then we
1136  * need to check pfn validility within that MAX_ORDER_NR_PAGES block.
1137  * pfn_valid_within() should be used in this case; we optimise this away
1138  * when we have no holes within a MAX_ORDER_NR_PAGES block.
1139  */
1140 #ifdef CONFIG_HOLES_IN_ZONE
1141 #define pfn_valid_within(pfn) pfn_valid(pfn)
1142 #else
1143 #define pfn_valid_within(pfn) (1)
1144 #endif
1145
1146 #ifdef CONFIG_ARCH_HAS_HOLES_MEMORYMODEL
1147 /*
1148  * pfn_valid() is meant to be able to tell if a given PFN has valid memmap
1149  * associated with it or not. In FLATMEM, it is expected that holes always
1150  * have valid memmap as long as there is valid PFNs either side of the hole.
1151  * In SPARSEMEM, it is assumed that a valid section has a memmap for the
1152  * entire section.
1153  *
1154  * However, an ARM, and maybe other embedded architectures in the future
1155  * free memmap backing holes to save memory on the assumption the memmap is
1156  * never used. The page_zone linkages are then broken even though pfn_valid()
1157  * returns true. A walker of the full memmap must then do this additional
1158  * check to ensure the memmap they are looking at is sane by making sure
1159  * the zone and PFN linkages are still valid. This is expensive, but walkers
1160  * of the full memmap are extremely rare.
1161  */
1162 int memmap_valid_within(unsigned long pfn,
1163                                         struct page *page, struct zone *zone);
1164 #else
1165 static inline int memmap_valid_within(unsigned long pfn,
1166                                         struct page *page, struct zone *zone)
1167 {
1168         return 1;
1169 }
1170 #endif /* CONFIG_ARCH_HAS_HOLES_MEMORYMODEL */
1171
1172 #endif /* !__GENERATING_BOUNDS.H */
1173 #endif /* !__ASSEMBLY__ */
1174 #endif /* _LINUX_MMZONE_H */