]> www.pilppa.org Git - linux-2.6-omap-h63xx.git/blob - arch/powerpc/mm/numa.c
powerpc: Reserve in bootmem lmb reserved regions that cross NUMA nodes
[linux-2.6-omap-h63xx.git] / arch / powerpc / mm / numa.c
1 /*
2  * pSeries NUMA support
3  *
4  * Copyright (C) 2002 Anton Blanchard <anton@au.ibm.com>, IBM
5  *
6  * This program is free software; you can redistribute it and/or
7  * modify it under the terms of the GNU General Public License
8  * as published by the Free Software Foundation; either version
9  * 2 of the License, or (at your option) any later version.
10  */
11 #include <linux/threads.h>
12 #include <linux/bootmem.h>
13 #include <linux/init.h>
14 #include <linux/mm.h>
15 #include <linux/mmzone.h>
16 #include <linux/module.h>
17 #include <linux/nodemask.h>
18 #include <linux/cpu.h>
19 #include <linux/notifier.h>
20 #include <linux/lmb.h>
21 #include <linux/of.h>
22 #include <asm/sparsemem.h>
23 #include <asm/prom.h>
24 #include <asm/system.h>
25 #include <asm/smp.h>
26
27 static int numa_enabled = 1;
28
29 static char *cmdline __initdata;
30
31 static int numa_debug;
32 #define dbg(args...) if (numa_debug) { printk(KERN_INFO args); }
33
34 int numa_cpu_lookup_table[NR_CPUS];
35 cpumask_t numa_cpumask_lookup_table[MAX_NUMNODES];
36 struct pglist_data *node_data[MAX_NUMNODES];
37
38 EXPORT_SYMBOL(numa_cpu_lookup_table);
39 EXPORT_SYMBOL(numa_cpumask_lookup_table);
40 EXPORT_SYMBOL(node_data);
41
42 static int min_common_depth;
43 static int n_mem_addr_cells, n_mem_size_cells;
44
45 static int __cpuinit fake_numa_create_new_node(unsigned long end_pfn,
46                                                 unsigned int *nid)
47 {
48         unsigned long long mem;
49         char *p = cmdline;
50         static unsigned int fake_nid;
51         static unsigned long long curr_boundary;
52
53         /*
54          * Modify node id, iff we started creating NUMA nodes
55          * We want to continue from where we left of the last time
56          */
57         if (fake_nid)
58                 *nid = fake_nid;
59         /*
60          * In case there are no more arguments to parse, the
61          * node_id should be the same as the last fake node id
62          * (we've handled this above).
63          */
64         if (!p)
65                 return 0;
66
67         mem = memparse(p, &p);
68         if (!mem)
69                 return 0;
70
71         if (mem < curr_boundary)
72                 return 0;
73
74         curr_boundary = mem;
75
76         if ((end_pfn << PAGE_SHIFT) > mem) {
77                 /*
78                  * Skip commas and spaces
79                  */
80                 while (*p == ',' || *p == ' ' || *p == '\t')
81                         p++;
82
83                 cmdline = p;
84                 fake_nid++;
85                 *nid = fake_nid;
86                 dbg("created new fake_node with id %d\n", fake_nid);
87                 return 1;
88         }
89         return 0;
90 }
91
92 /*
93  * get_active_region_work_fn - A helper function for get_node_active_region
94  *      Returns datax set to the start_pfn and end_pfn if they contain
95  *      the initial value of datax->start_pfn between them
96  * @start_pfn: start page(inclusive) of region to check
97  * @end_pfn: end page(exclusive) of region to check
98  * @datax: comes in with ->start_pfn set to value to search for and
99  *      goes out with active range if it contains it
100  * Returns 1 if search value is in range else 0
101  */
102 static int __init get_active_region_work_fn(unsigned long start_pfn,
103                                         unsigned long end_pfn, void *datax)
104 {
105         struct node_active_region *data;
106         data = (struct node_active_region *)datax;
107
108         if (start_pfn <= data->start_pfn && end_pfn > data->start_pfn) {
109                 data->start_pfn = start_pfn;
110                 data->end_pfn = end_pfn;
111                 return 1;
112         }
113         return 0;
114
115 }
116
117 /*
118  * get_node_active_region - Return active region containing start_pfn
119  * @start_pfn: The page to return the region for.
120  * @node_ar: Returned set to the active region containing start_pfn
121  */
122 static void __init get_node_active_region(unsigned long start_pfn,
123                        struct node_active_region *node_ar)
124 {
125         int nid = early_pfn_to_nid(start_pfn);
126
127         node_ar->nid = nid;
128         node_ar->start_pfn = start_pfn;
129         work_with_active_regions(nid, get_active_region_work_fn, node_ar);
130 }
131
132 static void __cpuinit map_cpu_to_node(int cpu, int node)
133 {
134         numa_cpu_lookup_table[cpu] = node;
135
136         dbg("adding cpu %d to node %d\n", cpu, node);
137
138         if (!(cpu_isset(cpu, numa_cpumask_lookup_table[node])))
139                 cpu_set(cpu, numa_cpumask_lookup_table[node]);
140 }
141
142 #ifdef CONFIG_HOTPLUG_CPU
143 static void unmap_cpu_from_node(unsigned long cpu)
144 {
145         int node = numa_cpu_lookup_table[cpu];
146
147         dbg("removing cpu %lu from node %d\n", cpu, node);
148
149         if (cpu_isset(cpu, numa_cpumask_lookup_table[node])) {
150                 cpu_clear(cpu, numa_cpumask_lookup_table[node]);
151         } else {
152                 printk(KERN_ERR "WARNING: cpu %lu not found in node %d\n",
153                        cpu, node);
154         }
155 }
156 #endif /* CONFIG_HOTPLUG_CPU */
157
158 static struct device_node * __cpuinit find_cpu_node(unsigned int cpu)
159 {
160         unsigned int hw_cpuid = get_hard_smp_processor_id(cpu);
161         struct device_node *cpu_node = NULL;
162         const unsigned int *interrupt_server, *reg;
163         int len;
164
165         while ((cpu_node = of_find_node_by_type(cpu_node, "cpu")) != NULL) {
166                 /* Try interrupt server first */
167                 interrupt_server = of_get_property(cpu_node,
168                                         "ibm,ppc-interrupt-server#s", &len);
169
170                 len = len / sizeof(u32);
171
172                 if (interrupt_server && (len > 0)) {
173                         while (len--) {
174                                 if (interrupt_server[len] == hw_cpuid)
175                                         return cpu_node;
176                         }
177                 } else {
178                         reg = of_get_property(cpu_node, "reg", &len);
179                         if (reg && (len > 0) && (reg[0] == hw_cpuid))
180                                 return cpu_node;
181                 }
182         }
183
184         return NULL;
185 }
186
187 /* must hold reference to node during call */
188 static const int *of_get_associativity(struct device_node *dev)
189 {
190         return of_get_property(dev, "ibm,associativity", NULL);
191 }
192
193 /*
194  * Returns the property linux,drconf-usable-memory if
195  * it exists (the property exists only in kexec/kdump kernels,
196  * added by kexec-tools)
197  */
198 static const u32 *of_get_usable_memory(struct device_node *memory)
199 {
200         const u32 *prop;
201         u32 len;
202         prop = of_get_property(memory, "linux,drconf-usable-memory", &len);
203         if (!prop || len < sizeof(unsigned int))
204                 return 0;
205         return prop;
206 }
207
208 /* Returns nid in the range [0..MAX_NUMNODES-1], or -1 if no useful numa
209  * info is found.
210  */
211 static int of_node_to_nid_single(struct device_node *device)
212 {
213         int nid = -1;
214         const unsigned int *tmp;
215
216         if (min_common_depth == -1)
217                 goto out;
218
219         tmp = of_get_associativity(device);
220         if (!tmp)
221                 goto out;
222
223         if (tmp[0] >= min_common_depth)
224                 nid = tmp[min_common_depth];
225
226         /* POWER4 LPAR uses 0xffff as invalid node */
227         if (nid == 0xffff || nid >= MAX_NUMNODES)
228                 nid = -1;
229 out:
230         return nid;
231 }
232
233 /* Walk the device tree upwards, looking for an associativity id */
234 int of_node_to_nid(struct device_node *device)
235 {
236         struct device_node *tmp;
237         int nid = -1;
238
239         of_node_get(device);
240         while (device) {
241                 nid = of_node_to_nid_single(device);
242                 if (nid != -1)
243                         break;
244
245                 tmp = device;
246                 device = of_get_parent(tmp);
247                 of_node_put(tmp);
248         }
249         of_node_put(device);
250
251         return nid;
252 }
253 EXPORT_SYMBOL_GPL(of_node_to_nid);
254
255 /*
256  * In theory, the "ibm,associativity" property may contain multiple
257  * associativity lists because a resource may be multiply connected
258  * into the machine.  This resource then has different associativity
259  * characteristics relative to its multiple connections.  We ignore
260  * this for now.  We also assume that all cpu and memory sets have
261  * their distances represented at a common level.  This won't be
262  * true for hierarchical NUMA.
263  *
264  * In any case the ibm,associativity-reference-points should give
265  * the correct depth for a normal NUMA system.
266  *
267  * - Dave Hansen <haveblue@us.ibm.com>
268  */
269 static int __init find_min_common_depth(void)
270 {
271         int depth;
272         const unsigned int *ref_points;
273         struct device_node *rtas_root;
274         unsigned int len;
275
276         rtas_root = of_find_node_by_path("/rtas");
277
278         if (!rtas_root)
279                 return -1;
280
281         /*
282          * this property is 2 32-bit integers, each representing a level of
283          * depth in the associativity nodes.  The first is for an SMP
284          * configuration (should be all 0's) and the second is for a normal
285          * NUMA configuration.
286          */
287         ref_points = of_get_property(rtas_root,
288                         "ibm,associativity-reference-points", &len);
289
290         if ((len >= 1) && ref_points) {
291                 depth = ref_points[1];
292         } else {
293                 dbg("NUMA: ibm,associativity-reference-points not found.\n");
294                 depth = -1;
295         }
296         of_node_put(rtas_root);
297
298         return depth;
299 }
300
301 static void __init get_n_mem_cells(int *n_addr_cells, int *n_size_cells)
302 {
303         struct device_node *memory = NULL;
304
305         memory = of_find_node_by_type(memory, "memory");
306         if (!memory)
307                 panic("numa.c: No memory nodes found!");
308
309         *n_addr_cells = of_n_addr_cells(memory);
310         *n_size_cells = of_n_size_cells(memory);
311         of_node_put(memory);
312 }
313
314 static unsigned long __devinit read_n_cells(int n, const unsigned int **buf)
315 {
316         unsigned long result = 0;
317
318         while (n--) {
319                 result = (result << 32) | **buf;
320                 (*buf)++;
321         }
322         return result;
323 }
324
325 struct of_drconf_cell {
326         u64     base_addr;
327         u32     drc_index;
328         u32     reserved;
329         u32     aa_index;
330         u32     flags;
331 };
332
333 #define DRCONF_MEM_ASSIGNED     0x00000008
334 #define DRCONF_MEM_AI_INVALID   0x00000040
335 #define DRCONF_MEM_RESERVED     0x00000080
336
337 /*
338  * Read the next lmb list entry from the ibm,dynamic-memory property
339  * and return the information in the provided of_drconf_cell structure.
340  */
341 static void read_drconf_cell(struct of_drconf_cell *drmem, const u32 **cellp)
342 {
343         const u32 *cp;
344
345         drmem->base_addr = read_n_cells(n_mem_addr_cells, cellp);
346
347         cp = *cellp;
348         drmem->drc_index = cp[0];
349         drmem->reserved = cp[1];
350         drmem->aa_index = cp[2];
351         drmem->flags = cp[3];
352
353         *cellp = cp + 4;
354 }
355
356 /*
357  * Retreive and validate the ibm,dynamic-memory property of the device tree.
358  *
359  * The layout of the ibm,dynamic-memory property is a number N of lmb
360  * list entries followed by N lmb list entries.  Each lmb list entry
361  * contains information as layed out in the of_drconf_cell struct above.
362  */
363 static int of_get_drconf_memory(struct device_node *memory, const u32 **dm)
364 {
365         const u32 *prop;
366         u32 len, entries;
367
368         prop = of_get_property(memory, "ibm,dynamic-memory", &len);
369         if (!prop || len < sizeof(unsigned int))
370                 return 0;
371
372         entries = *prop++;
373
374         /* Now that we know the number of entries, revalidate the size
375          * of the property read in to ensure we have everything
376          */
377         if (len < (entries * (n_mem_addr_cells + 4) + 1) * sizeof(unsigned int))
378                 return 0;
379
380         *dm = prop;
381         return entries;
382 }
383
384 /*
385  * Retreive and validate the ibm,lmb-size property for drconf memory
386  * from the device tree.
387  */
388 static u64 of_get_lmb_size(struct device_node *memory)
389 {
390         const u32 *prop;
391         u32 len;
392
393         prop = of_get_property(memory, "ibm,lmb-size", &len);
394         if (!prop || len < sizeof(unsigned int))
395                 return 0;
396
397         return read_n_cells(n_mem_size_cells, &prop);
398 }
399
400 struct assoc_arrays {
401         u32     n_arrays;
402         u32     array_sz;
403         const u32 *arrays;
404 };
405
406 /*
407  * Retreive and validate the list of associativity arrays for drconf
408  * memory from the ibm,associativity-lookup-arrays property of the
409  * device tree..
410  *
411  * The layout of the ibm,associativity-lookup-arrays property is a number N
412  * indicating the number of associativity arrays, followed by a number M
413  * indicating the size of each associativity array, followed by a list
414  * of N associativity arrays.
415  */
416 static int of_get_assoc_arrays(struct device_node *memory,
417                                struct assoc_arrays *aa)
418 {
419         const u32 *prop;
420         u32 len;
421
422         prop = of_get_property(memory, "ibm,associativity-lookup-arrays", &len);
423         if (!prop || len < 2 * sizeof(unsigned int))
424                 return -1;
425
426         aa->n_arrays = *prop++;
427         aa->array_sz = *prop++;
428
429         /* Now that we know the number of arrrays and size of each array,
430          * revalidate the size of the property read in.
431          */
432         if (len < (aa->n_arrays * aa->array_sz + 2) * sizeof(unsigned int))
433                 return -1;
434
435         aa->arrays = prop;
436         return 0;
437 }
438
439 /*
440  * This is like of_node_to_nid_single() for memory represented in the
441  * ibm,dynamic-reconfiguration-memory node.
442  */
443 static int of_drconf_to_nid_single(struct of_drconf_cell *drmem,
444                                    struct assoc_arrays *aa)
445 {
446         int default_nid = 0;
447         int nid = default_nid;
448         int index;
449
450         if (min_common_depth > 0 && min_common_depth <= aa->array_sz &&
451             !(drmem->flags & DRCONF_MEM_AI_INVALID) &&
452             drmem->aa_index < aa->n_arrays) {
453                 index = drmem->aa_index * aa->array_sz + min_common_depth - 1;
454                 nid = aa->arrays[index];
455
456                 if (nid == 0xffff || nid >= MAX_NUMNODES)
457                         nid = default_nid;
458         }
459
460         return nid;
461 }
462
463 /*
464  * Figure out to which domain a cpu belongs and stick it there.
465  * Return the id of the domain used.
466  */
467 static int __cpuinit numa_setup_cpu(unsigned long lcpu)
468 {
469         int nid = 0;
470         struct device_node *cpu = find_cpu_node(lcpu);
471
472         if (!cpu) {
473                 WARN_ON(1);
474                 goto out;
475         }
476
477         nid = of_node_to_nid_single(cpu);
478
479         if (nid < 0 || !node_online(nid))
480                 nid = any_online_node(NODE_MASK_ALL);
481 out:
482         map_cpu_to_node(lcpu, nid);
483
484         of_node_put(cpu);
485
486         return nid;
487 }
488
489 static int __cpuinit cpu_numa_callback(struct notifier_block *nfb,
490                              unsigned long action,
491                              void *hcpu)
492 {
493         unsigned long lcpu = (unsigned long)hcpu;
494         int ret = NOTIFY_DONE;
495
496         switch (action) {
497         case CPU_UP_PREPARE:
498         case CPU_UP_PREPARE_FROZEN:
499                 numa_setup_cpu(lcpu);
500                 ret = NOTIFY_OK;
501                 break;
502 #ifdef CONFIG_HOTPLUG_CPU
503         case CPU_DEAD:
504         case CPU_DEAD_FROZEN:
505         case CPU_UP_CANCELED:
506         case CPU_UP_CANCELED_FROZEN:
507                 unmap_cpu_from_node(lcpu);
508                 break;
509                 ret = NOTIFY_OK;
510 #endif
511         }
512         return ret;
513 }
514
515 /*
516  * Check and possibly modify a memory region to enforce the memory limit.
517  *
518  * Returns the size the region should have to enforce the memory limit.
519  * This will either be the original value of size, a truncated value,
520  * or zero. If the returned value of size is 0 the region should be
521  * discarded as it lies wholy above the memory limit.
522  */
523 static unsigned long __init numa_enforce_memory_limit(unsigned long start,
524                                                       unsigned long size)
525 {
526         /*
527          * We use lmb_end_of_DRAM() in here instead of memory_limit because
528          * we've already adjusted it for the limit and it takes care of
529          * having memory holes below the limit.
530          */
531
532         if (! memory_limit)
533                 return size;
534
535         if (start + size <= lmb_end_of_DRAM())
536                 return size;
537
538         if (start >= lmb_end_of_DRAM())
539                 return 0;
540
541         return lmb_end_of_DRAM() - start;
542 }
543
544 /*
545  * Reads the counter for a given entry in
546  * linux,drconf-usable-memory property
547  */
548 static inline int __init read_usm_ranges(const u32 **usm)
549 {
550         /*
551          * For each lmb in ibm,dynamic-memory a corresponding
552          * entry in linux,drconf-usable-memory property contains
553          * a counter followed by that many (base, size) duple.
554          * read the counter from linux,drconf-usable-memory
555          */
556         return read_n_cells(n_mem_size_cells, usm);
557 }
558
559 /*
560  * Extract NUMA information from the ibm,dynamic-reconfiguration-memory
561  * node.  This assumes n_mem_{addr,size}_cells have been set.
562  */
563 static void __init parse_drconf_memory(struct device_node *memory)
564 {
565         const u32 *dm, *usm;
566         unsigned int n, rc, ranges, is_kexec_kdump = 0;
567         unsigned long lmb_size, base, size, sz;
568         int nid;
569         struct assoc_arrays aa;
570
571         n = of_get_drconf_memory(memory, &dm);
572         if (!n)
573                 return;
574
575         lmb_size = of_get_lmb_size(memory);
576         if (!lmb_size)
577                 return;
578
579         rc = of_get_assoc_arrays(memory, &aa);
580         if (rc)
581                 return;
582
583         /* check if this is a kexec/kdump kernel */
584         usm = of_get_usable_memory(memory);
585         if (usm != NULL)
586                 is_kexec_kdump = 1;
587
588         for (; n != 0; --n) {
589                 struct of_drconf_cell drmem;
590
591                 read_drconf_cell(&drmem, &dm);
592
593                 /* skip this block if the reserved bit is set in flags (0x80)
594                    or if the block is not assigned to this partition (0x8) */
595                 if ((drmem.flags & DRCONF_MEM_RESERVED)
596                     || !(drmem.flags & DRCONF_MEM_ASSIGNED))
597                         continue;
598
599                 base = drmem.base_addr;
600                 size = lmb_size;
601                 ranges = 1;
602
603                 if (is_kexec_kdump) {
604                         ranges = read_usm_ranges(&usm);
605                         if (!ranges) /* there are no (base, size) duple */
606                                 continue;
607                 }
608                 do {
609                         if (is_kexec_kdump) {
610                                 base = read_n_cells(n_mem_addr_cells, &usm);
611                                 size = read_n_cells(n_mem_size_cells, &usm);
612                         }
613                         nid = of_drconf_to_nid_single(&drmem, &aa);
614                         fake_numa_create_new_node(
615                                 ((base + size) >> PAGE_SHIFT),
616                                            &nid);
617                         node_set_online(nid);
618                         sz = numa_enforce_memory_limit(base, size);
619                         if (sz)
620                                 add_active_range(nid, base >> PAGE_SHIFT,
621                                                  (base >> PAGE_SHIFT)
622                                                  + (sz >> PAGE_SHIFT));
623                 } while (--ranges);
624         }
625 }
626
627 static int __init parse_numa_properties(void)
628 {
629         struct device_node *cpu = NULL;
630         struct device_node *memory = NULL;
631         int default_nid = 0;
632         unsigned long i;
633
634         if (numa_enabled == 0) {
635                 printk(KERN_WARNING "NUMA disabled by user\n");
636                 return -1;
637         }
638
639         min_common_depth = find_min_common_depth();
640
641         if (min_common_depth < 0)
642                 return min_common_depth;
643
644         dbg("NUMA associativity depth for CPU/Memory: %d\n", min_common_depth);
645
646         /*
647          * Even though we connect cpus to numa domains later in SMP
648          * init, we need to know the node ids now. This is because
649          * each node to be onlined must have NODE_DATA etc backing it.
650          */
651         for_each_present_cpu(i) {
652                 int nid;
653
654                 cpu = find_cpu_node(i);
655                 BUG_ON(!cpu);
656                 nid = of_node_to_nid_single(cpu);
657                 of_node_put(cpu);
658
659                 /*
660                  * Don't fall back to default_nid yet -- we will plug
661                  * cpus into nodes once the memory scan has discovered
662                  * the topology.
663                  */
664                 if (nid < 0)
665                         continue;
666                 node_set_online(nid);
667         }
668
669         get_n_mem_cells(&n_mem_addr_cells, &n_mem_size_cells);
670         memory = NULL;
671         while ((memory = of_find_node_by_type(memory, "memory")) != NULL) {
672                 unsigned long start;
673                 unsigned long size;
674                 int nid;
675                 int ranges;
676                 const unsigned int *memcell_buf;
677                 unsigned int len;
678
679                 memcell_buf = of_get_property(memory,
680                         "linux,usable-memory", &len);
681                 if (!memcell_buf || len <= 0)
682                         memcell_buf = of_get_property(memory, "reg", &len);
683                 if (!memcell_buf || len <= 0)
684                         continue;
685
686                 /* ranges in cell */
687                 ranges = (len >> 2) / (n_mem_addr_cells + n_mem_size_cells);
688 new_range:
689                 /* these are order-sensitive, and modify the buffer pointer */
690                 start = read_n_cells(n_mem_addr_cells, &memcell_buf);
691                 size = read_n_cells(n_mem_size_cells, &memcell_buf);
692
693                 /*
694                  * Assumption: either all memory nodes or none will
695                  * have associativity properties.  If none, then
696                  * everything goes to default_nid.
697                  */
698                 nid = of_node_to_nid_single(memory);
699                 if (nid < 0)
700                         nid = default_nid;
701
702                 fake_numa_create_new_node(((start + size) >> PAGE_SHIFT), &nid);
703                 node_set_online(nid);
704
705                 if (!(size = numa_enforce_memory_limit(start, size))) {
706                         if (--ranges)
707                                 goto new_range;
708                         else
709                                 continue;
710                 }
711
712                 add_active_range(nid, start >> PAGE_SHIFT,
713                                 (start >> PAGE_SHIFT) + (size >> PAGE_SHIFT));
714
715                 if (--ranges)
716                         goto new_range;
717         }
718
719         /*
720          * Now do the same thing for each LMB listed in the ibm,dynamic-memory
721          * property in the ibm,dynamic-reconfiguration-memory node.
722          */
723         memory = of_find_node_by_path("/ibm,dynamic-reconfiguration-memory");
724         if (memory)
725                 parse_drconf_memory(memory);
726
727         return 0;
728 }
729
730 static void __init setup_nonnuma(void)
731 {
732         unsigned long top_of_ram = lmb_end_of_DRAM();
733         unsigned long total_ram = lmb_phys_mem_size();
734         unsigned long start_pfn, end_pfn;
735         unsigned int i, nid = 0;
736
737         printk(KERN_DEBUG "Top of RAM: 0x%lx, Total RAM: 0x%lx\n",
738                top_of_ram, total_ram);
739         printk(KERN_DEBUG "Memory hole size: %ldMB\n",
740                (top_of_ram - total_ram) >> 20);
741
742         for (i = 0; i < lmb.memory.cnt; ++i) {
743                 start_pfn = lmb.memory.region[i].base >> PAGE_SHIFT;
744                 end_pfn = start_pfn + lmb_size_pages(&lmb.memory, i);
745
746                 fake_numa_create_new_node(end_pfn, &nid);
747                 add_active_range(nid, start_pfn, end_pfn);
748                 node_set_online(nid);
749         }
750 }
751
752 void __init dump_numa_cpu_topology(void)
753 {
754         unsigned int node;
755         unsigned int cpu, count;
756
757         if (min_common_depth == -1 || !numa_enabled)
758                 return;
759
760         for_each_online_node(node) {
761                 printk(KERN_DEBUG "Node %d CPUs:", node);
762
763                 count = 0;
764                 /*
765                  * If we used a CPU iterator here we would miss printing
766                  * the holes in the cpumap.
767                  */
768                 for (cpu = 0; cpu < NR_CPUS; cpu++) {
769                         if (cpu_isset(cpu, numa_cpumask_lookup_table[node])) {
770                                 if (count == 0)
771                                         printk(" %u", cpu);
772                                 ++count;
773                         } else {
774                                 if (count > 1)
775                                         printk("-%u", cpu - 1);
776                                 count = 0;
777                         }
778                 }
779
780                 if (count > 1)
781                         printk("-%u", NR_CPUS - 1);
782                 printk("\n");
783         }
784 }
785
786 static void __init dump_numa_memory_topology(void)
787 {
788         unsigned int node;
789         unsigned int count;
790
791         if (min_common_depth == -1 || !numa_enabled)
792                 return;
793
794         for_each_online_node(node) {
795                 unsigned long i;
796
797                 printk(KERN_DEBUG "Node %d Memory:", node);
798
799                 count = 0;
800
801                 for (i = 0; i < lmb_end_of_DRAM();
802                      i += (1 << SECTION_SIZE_BITS)) {
803                         if (early_pfn_to_nid(i >> PAGE_SHIFT) == node) {
804                                 if (count == 0)
805                                         printk(" 0x%lx", i);
806                                 ++count;
807                         } else {
808                                 if (count > 0)
809                                         printk("-0x%lx", i);
810                                 count = 0;
811                         }
812                 }
813
814                 if (count > 0)
815                         printk("-0x%lx", i);
816                 printk("\n");
817         }
818 }
819
820 /*
821  * Allocate some memory, satisfying the lmb or bootmem allocator where
822  * required. nid is the preferred node and end is the physical address of
823  * the highest address in the node.
824  *
825  * Returns the physical address of the memory.
826  */
827 static void __init *careful_allocation(int nid, unsigned long size,
828                                        unsigned long align,
829                                        unsigned long end_pfn)
830 {
831         int new_nid;
832         unsigned long ret = __lmb_alloc_base(size, align, end_pfn << PAGE_SHIFT);
833
834         /* retry over all memory */
835         if (!ret)
836                 ret = __lmb_alloc_base(size, align, lmb_end_of_DRAM());
837
838         if (!ret)
839                 panic("numa.c: cannot allocate %lu bytes on node %d",
840                       size, nid);
841
842         /*
843          * If the memory came from a previously allocated node, we must
844          * retry with the bootmem allocator.
845          */
846         new_nid = early_pfn_to_nid(ret >> PAGE_SHIFT);
847         if (new_nid < nid) {
848                 ret = (unsigned long)__alloc_bootmem_node(NODE_DATA(new_nid),
849                                 size, align, 0);
850
851                 if (!ret)
852                         panic("numa.c: cannot allocate %lu bytes on node %d",
853                               size, new_nid);
854
855                 ret = __pa(ret);
856
857                 dbg("alloc_bootmem %lx %lx\n", ret, size);
858         }
859
860         return (void *)ret;
861 }
862
863 static struct notifier_block __cpuinitdata ppc64_numa_nb = {
864         .notifier_call = cpu_numa_callback,
865         .priority = 1 /* Must run before sched domains notifier. */
866 };
867
868 void __init do_init_bootmem(void)
869 {
870         int nid;
871         unsigned int i;
872
873         min_low_pfn = 0;
874         max_low_pfn = lmb_end_of_DRAM() >> PAGE_SHIFT;
875         max_pfn = max_low_pfn;
876
877         if (parse_numa_properties())
878                 setup_nonnuma();
879         else
880                 dump_numa_memory_topology();
881
882         register_cpu_notifier(&ppc64_numa_nb);
883         cpu_numa_callback(&ppc64_numa_nb, CPU_UP_PREPARE,
884                           (void *)(unsigned long)boot_cpuid);
885
886         for_each_online_node(nid) {
887                 unsigned long start_pfn, end_pfn;
888                 unsigned long bootmem_paddr;
889                 unsigned long bootmap_pages;
890
891                 get_pfn_range_for_nid(nid, &start_pfn, &end_pfn);
892
893                 /* Allocate the node structure node local if possible */
894                 NODE_DATA(nid) = careful_allocation(nid,
895                                         sizeof(struct pglist_data),
896                                         SMP_CACHE_BYTES, end_pfn);
897                 NODE_DATA(nid) = __va(NODE_DATA(nid));
898                 memset(NODE_DATA(nid), 0, sizeof(struct pglist_data));
899
900                 dbg("node %d\n", nid);
901                 dbg("NODE_DATA() = %p\n", NODE_DATA(nid));
902
903                 NODE_DATA(nid)->bdata = &bootmem_node_data[nid];
904                 NODE_DATA(nid)->node_start_pfn = start_pfn;
905                 NODE_DATA(nid)->node_spanned_pages = end_pfn - start_pfn;
906
907                 if (NODE_DATA(nid)->node_spanned_pages == 0)
908                         continue;
909
910                 dbg("start_paddr = %lx\n", start_pfn << PAGE_SHIFT);
911                 dbg("end_paddr = %lx\n", end_pfn << PAGE_SHIFT);
912
913                 bootmap_pages = bootmem_bootmap_pages(end_pfn - start_pfn);
914                 bootmem_paddr = (unsigned long)careful_allocation(nid,
915                                         bootmap_pages << PAGE_SHIFT,
916                                         PAGE_SIZE, end_pfn);
917                 memset(__va(bootmem_paddr), 0, bootmap_pages << PAGE_SHIFT);
918
919                 dbg("bootmap_paddr = %lx\n", bootmem_paddr);
920
921                 init_bootmem_node(NODE_DATA(nid), bootmem_paddr >> PAGE_SHIFT,
922                                   start_pfn, end_pfn);
923
924                 free_bootmem_with_active_regions(nid, end_pfn);
925         }
926
927         /* Mark reserved regions */
928         for (i = 0; i < lmb.reserved.cnt; i++) {
929                 unsigned long physbase = lmb.reserved.region[i].base;
930                 unsigned long size = lmb.reserved.region[i].size;
931                 unsigned long start_pfn = physbase >> PAGE_SHIFT;
932                 unsigned long end_pfn = ((physbase + size) >> PAGE_SHIFT);
933                 struct node_active_region node_ar;
934
935                 get_node_active_region(start_pfn, &node_ar);
936                 while (start_pfn < end_pfn) {
937                         /*
938                          * if reserved region extends past active region
939                          * then trim size to active region
940                          */
941                         if (end_pfn > node_ar.end_pfn)
942                                 size = (node_ar.end_pfn << PAGE_SHIFT)
943                                         - (start_pfn << PAGE_SHIFT);
944                         dbg("reserve_bootmem %lx %lx nid=%d\n", physbase, size,
945                                 node_ar.nid);
946                         reserve_bootmem_node(NODE_DATA(node_ar.nid), physbase,
947                                                 size, BOOTMEM_DEFAULT);
948                         /*
949                          * if reserved region is contained in the active region
950                          * then done.
951                          */
952                         if (end_pfn <= node_ar.end_pfn)
953                                 break;
954
955                         /*
956                          * reserved region extends past the active region
957                          *   get next active region that contains this
958                          *   reserved region
959                          */
960                         start_pfn = node_ar.end_pfn;
961                         physbase = start_pfn << PAGE_SHIFT;
962                         get_node_active_region(start_pfn, &node_ar);
963                 }
964
965         }
966
967         for_each_online_node(nid)
968                 sparse_memory_present_with_active_regions(nid);
969 }
970
971 void __init paging_init(void)
972 {
973         unsigned long max_zone_pfns[MAX_NR_ZONES];
974         memset(max_zone_pfns, 0, sizeof(max_zone_pfns));
975         max_zone_pfns[ZONE_DMA] = lmb_end_of_DRAM() >> PAGE_SHIFT;
976         free_area_init_nodes(max_zone_pfns);
977 }
978
979 static int __init early_numa(char *p)
980 {
981         if (!p)
982                 return 0;
983
984         if (strstr(p, "off"))
985                 numa_enabled = 0;
986
987         if (strstr(p, "debug"))
988                 numa_debug = 1;
989
990         p = strstr(p, "fake=");
991         if (p)
992                 cmdline = p + strlen("fake=");
993
994         return 0;
995 }
996 early_param("numa", early_numa);
997
998 #ifdef CONFIG_MEMORY_HOTPLUG
999 /*
1000  * Validate the node associated with the memory section we are
1001  * trying to add.
1002  */
1003 int valid_hot_add_scn(int *nid, unsigned long start, u32 lmb_size,
1004                       unsigned long scn_addr)
1005 {
1006         nodemask_t nodes;
1007
1008         if (*nid < 0 || !node_online(*nid))
1009                 *nid = any_online_node(NODE_MASK_ALL);
1010
1011         if ((scn_addr >= start) && (scn_addr < (start + lmb_size))) {
1012                 nodes_setall(nodes);
1013                 while (NODE_DATA(*nid)->node_spanned_pages == 0) {
1014                         node_clear(*nid, nodes);
1015                         *nid = any_online_node(nodes);
1016                 }
1017
1018                 return 1;
1019         }
1020
1021         return 0;
1022 }
1023
1024 /*
1025  * Find the node associated with a hot added memory section represented
1026  * by the ibm,dynamic-reconfiguration-memory node.
1027  */
1028 static int hot_add_drconf_scn_to_nid(struct device_node *memory,
1029                                      unsigned long scn_addr)
1030 {
1031         const u32 *dm;
1032         unsigned int n, rc;
1033         unsigned long lmb_size;
1034         int default_nid = any_online_node(NODE_MASK_ALL);
1035         int nid;
1036         struct assoc_arrays aa;
1037
1038         n = of_get_drconf_memory(memory, &dm);
1039         if (!n)
1040                 return default_nid;;
1041
1042         lmb_size = of_get_lmb_size(memory);
1043         if (!lmb_size)
1044                 return default_nid;
1045
1046         rc = of_get_assoc_arrays(memory, &aa);
1047         if (rc)
1048                 return default_nid;
1049
1050         for (; n != 0; --n) {
1051                 struct of_drconf_cell drmem;
1052
1053                 read_drconf_cell(&drmem, &dm);
1054
1055                 /* skip this block if it is reserved or not assigned to
1056                  * this partition */
1057                 if ((drmem.flags & DRCONF_MEM_RESERVED)
1058                     || !(drmem.flags & DRCONF_MEM_ASSIGNED))
1059                         continue;
1060
1061                 nid = of_drconf_to_nid_single(&drmem, &aa);
1062
1063                 if (valid_hot_add_scn(&nid, drmem.base_addr, lmb_size,
1064                                       scn_addr))
1065                         return nid;
1066         }
1067
1068         BUG();  /* section address should be found above */
1069         return 0;
1070 }
1071
1072 /*
1073  * Find the node associated with a hot added memory section.  Section
1074  * corresponds to a SPARSEMEM section, not an LMB.  It is assumed that
1075  * sections are fully contained within a single LMB.
1076  */
1077 int hot_add_scn_to_nid(unsigned long scn_addr)
1078 {
1079         struct device_node *memory = NULL;
1080         int nid;
1081
1082         if (!numa_enabled || (min_common_depth < 0))
1083                 return any_online_node(NODE_MASK_ALL);
1084
1085         memory = of_find_node_by_path("/ibm,dynamic-reconfiguration-memory");
1086         if (memory) {
1087                 nid = hot_add_drconf_scn_to_nid(memory, scn_addr);
1088                 of_node_put(memory);
1089                 return nid;
1090         }
1091
1092         while ((memory = of_find_node_by_type(memory, "memory")) != NULL) {
1093                 unsigned long start, size;
1094                 int ranges;
1095                 const unsigned int *memcell_buf;
1096                 unsigned int len;
1097
1098                 memcell_buf = of_get_property(memory, "reg", &len);
1099                 if (!memcell_buf || len <= 0)
1100                         continue;
1101
1102                 /* ranges in cell */
1103                 ranges = (len >> 2) / (n_mem_addr_cells + n_mem_size_cells);
1104 ha_new_range:
1105                 start = read_n_cells(n_mem_addr_cells, &memcell_buf);
1106                 size = read_n_cells(n_mem_size_cells, &memcell_buf);
1107                 nid = of_node_to_nid_single(memory);
1108
1109                 if (valid_hot_add_scn(&nid, start, size, scn_addr)) {
1110                         of_node_put(memory);
1111                         return nid;
1112                 }
1113
1114                 if (--ranges)           /* process all ranges in cell */
1115                         goto ha_new_range;
1116         }
1117         BUG();  /* section address should be found above */
1118         return 0;
1119 }
1120 #endif /* CONFIG_MEMORY_HOTPLUG */