net: introduce IFF_UNICAST_FLT private flag
[pandora-kernel.git] / net / core / dev.c
1 /*
2  *      NET3    Protocol independent device support routines.
3  *
4  *              This program is free software; you can redistribute it and/or
5  *              modify it under the terms of the GNU General Public License
6  *              as published by the Free Software Foundation; either version
7  *              2 of the License, or (at your option) any later version.
8  *
9  *      Derived from the non IP parts of dev.c 1.0.19
10  *              Authors:        Ross Biro
11  *                              Fred N. van Kempen, <waltje@uWalt.NL.Mugnet.ORG>
12  *                              Mark Evans, <evansmp@uhura.aston.ac.uk>
13  *
14  *      Additional Authors:
15  *              Florian la Roche <rzsfl@rz.uni-sb.de>
16  *              Alan Cox <gw4pts@gw4pts.ampr.org>
17  *              David Hinds <dahinds@users.sourceforge.net>
18  *              Alexey Kuznetsov <kuznet@ms2.inr.ac.ru>
19  *              Adam Sulmicki <adam@cfar.umd.edu>
20  *              Pekka Riikonen <priikone@poesidon.pspt.fi>
21  *
22  *      Changes:
23  *              D.J. Barrow     :       Fixed bug where dev->refcnt gets set
24  *                                      to 2 if register_netdev gets called
25  *                                      before net_dev_init & also removed a
26  *                                      few lines of code in the process.
27  *              Alan Cox        :       device private ioctl copies fields back.
28  *              Alan Cox        :       Transmit queue code does relevant
29  *                                      stunts to keep the queue safe.
30  *              Alan Cox        :       Fixed double lock.
31  *              Alan Cox        :       Fixed promisc NULL pointer trap
32  *              ????????        :       Support the full private ioctl range
33  *              Alan Cox        :       Moved ioctl permission check into
34  *                                      drivers
35  *              Tim Kordas      :       SIOCADDMULTI/SIOCDELMULTI
36  *              Alan Cox        :       100 backlog just doesn't cut it when
37  *                                      you start doing multicast video 8)
38  *              Alan Cox        :       Rewrote net_bh and list manager.
39  *              Alan Cox        :       Fix ETH_P_ALL echoback lengths.
40  *              Alan Cox        :       Took out transmit every packet pass
41  *                                      Saved a few bytes in the ioctl handler
42  *              Alan Cox        :       Network driver sets packet type before
43  *                                      calling netif_rx. Saves a function
44  *                                      call a packet.
45  *              Alan Cox        :       Hashed net_bh()
46  *              Richard Kooijman:       Timestamp fixes.
47  *              Alan Cox        :       Wrong field in SIOCGIFDSTADDR
48  *              Alan Cox        :       Device lock protection.
49  *              Alan Cox        :       Fixed nasty side effect of device close
50  *                                      changes.
51  *              Rudi Cilibrasi  :       Pass the right thing to
52  *                                      set_mac_address()
53  *              Dave Miller     :       32bit quantity for the device lock to
54  *                                      make it work out on a Sparc.
55  *              Bjorn Ekwall    :       Added KERNELD hack.
56  *              Alan Cox        :       Cleaned up the backlog initialise.
57  *              Craig Metz      :       SIOCGIFCONF fix if space for under
58  *                                      1 device.
59  *          Thomas Bogendoerfer :       Return ENODEV for dev_open, if there
60  *                                      is no device open function.
61  *              Andi Kleen      :       Fix error reporting for SIOCGIFCONF
62  *          Michael Chastain    :       Fix signed/unsigned for SIOCGIFCONF
63  *              Cyrus Durgin    :       Cleaned for KMOD
64  *              Adam Sulmicki   :       Bug Fix : Network Device Unload
65  *                                      A network device unload needs to purge
66  *                                      the backlog queue.
67  *      Paul Rusty Russell      :       SIOCSIFNAME
68  *              Pekka Riikonen  :       Netdev boot-time settings code
69  *              Andrew Morton   :       Make unregister_netdevice wait
70  *                                      indefinitely on dev->refcnt
71  *              J Hadi Salim    :       - Backlog queue sampling
72  *                                      - netif_rx() feedback
73  */
74
75 #include <asm/uaccess.h>
76 #include <asm/system.h>
77 #include <linux/bitops.h>
78 #include <linux/capability.h>
79 #include <linux/cpu.h>
80 #include <linux/types.h>
81 #include <linux/kernel.h>
82 #include <linux/hash.h>
83 #include <linux/slab.h>
84 #include <linux/sched.h>
85 #include <linux/mutex.h>
86 #include <linux/string.h>
87 #include <linux/mm.h>
88 #include <linux/socket.h>
89 #include <linux/sockios.h>
90 #include <linux/errno.h>
91 #include <linux/interrupt.h>
92 #include <linux/if_ether.h>
93 #include <linux/netdevice.h>
94 #include <linux/etherdevice.h>
95 #include <linux/ethtool.h>
96 #include <linux/notifier.h>
97 #include <linux/skbuff.h>
98 #include <net/net_namespace.h>
99 #include <net/sock.h>
100 #include <linux/rtnetlink.h>
101 #include <linux/proc_fs.h>
102 #include <linux/seq_file.h>
103 #include <linux/stat.h>
104 #include <net/dst.h>
105 #include <net/pkt_sched.h>
106 #include <net/checksum.h>
107 #include <net/xfrm.h>
108 #include <linux/highmem.h>
109 #include <linux/init.h>
110 #include <linux/kmod.h>
111 #include <linux/module.h>
112 #include <linux/netpoll.h>
113 #include <linux/rcupdate.h>
114 #include <linux/delay.h>
115 #include <net/wext.h>
116 #include <net/iw_handler.h>
117 #include <asm/current.h>
118 #include <linux/audit.h>
119 #include <linux/dmaengine.h>
120 #include <linux/err.h>
121 #include <linux/ctype.h>
122 #include <linux/if_arp.h>
123 #include <linux/if_vlan.h>
124 #include <linux/ip.h>
125 #include <net/ip.h>
126 #include <linux/ipv6.h>
127 #include <linux/in.h>
128 #include <linux/jhash.h>
129 #include <linux/random.h>
130 #include <trace/events/napi.h>
131 #include <trace/events/net.h>
132 #include <trace/events/skb.h>
133 #include <linux/pci.h>
134 #include <linux/inetdevice.h>
135 #include <linux/cpu_rmap.h>
136 #include <linux/if_tunnel.h>
137
138 #include "net-sysfs.h"
139
140 /* Instead of increasing this, you should create a hash table. */
141 #define MAX_GRO_SKBS 8
142
143 /* This should be increased if a protocol with a bigger head is added. */
144 #define GRO_MAX_HEAD (MAX_HEADER + 128)
145
146 /*
147  *      The list of packet types we will receive (as opposed to discard)
148  *      and the routines to invoke.
149  *
150  *      Why 16. Because with 16 the only overlap we get on a hash of the
151  *      low nibble of the protocol value is RARP/SNAP/X.25.
152  *
153  *      NOTE:  That is no longer true with the addition of VLAN tags.  Not
154  *             sure which should go first, but I bet it won't make much
155  *             difference if we are running VLANs.  The good news is that
156  *             this protocol won't be in the list unless compiled in, so
157  *             the average user (w/out VLANs) will not be adversely affected.
158  *             --BLG
159  *
160  *              0800    IP
161  *              8100    802.1Q VLAN
162  *              0001    802.3
163  *              0002    AX.25
164  *              0004    802.2
165  *              8035    RARP
166  *              0005    SNAP
167  *              0805    X.25
168  *              0806    ARP
169  *              8137    IPX
170  *              0009    Localtalk
171  *              86DD    IPv6
172  */
173
174 #define PTYPE_HASH_SIZE (16)
175 #define PTYPE_HASH_MASK (PTYPE_HASH_SIZE - 1)
176
177 static DEFINE_SPINLOCK(ptype_lock);
178 static struct list_head ptype_base[PTYPE_HASH_SIZE] __read_mostly;
179 static struct list_head ptype_all __read_mostly;        /* Taps */
180
181 /*
182  * The @dev_base_head list is protected by @dev_base_lock and the rtnl
183  * semaphore.
184  *
185  * Pure readers hold dev_base_lock for reading, or rcu_read_lock()
186  *
187  * Writers must hold the rtnl semaphore while they loop through the
188  * dev_base_head list, and hold dev_base_lock for writing when they do the
189  * actual updates.  This allows pure readers to access the list even
190  * while a writer is preparing to update it.
191  *
192  * To put it another way, dev_base_lock is held for writing only to
193  * protect against pure readers; the rtnl semaphore provides the
194  * protection against other writers.
195  *
196  * See, for example usages, register_netdevice() and
197  * unregister_netdevice(), which must be called with the rtnl
198  * semaphore held.
199  */
200 DEFINE_RWLOCK(dev_base_lock);
201 EXPORT_SYMBOL(dev_base_lock);
202
203 static inline void dev_base_seq_inc(struct net *net)
204 {
205         while (++net->dev_base_seq == 0);
206 }
207
208 static inline struct hlist_head *dev_name_hash(struct net *net, const char *name)
209 {
210         unsigned hash = full_name_hash(name, strnlen(name, IFNAMSIZ));
211         return &net->dev_name_head[hash_32(hash, NETDEV_HASHBITS)];
212 }
213
214 static inline struct hlist_head *dev_index_hash(struct net *net, int ifindex)
215 {
216         return &net->dev_index_head[ifindex & (NETDEV_HASHENTRIES - 1)];
217 }
218
219 static inline void rps_lock(struct softnet_data *sd)
220 {
221 #ifdef CONFIG_RPS
222         spin_lock(&sd->input_pkt_queue.lock);
223 #endif
224 }
225
226 static inline void rps_unlock(struct softnet_data *sd)
227 {
228 #ifdef CONFIG_RPS
229         spin_unlock(&sd->input_pkt_queue.lock);
230 #endif
231 }
232
233 /* Device list insertion */
234 static int list_netdevice(struct net_device *dev)
235 {
236         struct net *net = dev_net(dev);
237
238         ASSERT_RTNL();
239
240         write_lock_bh(&dev_base_lock);
241         list_add_tail_rcu(&dev->dev_list, &net->dev_base_head);
242         hlist_add_head_rcu(&dev->name_hlist, dev_name_hash(net, dev->name));
243         hlist_add_head_rcu(&dev->index_hlist,
244                            dev_index_hash(net, dev->ifindex));
245         write_unlock_bh(&dev_base_lock);
246
247         dev_base_seq_inc(net);
248
249         return 0;
250 }
251
252 /* Device list removal
253  * caller must respect a RCU grace period before freeing/reusing dev
254  */
255 static void unlist_netdevice(struct net_device *dev)
256 {
257         ASSERT_RTNL();
258
259         /* Unlink dev from the device chain */
260         write_lock_bh(&dev_base_lock);
261         list_del_rcu(&dev->dev_list);
262         hlist_del_rcu(&dev->name_hlist);
263         hlist_del_rcu(&dev->index_hlist);
264         write_unlock_bh(&dev_base_lock);
265
266         dev_base_seq_inc(dev_net(dev));
267 }
268
269 /*
270  *      Our notifier list
271  */
272
273 static RAW_NOTIFIER_HEAD(netdev_chain);
274
275 /*
276  *      Device drivers call our routines to queue packets here. We empty the
277  *      queue in the local softnet handler.
278  */
279
280 DEFINE_PER_CPU_ALIGNED(struct softnet_data, softnet_data);
281 EXPORT_PER_CPU_SYMBOL(softnet_data);
282
283 #ifdef CONFIG_LOCKDEP
284 /*
285  * register_netdevice() inits txq->_xmit_lock and sets lockdep class
286  * according to dev->type
287  */
288 static const unsigned short netdev_lock_type[] =
289         {ARPHRD_NETROM, ARPHRD_ETHER, ARPHRD_EETHER, ARPHRD_AX25,
290          ARPHRD_PRONET, ARPHRD_CHAOS, ARPHRD_IEEE802, ARPHRD_ARCNET,
291          ARPHRD_APPLETLK, ARPHRD_DLCI, ARPHRD_ATM, ARPHRD_METRICOM,
292          ARPHRD_IEEE1394, ARPHRD_EUI64, ARPHRD_INFINIBAND, ARPHRD_SLIP,
293          ARPHRD_CSLIP, ARPHRD_SLIP6, ARPHRD_CSLIP6, ARPHRD_RSRVD,
294          ARPHRD_ADAPT, ARPHRD_ROSE, ARPHRD_X25, ARPHRD_HWX25,
295          ARPHRD_PPP, ARPHRD_CISCO, ARPHRD_LAPB, ARPHRD_DDCMP,
296          ARPHRD_RAWHDLC, ARPHRD_TUNNEL, ARPHRD_TUNNEL6, ARPHRD_FRAD,
297          ARPHRD_SKIP, ARPHRD_LOOPBACK, ARPHRD_LOCALTLK, ARPHRD_FDDI,
298          ARPHRD_BIF, ARPHRD_SIT, ARPHRD_IPDDP, ARPHRD_IPGRE,
299          ARPHRD_PIMREG, ARPHRD_HIPPI, ARPHRD_ASH, ARPHRD_ECONET,
300          ARPHRD_IRDA, ARPHRD_FCPP, ARPHRD_FCAL, ARPHRD_FCPL,
301          ARPHRD_FCFABRIC, ARPHRD_IEEE802_TR, ARPHRD_IEEE80211,
302          ARPHRD_IEEE80211_PRISM, ARPHRD_IEEE80211_RADIOTAP, ARPHRD_PHONET,
303          ARPHRD_PHONET_PIPE, ARPHRD_IEEE802154,
304          ARPHRD_VOID, ARPHRD_NONE};
305
306 static const char *const netdev_lock_name[] =
307         {"_xmit_NETROM", "_xmit_ETHER", "_xmit_EETHER", "_xmit_AX25",
308          "_xmit_PRONET", "_xmit_CHAOS", "_xmit_IEEE802", "_xmit_ARCNET",
309          "_xmit_APPLETLK", "_xmit_DLCI", "_xmit_ATM", "_xmit_METRICOM",
310          "_xmit_IEEE1394", "_xmit_EUI64", "_xmit_INFINIBAND", "_xmit_SLIP",
311          "_xmit_CSLIP", "_xmit_SLIP6", "_xmit_CSLIP6", "_xmit_RSRVD",
312          "_xmit_ADAPT", "_xmit_ROSE", "_xmit_X25", "_xmit_HWX25",
313          "_xmit_PPP", "_xmit_CISCO", "_xmit_LAPB", "_xmit_DDCMP",
314          "_xmit_RAWHDLC", "_xmit_TUNNEL", "_xmit_TUNNEL6", "_xmit_FRAD",
315          "_xmit_SKIP", "_xmit_LOOPBACK", "_xmit_LOCALTLK", "_xmit_FDDI",
316          "_xmit_BIF", "_xmit_SIT", "_xmit_IPDDP", "_xmit_IPGRE",
317          "_xmit_PIMREG", "_xmit_HIPPI", "_xmit_ASH", "_xmit_ECONET",
318          "_xmit_IRDA", "_xmit_FCPP", "_xmit_FCAL", "_xmit_FCPL",
319          "_xmit_FCFABRIC", "_xmit_IEEE802_TR", "_xmit_IEEE80211",
320          "_xmit_IEEE80211_PRISM", "_xmit_IEEE80211_RADIOTAP", "_xmit_PHONET",
321          "_xmit_PHONET_PIPE", "_xmit_IEEE802154",
322          "_xmit_VOID", "_xmit_NONE"};
323
324 static struct lock_class_key netdev_xmit_lock_key[ARRAY_SIZE(netdev_lock_type)];
325 static struct lock_class_key netdev_addr_lock_key[ARRAY_SIZE(netdev_lock_type)];
326
327 static inline unsigned short netdev_lock_pos(unsigned short dev_type)
328 {
329         int i;
330
331         for (i = 0; i < ARRAY_SIZE(netdev_lock_type); i++)
332                 if (netdev_lock_type[i] == dev_type)
333                         return i;
334         /* the last key is used by default */
335         return ARRAY_SIZE(netdev_lock_type) - 1;
336 }
337
338 static inline void netdev_set_xmit_lockdep_class(spinlock_t *lock,
339                                                  unsigned short dev_type)
340 {
341         int i;
342
343         i = netdev_lock_pos(dev_type);
344         lockdep_set_class_and_name(lock, &netdev_xmit_lock_key[i],
345                                    netdev_lock_name[i]);
346 }
347
348 static inline void netdev_set_addr_lockdep_class(struct net_device *dev)
349 {
350         int i;
351
352         i = netdev_lock_pos(dev->type);
353         lockdep_set_class_and_name(&dev->addr_list_lock,
354                                    &netdev_addr_lock_key[i],
355                                    netdev_lock_name[i]);
356 }
357 #else
358 static inline void netdev_set_xmit_lockdep_class(spinlock_t *lock,
359                                                  unsigned short dev_type)
360 {
361 }
362 static inline void netdev_set_addr_lockdep_class(struct net_device *dev)
363 {
364 }
365 #endif
366
367 /*******************************************************************************
368
369                 Protocol management and registration routines
370
371 *******************************************************************************/
372
373 /*
374  *      Add a protocol ID to the list. Now that the input handler is
375  *      smarter we can dispense with all the messy stuff that used to be
376  *      here.
377  *
378  *      BEWARE!!! Protocol handlers, mangling input packets,
379  *      MUST BE last in hash buckets and checking protocol handlers
380  *      MUST start from promiscuous ptype_all chain in net_bh.
381  *      It is true now, do not change it.
382  *      Explanation follows: if protocol handler, mangling packet, will
383  *      be the first on list, it is not able to sense, that packet
384  *      is cloned and should be copied-on-write, so that it will
385  *      change it and subsequent readers will get broken packet.
386  *                                                      --ANK (980803)
387  */
388
389 static inline struct list_head *ptype_head(const struct packet_type *pt)
390 {
391         if (pt->type == htons(ETH_P_ALL))
392                 return &ptype_all;
393         else
394                 return &ptype_base[ntohs(pt->type) & PTYPE_HASH_MASK];
395 }
396
397 /**
398  *      dev_add_pack - add packet handler
399  *      @pt: packet type declaration
400  *
401  *      Add a protocol handler to the networking stack. The passed &packet_type
402  *      is linked into kernel lists and may not be freed until it has been
403  *      removed from the kernel lists.
404  *
405  *      This call does not sleep therefore it can not
406  *      guarantee all CPU's that are in middle of receiving packets
407  *      will see the new packet type (until the next received packet).
408  */
409
410 void dev_add_pack(struct packet_type *pt)
411 {
412         struct list_head *head = ptype_head(pt);
413
414         spin_lock(&ptype_lock);
415         list_add_rcu(&pt->list, head);
416         spin_unlock(&ptype_lock);
417 }
418 EXPORT_SYMBOL(dev_add_pack);
419
420 /**
421  *      __dev_remove_pack        - remove packet handler
422  *      @pt: packet type declaration
423  *
424  *      Remove a protocol handler that was previously added to the kernel
425  *      protocol handlers by dev_add_pack(). The passed &packet_type is removed
426  *      from the kernel lists and can be freed or reused once this function
427  *      returns.
428  *
429  *      The packet type might still be in use by receivers
430  *      and must not be freed until after all the CPU's have gone
431  *      through a quiescent state.
432  */
433 void __dev_remove_pack(struct packet_type *pt)
434 {
435         struct list_head *head = ptype_head(pt);
436         struct packet_type *pt1;
437
438         spin_lock(&ptype_lock);
439
440         list_for_each_entry(pt1, head, list) {
441                 if (pt == pt1) {
442                         list_del_rcu(&pt->list);
443                         goto out;
444                 }
445         }
446
447         printk(KERN_WARNING "dev_remove_pack: %p not found.\n", pt);
448 out:
449         spin_unlock(&ptype_lock);
450 }
451 EXPORT_SYMBOL(__dev_remove_pack);
452
453 /**
454  *      dev_remove_pack  - remove packet handler
455  *      @pt: packet type declaration
456  *
457  *      Remove a protocol handler that was previously added to the kernel
458  *      protocol handlers by dev_add_pack(). The passed &packet_type is removed
459  *      from the kernel lists and can be freed or reused once this function
460  *      returns.
461  *
462  *      This call sleeps to guarantee that no CPU is looking at the packet
463  *      type after return.
464  */
465 void dev_remove_pack(struct packet_type *pt)
466 {
467         __dev_remove_pack(pt);
468
469         synchronize_net();
470 }
471 EXPORT_SYMBOL(dev_remove_pack);
472
473 /******************************************************************************
474
475                       Device Boot-time Settings Routines
476
477 *******************************************************************************/
478
479 /* Boot time configuration table */
480 static struct netdev_boot_setup dev_boot_setup[NETDEV_BOOT_SETUP_MAX];
481
482 /**
483  *      netdev_boot_setup_add   - add new setup entry
484  *      @name: name of the device
485  *      @map: configured settings for the device
486  *
487  *      Adds new setup entry to the dev_boot_setup list.  The function
488  *      returns 0 on error and 1 on success.  This is a generic routine to
489  *      all netdevices.
490  */
491 static int netdev_boot_setup_add(char *name, struct ifmap *map)
492 {
493         struct netdev_boot_setup *s;
494         int i;
495
496         s = dev_boot_setup;
497         for (i = 0; i < NETDEV_BOOT_SETUP_MAX; i++) {
498                 if (s[i].name[0] == '\0' || s[i].name[0] == ' ') {
499                         memset(s[i].name, 0, sizeof(s[i].name));
500                         strlcpy(s[i].name, name, IFNAMSIZ);
501                         memcpy(&s[i].map, map, sizeof(s[i].map));
502                         break;
503                 }
504         }
505
506         return i >= NETDEV_BOOT_SETUP_MAX ? 0 : 1;
507 }
508
509 /**
510  *      netdev_boot_setup_check - check boot time settings
511  *      @dev: the netdevice
512  *
513  *      Check boot time settings for the device.
514  *      The found settings are set for the device to be used
515  *      later in the device probing.
516  *      Returns 0 if no settings found, 1 if they are.
517  */
518 int netdev_boot_setup_check(struct net_device *dev)
519 {
520         struct netdev_boot_setup *s = dev_boot_setup;
521         int i;
522
523         for (i = 0; i < NETDEV_BOOT_SETUP_MAX; i++) {
524                 if (s[i].name[0] != '\0' && s[i].name[0] != ' ' &&
525                     !strcmp(dev->name, s[i].name)) {
526                         dev->irq        = s[i].map.irq;
527                         dev->base_addr  = s[i].map.base_addr;
528                         dev->mem_start  = s[i].map.mem_start;
529                         dev->mem_end    = s[i].map.mem_end;
530                         return 1;
531                 }
532         }
533         return 0;
534 }
535 EXPORT_SYMBOL(netdev_boot_setup_check);
536
537
538 /**
539  *      netdev_boot_base        - get address from boot time settings
540  *      @prefix: prefix for network device
541  *      @unit: id for network device
542  *
543  *      Check boot time settings for the base address of device.
544  *      The found settings are set for the device to be used
545  *      later in the device probing.
546  *      Returns 0 if no settings found.
547  */
548 unsigned long netdev_boot_base(const char *prefix, int unit)
549 {
550         const struct netdev_boot_setup *s = dev_boot_setup;
551         char name[IFNAMSIZ];
552         int i;
553
554         sprintf(name, "%s%d", prefix, unit);
555
556         /*
557          * If device already registered then return base of 1
558          * to indicate not to probe for this interface
559          */
560         if (__dev_get_by_name(&init_net, name))
561                 return 1;
562
563         for (i = 0; i < NETDEV_BOOT_SETUP_MAX; i++)
564                 if (!strcmp(name, s[i].name))
565                         return s[i].map.base_addr;
566         return 0;
567 }
568
569 /*
570  * Saves at boot time configured settings for any netdevice.
571  */
572 int __init netdev_boot_setup(char *str)
573 {
574         int ints[5];
575         struct ifmap map;
576
577         str = get_options(str, ARRAY_SIZE(ints), ints);
578         if (!str || !*str)
579                 return 0;
580
581         /* Save settings */
582         memset(&map, 0, sizeof(map));
583         if (ints[0] > 0)
584                 map.irq = ints[1];
585         if (ints[0] > 1)
586                 map.base_addr = ints[2];
587         if (ints[0] > 2)
588                 map.mem_start = ints[3];
589         if (ints[0] > 3)
590                 map.mem_end = ints[4];
591
592         /* Add new entry to the list */
593         return netdev_boot_setup_add(str, &map);
594 }
595
596 __setup("netdev=", netdev_boot_setup);
597
598 /*******************************************************************************
599
600                             Device Interface Subroutines
601
602 *******************************************************************************/
603
604 /**
605  *      __dev_get_by_name       - find a device by its name
606  *      @net: the applicable net namespace
607  *      @name: name to find
608  *
609  *      Find an interface by name. Must be called under RTNL semaphore
610  *      or @dev_base_lock. If the name is found a pointer to the device
611  *      is returned. If the name is not found then %NULL is returned. The
612  *      reference counters are not incremented so the caller must be
613  *      careful with locks.
614  */
615
616 struct net_device *__dev_get_by_name(struct net *net, const char *name)
617 {
618         struct hlist_node *p;
619         struct net_device *dev;
620         struct hlist_head *head = dev_name_hash(net, name);
621
622         hlist_for_each_entry(dev, p, head, name_hlist)
623                 if (!strncmp(dev->name, name, IFNAMSIZ))
624                         return dev;
625
626         return NULL;
627 }
628 EXPORT_SYMBOL(__dev_get_by_name);
629
630 /**
631  *      dev_get_by_name_rcu     - find a device by its name
632  *      @net: the applicable net namespace
633  *      @name: name to find
634  *
635  *      Find an interface by name.
636  *      If the name is found a pointer to the device is returned.
637  *      If the name is not found then %NULL is returned.
638  *      The reference counters are not incremented so the caller must be
639  *      careful with locks. The caller must hold RCU lock.
640  */
641
642 struct net_device *dev_get_by_name_rcu(struct net *net, const char *name)
643 {
644         struct hlist_node *p;
645         struct net_device *dev;
646         struct hlist_head *head = dev_name_hash(net, name);
647
648         hlist_for_each_entry_rcu(dev, p, head, name_hlist)
649                 if (!strncmp(dev->name, name, IFNAMSIZ))
650                         return dev;
651
652         return NULL;
653 }
654 EXPORT_SYMBOL(dev_get_by_name_rcu);
655
656 /**
657  *      dev_get_by_name         - find a device by its name
658  *      @net: the applicable net namespace
659  *      @name: name to find
660  *
661  *      Find an interface by name. This can be called from any
662  *      context and does its own locking. The returned handle has
663  *      the usage count incremented and the caller must use dev_put() to
664  *      release it when it is no longer needed. %NULL is returned if no
665  *      matching device is found.
666  */
667
668 struct net_device *dev_get_by_name(struct net *net, const char *name)
669 {
670         struct net_device *dev;
671
672         rcu_read_lock();
673         dev = dev_get_by_name_rcu(net, name);
674         if (dev)
675                 dev_hold(dev);
676         rcu_read_unlock();
677         return dev;
678 }
679 EXPORT_SYMBOL(dev_get_by_name);
680
681 /**
682  *      __dev_get_by_index - find a device by its ifindex
683  *      @net: the applicable net namespace
684  *      @ifindex: index of device
685  *
686  *      Search for an interface by index. Returns %NULL if the device
687  *      is not found or a pointer to the device. The device has not
688  *      had its reference counter increased so the caller must be careful
689  *      about locking. The caller must hold either the RTNL semaphore
690  *      or @dev_base_lock.
691  */
692
693 struct net_device *__dev_get_by_index(struct net *net, int ifindex)
694 {
695         struct hlist_node *p;
696         struct net_device *dev;
697         struct hlist_head *head = dev_index_hash(net, ifindex);
698
699         hlist_for_each_entry(dev, p, head, index_hlist)
700                 if (dev->ifindex == ifindex)
701                         return dev;
702
703         return NULL;
704 }
705 EXPORT_SYMBOL(__dev_get_by_index);
706
707 /**
708  *      dev_get_by_index_rcu - find a device by its ifindex
709  *      @net: the applicable net namespace
710  *      @ifindex: index of device
711  *
712  *      Search for an interface by index. Returns %NULL if the device
713  *      is not found or a pointer to the device. The device has not
714  *      had its reference counter increased so the caller must be careful
715  *      about locking. The caller must hold RCU lock.
716  */
717
718 struct net_device *dev_get_by_index_rcu(struct net *net, int ifindex)
719 {
720         struct hlist_node *p;
721         struct net_device *dev;
722         struct hlist_head *head = dev_index_hash(net, ifindex);
723
724         hlist_for_each_entry_rcu(dev, p, head, index_hlist)
725                 if (dev->ifindex == ifindex)
726                         return dev;
727
728         return NULL;
729 }
730 EXPORT_SYMBOL(dev_get_by_index_rcu);
731
732
733 /**
734  *      dev_get_by_index - find a device by its ifindex
735  *      @net: the applicable net namespace
736  *      @ifindex: index of device
737  *
738  *      Search for an interface by index. Returns NULL if the device
739  *      is not found or a pointer to the device. The device returned has
740  *      had a reference added and the pointer is safe until the user calls
741  *      dev_put to indicate they have finished with it.
742  */
743
744 struct net_device *dev_get_by_index(struct net *net, int ifindex)
745 {
746         struct net_device *dev;
747
748         rcu_read_lock();
749         dev = dev_get_by_index_rcu(net, ifindex);
750         if (dev)
751                 dev_hold(dev);
752         rcu_read_unlock();
753         return dev;
754 }
755 EXPORT_SYMBOL(dev_get_by_index);
756
757 /**
758  *      dev_getbyhwaddr_rcu - find a device by its hardware address
759  *      @net: the applicable net namespace
760  *      @type: media type of device
761  *      @ha: hardware address
762  *
763  *      Search for an interface by MAC address. Returns NULL if the device
764  *      is not found or a pointer to the device.
765  *      The caller must hold RCU or RTNL.
766  *      The returned device has not had its ref count increased
767  *      and the caller must therefore be careful about locking
768  *
769  */
770
771 struct net_device *dev_getbyhwaddr_rcu(struct net *net, unsigned short type,
772                                        const char *ha)
773 {
774         struct net_device *dev;
775
776         for_each_netdev_rcu(net, dev)
777                 if (dev->type == type &&
778                     !memcmp(dev->dev_addr, ha, dev->addr_len))
779                         return dev;
780
781         return NULL;
782 }
783 EXPORT_SYMBOL(dev_getbyhwaddr_rcu);
784
785 struct net_device *__dev_getfirstbyhwtype(struct net *net, unsigned short type)
786 {
787         struct net_device *dev;
788
789         ASSERT_RTNL();
790         for_each_netdev(net, dev)
791                 if (dev->type == type)
792                         return dev;
793
794         return NULL;
795 }
796 EXPORT_SYMBOL(__dev_getfirstbyhwtype);
797
798 struct net_device *dev_getfirstbyhwtype(struct net *net, unsigned short type)
799 {
800         struct net_device *dev, *ret = NULL;
801
802         rcu_read_lock();
803         for_each_netdev_rcu(net, dev)
804                 if (dev->type == type) {
805                         dev_hold(dev);
806                         ret = dev;
807                         break;
808                 }
809         rcu_read_unlock();
810         return ret;
811 }
812 EXPORT_SYMBOL(dev_getfirstbyhwtype);
813
814 /**
815  *      dev_get_by_flags_rcu - find any device with given flags
816  *      @net: the applicable net namespace
817  *      @if_flags: IFF_* values
818  *      @mask: bitmask of bits in if_flags to check
819  *
820  *      Search for any interface with the given flags. Returns NULL if a device
821  *      is not found or a pointer to the device. Must be called inside
822  *      rcu_read_lock(), and result refcount is unchanged.
823  */
824
825 struct net_device *dev_get_by_flags_rcu(struct net *net, unsigned short if_flags,
826                                     unsigned short mask)
827 {
828         struct net_device *dev, *ret;
829
830         ret = NULL;
831         for_each_netdev_rcu(net, dev) {
832                 if (((dev->flags ^ if_flags) & mask) == 0) {
833                         ret = dev;
834                         break;
835                 }
836         }
837         return ret;
838 }
839 EXPORT_SYMBOL(dev_get_by_flags_rcu);
840
841 /**
842  *      dev_valid_name - check if name is okay for network device
843  *      @name: name string
844  *
845  *      Network device names need to be valid file names to
846  *      to allow sysfs to work.  We also disallow any kind of
847  *      whitespace.
848  */
849 int dev_valid_name(const char *name)
850 {
851         if (*name == '\0')
852                 return 0;
853         if (strlen(name) >= IFNAMSIZ)
854                 return 0;
855         if (!strcmp(name, ".") || !strcmp(name, ".."))
856                 return 0;
857
858         while (*name) {
859                 if (*name == '/' || isspace(*name))
860                         return 0;
861                 name++;
862         }
863         return 1;
864 }
865 EXPORT_SYMBOL(dev_valid_name);
866
867 /**
868  *      __dev_alloc_name - allocate a name for a device
869  *      @net: network namespace to allocate the device name in
870  *      @name: name format string
871  *      @buf:  scratch buffer and result name string
872  *
873  *      Passed a format string - eg "lt%d" it will try and find a suitable
874  *      id. It scans list of devices to build up a free map, then chooses
875  *      the first empty slot. The caller must hold the dev_base or rtnl lock
876  *      while allocating the name and adding the device in order to avoid
877  *      duplicates.
878  *      Limited to bits_per_byte * page size devices (ie 32K on most platforms).
879  *      Returns the number of the unit assigned or a negative errno code.
880  */
881
882 static int __dev_alloc_name(struct net *net, const char *name, char *buf)
883 {
884         int i = 0;
885         const char *p;
886         const int max_netdevices = 8*PAGE_SIZE;
887         unsigned long *inuse;
888         struct net_device *d;
889
890         p = strnchr(name, IFNAMSIZ-1, '%');
891         if (p) {
892                 /*
893                  * Verify the string as this thing may have come from
894                  * the user.  There must be either one "%d" and no other "%"
895                  * characters.
896                  */
897                 if (p[1] != 'd' || strchr(p + 2, '%'))
898                         return -EINVAL;
899
900                 /* Use one page as a bit array of possible slots */
901                 inuse = (unsigned long *) get_zeroed_page(GFP_ATOMIC);
902                 if (!inuse)
903                         return -ENOMEM;
904
905                 for_each_netdev(net, d) {
906                         if (!sscanf(d->name, name, &i))
907                                 continue;
908                         if (i < 0 || i >= max_netdevices)
909                                 continue;
910
911                         /*  avoid cases where sscanf is not exact inverse of printf */
912                         snprintf(buf, IFNAMSIZ, name, i);
913                         if (!strncmp(buf, d->name, IFNAMSIZ))
914                                 set_bit(i, inuse);
915                 }
916
917                 i = find_first_zero_bit(inuse, max_netdevices);
918                 free_page((unsigned long) inuse);
919         }
920
921         if (buf != name)
922                 snprintf(buf, IFNAMSIZ, name, i);
923         if (!__dev_get_by_name(net, buf))
924                 return i;
925
926         /* It is possible to run out of possible slots
927          * when the name is long and there isn't enough space left
928          * for the digits, or if all bits are used.
929          */
930         return -ENFILE;
931 }
932
933 /**
934  *      dev_alloc_name - allocate a name for a device
935  *      @dev: device
936  *      @name: name format string
937  *
938  *      Passed a format string - eg "lt%d" it will try and find a suitable
939  *      id. It scans list of devices to build up a free map, then chooses
940  *      the first empty slot. The caller must hold the dev_base or rtnl lock
941  *      while allocating the name and adding the device in order to avoid
942  *      duplicates.
943  *      Limited to bits_per_byte * page size devices (ie 32K on most platforms).
944  *      Returns the number of the unit assigned or a negative errno code.
945  */
946
947 int dev_alloc_name(struct net_device *dev, const char *name)
948 {
949         char buf[IFNAMSIZ];
950         struct net *net;
951         int ret;
952
953         BUG_ON(!dev_net(dev));
954         net = dev_net(dev);
955         ret = __dev_alloc_name(net, name, buf);
956         if (ret >= 0)
957                 strlcpy(dev->name, buf, IFNAMSIZ);
958         return ret;
959 }
960 EXPORT_SYMBOL(dev_alloc_name);
961
962 static int dev_get_valid_name(struct net_device *dev, const char *name)
963 {
964         struct net *net;
965
966         BUG_ON(!dev_net(dev));
967         net = dev_net(dev);
968
969         if (!dev_valid_name(name))
970                 return -EINVAL;
971
972         if (strchr(name, '%'))
973                 return dev_alloc_name(dev, name);
974         else if (__dev_get_by_name(net, name))
975                 return -EEXIST;
976         else if (dev->name != name)
977                 strlcpy(dev->name, name, IFNAMSIZ);
978
979         return 0;
980 }
981
982 /**
983  *      dev_change_name - change name of a device
984  *      @dev: device
985  *      @newname: name (or format string) must be at least IFNAMSIZ
986  *
987  *      Change name of a device, can pass format strings "eth%d".
988  *      for wildcarding.
989  */
990 int dev_change_name(struct net_device *dev, const char *newname)
991 {
992         char oldname[IFNAMSIZ];
993         int err = 0;
994         int ret;
995         struct net *net;
996
997         ASSERT_RTNL();
998         BUG_ON(!dev_net(dev));
999
1000         net = dev_net(dev);
1001         if (dev->flags & IFF_UP)
1002                 return -EBUSY;
1003
1004         if (strncmp(newname, dev->name, IFNAMSIZ) == 0)
1005                 return 0;
1006
1007         memcpy(oldname, dev->name, IFNAMSIZ);
1008
1009         err = dev_get_valid_name(dev, newname);
1010         if (err < 0)
1011                 return err;
1012
1013 rollback:
1014         ret = device_rename(&dev->dev, dev->name);
1015         if (ret) {
1016                 memcpy(dev->name, oldname, IFNAMSIZ);
1017                 return ret;
1018         }
1019
1020         write_lock_bh(&dev_base_lock);
1021         hlist_del_rcu(&dev->name_hlist);
1022         write_unlock_bh(&dev_base_lock);
1023
1024         synchronize_rcu();
1025
1026         write_lock_bh(&dev_base_lock);
1027         hlist_add_head_rcu(&dev->name_hlist, dev_name_hash(net, dev->name));
1028         write_unlock_bh(&dev_base_lock);
1029
1030         ret = call_netdevice_notifiers(NETDEV_CHANGENAME, dev);
1031         ret = notifier_to_errno(ret);
1032
1033         if (ret) {
1034                 /* err >= 0 after dev_alloc_name() or stores the first errno */
1035                 if (err >= 0) {
1036                         err = ret;
1037                         memcpy(dev->name, oldname, IFNAMSIZ);
1038                         goto rollback;
1039                 } else {
1040                         printk(KERN_ERR
1041                                "%s: name change rollback failed: %d.\n",
1042                                dev->name, ret);
1043                 }
1044         }
1045
1046         return err;
1047 }
1048
1049 /**
1050  *      dev_set_alias - change ifalias of a device
1051  *      @dev: device
1052  *      @alias: name up to IFALIASZ
1053  *      @len: limit of bytes to copy from info
1054  *
1055  *      Set ifalias for a device,
1056  */
1057 int dev_set_alias(struct net_device *dev, const char *alias, size_t len)
1058 {
1059         ASSERT_RTNL();
1060
1061         if (len >= IFALIASZ)
1062                 return -EINVAL;
1063
1064         if (!len) {
1065                 if (dev->ifalias) {
1066                         kfree(dev->ifalias);
1067                         dev->ifalias = NULL;
1068                 }
1069                 return 0;
1070         }
1071
1072         dev->ifalias = krealloc(dev->ifalias, len + 1, GFP_KERNEL);
1073         if (!dev->ifalias)
1074                 return -ENOMEM;
1075
1076         strlcpy(dev->ifalias, alias, len+1);
1077         return len;
1078 }
1079
1080
1081 /**
1082  *      netdev_features_change - device changes features
1083  *      @dev: device to cause notification
1084  *
1085  *      Called to indicate a device has changed features.
1086  */
1087 void netdev_features_change(struct net_device *dev)
1088 {
1089         call_netdevice_notifiers(NETDEV_FEAT_CHANGE, dev);
1090 }
1091 EXPORT_SYMBOL(netdev_features_change);
1092
1093 /**
1094  *      netdev_state_change - device changes state
1095  *      @dev: device to cause notification
1096  *
1097  *      Called to indicate a device has changed state. This function calls
1098  *      the notifier chains for netdev_chain and sends a NEWLINK message
1099  *      to the routing socket.
1100  */
1101 void netdev_state_change(struct net_device *dev)
1102 {
1103         if (dev->flags & IFF_UP) {
1104                 call_netdevice_notifiers(NETDEV_CHANGE, dev);
1105                 rtmsg_ifinfo(RTM_NEWLINK, dev, 0);
1106         }
1107 }
1108 EXPORT_SYMBOL(netdev_state_change);
1109
1110 int netdev_bonding_change(struct net_device *dev, unsigned long event)
1111 {
1112         return call_netdevice_notifiers(event, dev);
1113 }
1114 EXPORT_SYMBOL(netdev_bonding_change);
1115
1116 /**
1117  *      dev_load        - load a network module
1118  *      @net: the applicable net namespace
1119  *      @name: name of interface
1120  *
1121  *      If a network interface is not present and the process has suitable
1122  *      privileges this function loads the module. If module loading is not
1123  *      available in this kernel then it becomes a nop.
1124  */
1125
1126 void dev_load(struct net *net, const char *name)
1127 {
1128         struct net_device *dev;
1129         int no_module;
1130
1131         rcu_read_lock();
1132         dev = dev_get_by_name_rcu(net, name);
1133         rcu_read_unlock();
1134
1135         no_module = !dev;
1136         if (no_module && capable(CAP_NET_ADMIN))
1137                 no_module = request_module("netdev-%s", name);
1138         if (no_module && capable(CAP_SYS_MODULE)) {
1139                 if (!request_module("%s", name))
1140                         pr_err("Loading kernel module for a network device "
1141 "with CAP_SYS_MODULE (deprecated).  Use CAP_NET_ADMIN and alias netdev-%s "
1142 "instead\n", name);
1143         }
1144 }
1145 EXPORT_SYMBOL(dev_load);
1146
1147 static int __dev_open(struct net_device *dev)
1148 {
1149         const struct net_device_ops *ops = dev->netdev_ops;
1150         int ret;
1151
1152         ASSERT_RTNL();
1153
1154         if (!netif_device_present(dev))
1155                 return -ENODEV;
1156
1157         ret = call_netdevice_notifiers(NETDEV_PRE_UP, dev);
1158         ret = notifier_to_errno(ret);
1159         if (ret)
1160                 return ret;
1161
1162         set_bit(__LINK_STATE_START, &dev->state);
1163
1164         if (ops->ndo_validate_addr)
1165                 ret = ops->ndo_validate_addr(dev);
1166
1167         if (!ret && ops->ndo_open)
1168                 ret = ops->ndo_open(dev);
1169
1170         if (ret)
1171                 clear_bit(__LINK_STATE_START, &dev->state);
1172         else {
1173                 dev->flags |= IFF_UP;
1174                 net_dmaengine_get();
1175                 dev_set_rx_mode(dev);
1176                 dev_activate(dev);
1177         }
1178
1179         return ret;
1180 }
1181
1182 /**
1183  *      dev_open        - prepare an interface for use.
1184  *      @dev:   device to open
1185  *
1186  *      Takes a device from down to up state. The device's private open
1187  *      function is invoked and then the multicast lists are loaded. Finally
1188  *      the device is moved into the up state and a %NETDEV_UP message is
1189  *      sent to the netdev notifier chain.
1190  *
1191  *      Calling this function on an active interface is a nop. On a failure
1192  *      a negative errno code is returned.
1193  */
1194 int dev_open(struct net_device *dev)
1195 {
1196         int ret;
1197
1198         if (dev->flags & IFF_UP)
1199                 return 0;
1200
1201         ret = __dev_open(dev);
1202         if (ret < 0)
1203                 return ret;
1204
1205         rtmsg_ifinfo(RTM_NEWLINK, dev, IFF_UP|IFF_RUNNING);
1206         call_netdevice_notifiers(NETDEV_UP, dev);
1207
1208         return ret;
1209 }
1210 EXPORT_SYMBOL(dev_open);
1211
1212 static int __dev_close_many(struct list_head *head)
1213 {
1214         struct net_device *dev;
1215
1216         ASSERT_RTNL();
1217         might_sleep();
1218
1219         list_for_each_entry(dev, head, unreg_list) {
1220                 call_netdevice_notifiers(NETDEV_GOING_DOWN, dev);
1221
1222                 clear_bit(__LINK_STATE_START, &dev->state);
1223
1224                 /* Synchronize to scheduled poll. We cannot touch poll list, it
1225                  * can be even on different cpu. So just clear netif_running().
1226                  *
1227                  * dev->stop() will invoke napi_disable() on all of it's
1228                  * napi_struct instances on this device.
1229                  */
1230                 smp_mb__after_clear_bit(); /* Commit netif_running(). */
1231         }
1232
1233         dev_deactivate_many(head);
1234
1235         list_for_each_entry(dev, head, unreg_list) {
1236                 const struct net_device_ops *ops = dev->netdev_ops;
1237
1238                 /*
1239                  *      Call the device specific close. This cannot fail.
1240                  *      Only if device is UP
1241                  *
1242                  *      We allow it to be called even after a DETACH hot-plug
1243                  *      event.
1244                  */
1245                 if (ops->ndo_stop)
1246                         ops->ndo_stop(dev);
1247
1248                 dev->flags &= ~IFF_UP;
1249                 net_dmaengine_put();
1250         }
1251
1252         return 0;
1253 }
1254
1255 static int __dev_close(struct net_device *dev)
1256 {
1257         int retval;
1258         LIST_HEAD(single);
1259
1260         list_add(&dev->unreg_list, &single);
1261         retval = __dev_close_many(&single);
1262         list_del(&single);
1263         return retval;
1264 }
1265
1266 static int dev_close_many(struct list_head *head)
1267 {
1268         struct net_device *dev, *tmp;
1269         LIST_HEAD(tmp_list);
1270
1271         list_for_each_entry_safe(dev, tmp, head, unreg_list)
1272                 if (!(dev->flags & IFF_UP))
1273                         list_move(&dev->unreg_list, &tmp_list);
1274
1275         __dev_close_many(head);
1276
1277         list_for_each_entry(dev, head, unreg_list) {
1278                 rtmsg_ifinfo(RTM_NEWLINK, dev, IFF_UP|IFF_RUNNING);
1279                 call_netdevice_notifiers(NETDEV_DOWN, dev);
1280         }
1281
1282         /* rollback_registered_many needs the complete original list */
1283         list_splice(&tmp_list, head);
1284         return 0;
1285 }
1286
1287 /**
1288  *      dev_close - shutdown an interface.
1289  *      @dev: device to shutdown
1290  *
1291  *      This function moves an active device into down state. A
1292  *      %NETDEV_GOING_DOWN is sent to the netdev notifier chain. The device
1293  *      is then deactivated and finally a %NETDEV_DOWN is sent to the notifier
1294  *      chain.
1295  */
1296 int dev_close(struct net_device *dev)
1297 {
1298         if (dev->flags & IFF_UP) {
1299                 LIST_HEAD(single);
1300
1301                 list_add(&dev->unreg_list, &single);
1302                 dev_close_many(&single);
1303                 list_del(&single);
1304         }
1305         return 0;
1306 }
1307 EXPORT_SYMBOL(dev_close);
1308
1309
1310 /**
1311  *      dev_disable_lro - disable Large Receive Offload on a device
1312  *      @dev: device
1313  *
1314  *      Disable Large Receive Offload (LRO) on a net device.  Must be
1315  *      called under RTNL.  This is needed if received packets may be
1316  *      forwarded to another interface.
1317  */
1318 void dev_disable_lro(struct net_device *dev)
1319 {
1320         u32 flags;
1321
1322         /*
1323          * If we're trying to disable lro on a vlan device
1324          * use the underlying physical device instead
1325          */
1326         if (is_vlan_dev(dev))
1327                 dev = vlan_dev_real_dev(dev);
1328
1329         if (dev->ethtool_ops && dev->ethtool_ops->get_flags)
1330                 flags = dev->ethtool_ops->get_flags(dev);
1331         else
1332                 flags = ethtool_op_get_flags(dev);
1333
1334         if (!(flags & ETH_FLAG_LRO))
1335                 return;
1336
1337         __ethtool_set_flags(dev, flags & ~ETH_FLAG_LRO);
1338         if (unlikely(dev->features & NETIF_F_LRO))
1339                 netdev_WARN(dev, "failed to disable LRO!\n");
1340 }
1341 EXPORT_SYMBOL(dev_disable_lro);
1342
1343
1344 static int dev_boot_phase = 1;
1345
1346 /**
1347  *      register_netdevice_notifier - register a network notifier block
1348  *      @nb: notifier
1349  *
1350  *      Register a notifier to be called when network device events occur.
1351  *      The notifier passed is linked into the kernel structures and must
1352  *      not be reused until it has been unregistered. A negative errno code
1353  *      is returned on a failure.
1354  *
1355  *      When registered all registration and up events are replayed
1356  *      to the new notifier to allow device to have a race free
1357  *      view of the network device list.
1358  */
1359
1360 int register_netdevice_notifier(struct notifier_block *nb)
1361 {
1362         struct net_device *dev;
1363         struct net_device *last;
1364         struct net *net;
1365         int err;
1366
1367         rtnl_lock();
1368         err = raw_notifier_chain_register(&netdev_chain, nb);
1369         if (err)
1370                 goto unlock;
1371         if (dev_boot_phase)
1372                 goto unlock;
1373         for_each_net(net) {
1374                 for_each_netdev(net, dev) {
1375                         err = nb->notifier_call(nb, NETDEV_REGISTER, dev);
1376                         err = notifier_to_errno(err);
1377                         if (err)
1378                                 goto rollback;
1379
1380                         if (!(dev->flags & IFF_UP))
1381                                 continue;
1382
1383                         nb->notifier_call(nb, NETDEV_UP, dev);
1384                 }
1385         }
1386
1387 unlock:
1388         rtnl_unlock();
1389         return err;
1390
1391 rollback:
1392         last = dev;
1393         for_each_net(net) {
1394                 for_each_netdev(net, dev) {
1395                         if (dev == last)
1396                                 break;
1397
1398                         if (dev->flags & IFF_UP) {
1399                                 nb->notifier_call(nb, NETDEV_GOING_DOWN, dev);
1400                                 nb->notifier_call(nb, NETDEV_DOWN, dev);
1401                         }
1402                         nb->notifier_call(nb, NETDEV_UNREGISTER, dev);
1403                         nb->notifier_call(nb, NETDEV_UNREGISTER_BATCH, dev);
1404                 }
1405         }
1406
1407         raw_notifier_chain_unregister(&netdev_chain, nb);
1408         goto unlock;
1409 }
1410 EXPORT_SYMBOL(register_netdevice_notifier);
1411
1412 /**
1413  *      unregister_netdevice_notifier - unregister a network notifier block
1414  *      @nb: notifier
1415  *
1416  *      Unregister a notifier previously registered by
1417  *      register_netdevice_notifier(). The notifier is unlinked into the
1418  *      kernel structures and may then be reused. A negative errno code
1419  *      is returned on a failure.
1420  */
1421
1422 int unregister_netdevice_notifier(struct notifier_block *nb)
1423 {
1424         int err;
1425
1426         rtnl_lock();
1427         err = raw_notifier_chain_unregister(&netdev_chain, nb);
1428         rtnl_unlock();
1429         return err;
1430 }
1431 EXPORT_SYMBOL(unregister_netdevice_notifier);
1432
1433 /**
1434  *      call_netdevice_notifiers - call all network notifier blocks
1435  *      @val: value passed unmodified to notifier function
1436  *      @dev: net_device pointer passed unmodified to notifier function
1437  *
1438  *      Call all network notifier blocks.  Parameters and return value
1439  *      are as for raw_notifier_call_chain().
1440  */
1441
1442 int call_netdevice_notifiers(unsigned long val, struct net_device *dev)
1443 {
1444         ASSERT_RTNL();
1445         return raw_notifier_call_chain(&netdev_chain, val, dev);
1446 }
1447 EXPORT_SYMBOL(call_netdevice_notifiers);
1448
1449 /* When > 0 there are consumers of rx skb time stamps */
1450 static atomic_t netstamp_needed = ATOMIC_INIT(0);
1451
1452 void net_enable_timestamp(void)
1453 {
1454         atomic_inc(&netstamp_needed);
1455 }
1456 EXPORT_SYMBOL(net_enable_timestamp);
1457
1458 void net_disable_timestamp(void)
1459 {
1460         atomic_dec(&netstamp_needed);
1461 }
1462 EXPORT_SYMBOL(net_disable_timestamp);
1463
1464 static inline void net_timestamp_set(struct sk_buff *skb)
1465 {
1466         if (atomic_read(&netstamp_needed))
1467                 __net_timestamp(skb);
1468         else
1469                 skb->tstamp.tv64 = 0;
1470 }
1471
1472 static inline void net_timestamp_check(struct sk_buff *skb)
1473 {
1474         if (!skb->tstamp.tv64 && atomic_read(&netstamp_needed))
1475                 __net_timestamp(skb);
1476 }
1477
1478 static inline bool is_skb_forwardable(struct net_device *dev,
1479                                       struct sk_buff *skb)
1480 {
1481         unsigned int len;
1482
1483         if (!(dev->flags & IFF_UP))
1484                 return false;
1485
1486         len = dev->mtu + dev->hard_header_len + VLAN_HLEN;
1487         if (skb->len <= len)
1488                 return true;
1489
1490         /* if TSO is enabled, we don't care about the length as the packet
1491          * could be forwarded without being segmented before
1492          */
1493         if (skb_is_gso(skb))
1494                 return true;
1495
1496         return false;
1497 }
1498
1499 /**
1500  * dev_forward_skb - loopback an skb to another netif
1501  *
1502  * @dev: destination network device
1503  * @skb: buffer to forward
1504  *
1505  * return values:
1506  *      NET_RX_SUCCESS  (no congestion)
1507  *      NET_RX_DROP     (packet was dropped, but freed)
1508  *
1509  * dev_forward_skb can be used for injecting an skb from the
1510  * start_xmit function of one device into the receive queue
1511  * of another device.
1512  *
1513  * The receiving device may be in another namespace, so
1514  * we have to clear all information in the skb that could
1515  * impact namespace isolation.
1516  */
1517 int dev_forward_skb(struct net_device *dev, struct sk_buff *skb)
1518 {
1519         skb_orphan(skb);
1520         nf_reset(skb);
1521
1522         if (unlikely(!is_skb_forwardable(dev, skb))) {
1523                 atomic_long_inc(&dev->rx_dropped);
1524                 kfree_skb(skb);
1525                 return NET_RX_DROP;
1526         }
1527         skb_set_dev(skb, dev);
1528         skb->tstamp.tv64 = 0;
1529         skb->pkt_type = PACKET_HOST;
1530         skb->protocol = eth_type_trans(skb, dev);
1531         return netif_rx(skb);
1532 }
1533 EXPORT_SYMBOL_GPL(dev_forward_skb);
1534
1535 static inline int deliver_skb(struct sk_buff *skb,
1536                               struct packet_type *pt_prev,
1537                               struct net_device *orig_dev)
1538 {
1539         atomic_inc(&skb->users);
1540         return pt_prev->func(skb, skb->dev, pt_prev, orig_dev);
1541 }
1542
1543 /*
1544  *      Support routine. Sends outgoing frames to any network
1545  *      taps currently in use.
1546  */
1547
1548 static void dev_queue_xmit_nit(struct sk_buff *skb, struct net_device *dev)
1549 {
1550         struct packet_type *ptype;
1551         struct sk_buff *skb2 = NULL;
1552         struct packet_type *pt_prev = NULL;
1553
1554         rcu_read_lock();
1555         list_for_each_entry_rcu(ptype, &ptype_all, list) {
1556                 /* Never send packets back to the socket
1557                  * they originated from - MvS (miquels@drinkel.ow.org)
1558                  */
1559                 if ((ptype->dev == dev || !ptype->dev) &&
1560                     (ptype->af_packet_priv == NULL ||
1561                      (struct sock *)ptype->af_packet_priv != skb->sk)) {
1562                         if (pt_prev) {
1563                                 deliver_skb(skb2, pt_prev, skb->dev);
1564                                 pt_prev = ptype;
1565                                 continue;
1566                         }
1567
1568                         skb2 = skb_clone(skb, GFP_ATOMIC);
1569                         if (!skb2)
1570                                 break;
1571
1572                         net_timestamp_set(skb2);
1573
1574                         /* skb->nh should be correctly
1575                            set by sender, so that the second statement is
1576                            just protection against buggy protocols.
1577                          */
1578                         skb_reset_mac_header(skb2);
1579
1580                         if (skb_network_header(skb2) < skb2->data ||
1581                             skb2->network_header > skb2->tail) {
1582                                 if (net_ratelimit())
1583                                         printk(KERN_CRIT "protocol %04x is "
1584                                                "buggy, dev %s\n",
1585                                                ntohs(skb2->protocol),
1586                                                dev->name);
1587                                 skb_reset_network_header(skb2);
1588                         }
1589
1590                         skb2->transport_header = skb2->network_header;
1591                         skb2->pkt_type = PACKET_OUTGOING;
1592                         pt_prev = ptype;
1593                 }
1594         }
1595         if (pt_prev)
1596                 pt_prev->func(skb2, skb->dev, pt_prev, skb->dev);
1597         rcu_read_unlock();
1598 }
1599
1600 /* netif_setup_tc - Handle tc mappings on real_num_tx_queues change
1601  * @dev: Network device
1602  * @txq: number of queues available
1603  *
1604  * If real_num_tx_queues is changed the tc mappings may no longer be
1605  * valid. To resolve this verify the tc mapping remains valid and if
1606  * not NULL the mapping. With no priorities mapping to this
1607  * offset/count pair it will no longer be used. In the worst case TC0
1608  * is invalid nothing can be done so disable priority mappings. If is
1609  * expected that drivers will fix this mapping if they can before
1610  * calling netif_set_real_num_tx_queues.
1611  */
1612 static void netif_setup_tc(struct net_device *dev, unsigned int txq)
1613 {
1614         int i;
1615         struct netdev_tc_txq *tc = &dev->tc_to_txq[0];
1616
1617         /* If TC0 is invalidated disable TC mapping */
1618         if (tc->offset + tc->count > txq) {
1619                 pr_warning("Number of in use tx queues changed "
1620                            "invalidating tc mappings. Priority "
1621                            "traffic classification disabled!\n");
1622                 dev->num_tc = 0;
1623                 return;
1624         }
1625
1626         /* Invalidated prio to tc mappings set to TC0 */
1627         for (i = 1; i < TC_BITMASK + 1; i++) {
1628                 int q = netdev_get_prio_tc_map(dev, i);
1629
1630                 tc = &dev->tc_to_txq[q];
1631                 if (tc->offset + tc->count > txq) {
1632                         pr_warning("Number of in use tx queues "
1633                                    "changed. Priority %i to tc "
1634                                    "mapping %i is no longer valid "
1635                                    "setting map to 0\n",
1636                                    i, q);
1637                         netdev_set_prio_tc_map(dev, i, 0);
1638                 }
1639         }
1640 }
1641
1642 /*
1643  * Routine to help set real_num_tx_queues. To avoid skbs mapped to queues
1644  * greater then real_num_tx_queues stale skbs on the qdisc must be flushed.
1645  */
1646 int netif_set_real_num_tx_queues(struct net_device *dev, unsigned int txq)
1647 {
1648         int rc;
1649
1650         if (txq < 1 || txq > dev->num_tx_queues)
1651                 return -EINVAL;
1652
1653         if (dev->reg_state == NETREG_REGISTERED ||
1654             dev->reg_state == NETREG_UNREGISTERING) {
1655                 ASSERT_RTNL();
1656
1657                 rc = netdev_queue_update_kobjects(dev, dev->real_num_tx_queues,
1658                                                   txq);
1659                 if (rc)
1660                         return rc;
1661
1662                 if (dev->num_tc)
1663                         netif_setup_tc(dev, txq);
1664
1665                 if (txq < dev->real_num_tx_queues)
1666                         qdisc_reset_all_tx_gt(dev, txq);
1667         }
1668
1669         dev->real_num_tx_queues = txq;
1670         return 0;
1671 }
1672 EXPORT_SYMBOL(netif_set_real_num_tx_queues);
1673
1674 #ifdef CONFIG_RPS
1675 /**
1676  *      netif_set_real_num_rx_queues - set actual number of RX queues used
1677  *      @dev: Network device
1678  *      @rxq: Actual number of RX queues
1679  *
1680  *      This must be called either with the rtnl_lock held or before
1681  *      registration of the net device.  Returns 0 on success, or a
1682  *      negative error code.  If called before registration, it always
1683  *      succeeds.
1684  */
1685 int netif_set_real_num_rx_queues(struct net_device *dev, unsigned int rxq)
1686 {
1687         int rc;
1688
1689         if (rxq < 1 || rxq > dev->num_rx_queues)
1690                 return -EINVAL;
1691
1692         if (dev->reg_state == NETREG_REGISTERED) {
1693                 ASSERT_RTNL();
1694
1695                 rc = net_rx_queue_update_kobjects(dev, dev->real_num_rx_queues,
1696                                                   rxq);
1697                 if (rc)
1698                         return rc;
1699         }
1700
1701         dev->real_num_rx_queues = rxq;
1702         return 0;
1703 }
1704 EXPORT_SYMBOL(netif_set_real_num_rx_queues);
1705 #endif
1706
1707 static inline void __netif_reschedule(struct Qdisc *q)
1708 {
1709         struct softnet_data *sd;
1710         unsigned long flags;
1711
1712         local_irq_save(flags);
1713         sd = &__get_cpu_var(softnet_data);
1714         q->next_sched = NULL;
1715         *sd->output_queue_tailp = q;
1716         sd->output_queue_tailp = &q->next_sched;
1717         raise_softirq_irqoff(NET_TX_SOFTIRQ);
1718         local_irq_restore(flags);
1719 }
1720
1721 void __netif_schedule(struct Qdisc *q)
1722 {
1723         if (!test_and_set_bit(__QDISC_STATE_SCHED, &q->state))
1724                 __netif_reschedule(q);
1725 }
1726 EXPORT_SYMBOL(__netif_schedule);
1727
1728 void dev_kfree_skb_irq(struct sk_buff *skb)
1729 {
1730         if (atomic_dec_and_test(&skb->users)) {
1731                 struct softnet_data *sd;
1732                 unsigned long flags;
1733
1734                 local_irq_save(flags);
1735                 sd = &__get_cpu_var(softnet_data);
1736                 skb->next = sd->completion_queue;
1737                 sd->completion_queue = skb;
1738                 raise_softirq_irqoff(NET_TX_SOFTIRQ);
1739                 local_irq_restore(flags);
1740         }
1741 }
1742 EXPORT_SYMBOL(dev_kfree_skb_irq);
1743
1744 void dev_kfree_skb_any(struct sk_buff *skb)
1745 {
1746         if (in_irq() || irqs_disabled())
1747                 dev_kfree_skb_irq(skb);
1748         else
1749                 dev_kfree_skb(skb);
1750 }
1751 EXPORT_SYMBOL(dev_kfree_skb_any);
1752
1753
1754 /**
1755  * netif_device_detach - mark device as removed
1756  * @dev: network device
1757  *
1758  * Mark device as removed from system and therefore no longer available.
1759  */
1760 void netif_device_detach(struct net_device *dev)
1761 {
1762         if (test_and_clear_bit(__LINK_STATE_PRESENT, &dev->state) &&
1763             netif_running(dev)) {
1764                 netif_tx_stop_all_queues(dev);
1765         }
1766 }
1767 EXPORT_SYMBOL(netif_device_detach);
1768
1769 /**
1770  * netif_device_attach - mark device as attached
1771  * @dev: network device
1772  *
1773  * Mark device as attached from system and restart if needed.
1774  */
1775 void netif_device_attach(struct net_device *dev)
1776 {
1777         if (!test_and_set_bit(__LINK_STATE_PRESENT, &dev->state) &&
1778             netif_running(dev)) {
1779                 netif_tx_wake_all_queues(dev);
1780                 __netdev_watchdog_up(dev);
1781         }
1782 }
1783 EXPORT_SYMBOL(netif_device_attach);
1784
1785 /**
1786  * skb_dev_set -- assign a new device to a buffer
1787  * @skb: buffer for the new device
1788  * @dev: network device
1789  *
1790  * If an skb is owned by a device already, we have to reset
1791  * all data private to the namespace a device belongs to
1792  * before assigning it a new device.
1793  */
1794 #ifdef CONFIG_NET_NS
1795 void skb_set_dev(struct sk_buff *skb, struct net_device *dev)
1796 {
1797         skb_dst_drop(skb);
1798         if (skb->dev && !net_eq(dev_net(skb->dev), dev_net(dev))) {
1799                 secpath_reset(skb);
1800                 nf_reset(skb);
1801                 skb_init_secmark(skb);
1802                 skb->mark = 0;
1803                 skb->priority = 0;
1804                 skb->nf_trace = 0;
1805                 skb->ipvs_property = 0;
1806 #ifdef CONFIG_NET_SCHED
1807                 skb->tc_index = 0;
1808 #endif
1809         }
1810         skb->dev = dev;
1811 }
1812 EXPORT_SYMBOL(skb_set_dev);
1813 #endif /* CONFIG_NET_NS */
1814
1815 /*
1816  * Invalidate hardware checksum when packet is to be mangled, and
1817  * complete checksum manually on outgoing path.
1818  */
1819 int skb_checksum_help(struct sk_buff *skb)
1820 {
1821         __wsum csum;
1822         int ret = 0, offset;
1823
1824         if (skb->ip_summed == CHECKSUM_COMPLETE)
1825                 goto out_set_summed;
1826
1827         if (unlikely(skb_shinfo(skb)->gso_size)) {
1828                 /* Let GSO fix up the checksum. */
1829                 goto out_set_summed;
1830         }
1831
1832         offset = skb_checksum_start_offset(skb);
1833         BUG_ON(offset >= skb_headlen(skb));
1834         csum = skb_checksum(skb, offset, skb->len - offset, 0);
1835
1836         offset += skb->csum_offset;
1837         BUG_ON(offset + sizeof(__sum16) > skb_headlen(skb));
1838
1839         if (skb_cloned(skb) &&
1840             !skb_clone_writable(skb, offset + sizeof(__sum16))) {
1841                 ret = pskb_expand_head(skb, 0, 0, GFP_ATOMIC);
1842                 if (ret)
1843                         goto out;
1844         }
1845
1846         *(__sum16 *)(skb->data + offset) = csum_fold(csum);
1847 out_set_summed:
1848         skb->ip_summed = CHECKSUM_NONE;
1849 out:
1850         return ret;
1851 }
1852 EXPORT_SYMBOL(skb_checksum_help);
1853
1854 /**
1855  *      skb_gso_segment - Perform segmentation on skb.
1856  *      @skb: buffer to segment
1857  *      @features: features for the output path (see dev->features)
1858  *
1859  *      This function segments the given skb and returns a list of segments.
1860  *
1861  *      It may return NULL if the skb requires no segmentation.  This is
1862  *      only possible when GSO is used for verifying header integrity.
1863  */
1864 struct sk_buff *skb_gso_segment(struct sk_buff *skb, u32 features)
1865 {
1866         struct sk_buff *segs = ERR_PTR(-EPROTONOSUPPORT);
1867         struct packet_type *ptype;
1868         __be16 type = skb->protocol;
1869         int vlan_depth = ETH_HLEN;
1870         int err;
1871
1872         while (type == htons(ETH_P_8021Q)) {
1873                 struct vlan_hdr *vh;
1874
1875                 if (unlikely(!pskb_may_pull(skb, vlan_depth + VLAN_HLEN)))
1876                         return ERR_PTR(-EINVAL);
1877
1878                 vh = (struct vlan_hdr *)(skb->data + vlan_depth);
1879                 type = vh->h_vlan_encapsulated_proto;
1880                 vlan_depth += VLAN_HLEN;
1881         }
1882
1883         skb_reset_mac_header(skb);
1884         skb->mac_len = skb->network_header - skb->mac_header;
1885         __skb_pull(skb, skb->mac_len);
1886
1887         if (unlikely(skb->ip_summed != CHECKSUM_PARTIAL)) {
1888                 struct net_device *dev = skb->dev;
1889                 struct ethtool_drvinfo info = {};
1890
1891                 if (dev && dev->ethtool_ops && dev->ethtool_ops->get_drvinfo)
1892                         dev->ethtool_ops->get_drvinfo(dev, &info);
1893
1894                 WARN(1, "%s: caps=(0x%lx, 0x%lx) len=%d data_len=%d ip_summed=%d\n",
1895                      info.driver, dev ? dev->features : 0L,
1896                      skb->sk ? skb->sk->sk_route_caps : 0L,
1897                      skb->len, skb->data_len, skb->ip_summed);
1898
1899                 if (skb_header_cloned(skb) &&
1900                     (err = pskb_expand_head(skb, 0, 0, GFP_ATOMIC)))
1901                         return ERR_PTR(err);
1902         }
1903
1904         rcu_read_lock();
1905         list_for_each_entry_rcu(ptype,
1906                         &ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {
1907                 if (ptype->type == type && !ptype->dev && ptype->gso_segment) {
1908                         if (unlikely(skb->ip_summed != CHECKSUM_PARTIAL)) {
1909                                 err = ptype->gso_send_check(skb);
1910                                 segs = ERR_PTR(err);
1911                                 if (err || skb_gso_ok(skb, features))
1912                                         break;
1913                                 __skb_push(skb, (skb->data -
1914                                                  skb_network_header(skb)));
1915                         }
1916                         segs = ptype->gso_segment(skb, features);
1917                         break;
1918                 }
1919         }
1920         rcu_read_unlock();
1921
1922         __skb_push(skb, skb->data - skb_mac_header(skb));
1923
1924         return segs;
1925 }
1926 EXPORT_SYMBOL(skb_gso_segment);
1927
1928 /* Take action when hardware reception checksum errors are detected. */
1929 #ifdef CONFIG_BUG
1930 void netdev_rx_csum_fault(struct net_device *dev)
1931 {
1932         if (net_ratelimit()) {
1933                 printk(KERN_ERR "%s: hw csum failure.\n",
1934                         dev ? dev->name : "<unknown>");
1935                 dump_stack();
1936         }
1937 }
1938 EXPORT_SYMBOL(netdev_rx_csum_fault);
1939 #endif
1940
1941 /* Actually, we should eliminate this check as soon as we know, that:
1942  * 1. IOMMU is present and allows to map all the memory.
1943  * 2. No high memory really exists on this machine.
1944  */
1945
1946 static int illegal_highdma(struct net_device *dev, struct sk_buff *skb)
1947 {
1948 #ifdef CONFIG_HIGHMEM
1949         int i;
1950         if (!(dev->features & NETIF_F_HIGHDMA)) {
1951                 for (i = 0; i < skb_shinfo(skb)->nr_frags; i++)
1952                         if (PageHighMem(skb_shinfo(skb)->frags[i].page))
1953                                 return 1;
1954         }
1955
1956         if (PCI_DMA_BUS_IS_PHYS) {
1957                 struct device *pdev = dev->dev.parent;
1958
1959                 if (!pdev)
1960                         return 0;
1961                 for (i = 0; i < skb_shinfo(skb)->nr_frags; i++) {
1962                         dma_addr_t addr = page_to_phys(skb_shinfo(skb)->frags[i].page);
1963                         if (!pdev->dma_mask || addr + PAGE_SIZE - 1 > *pdev->dma_mask)
1964                                 return 1;
1965                 }
1966         }
1967 #endif
1968         return 0;
1969 }
1970
1971 struct dev_gso_cb {
1972         void (*destructor)(struct sk_buff *skb);
1973 };
1974
1975 #define DEV_GSO_CB(skb) ((struct dev_gso_cb *)(skb)->cb)
1976
1977 static void dev_gso_skb_destructor(struct sk_buff *skb)
1978 {
1979         struct dev_gso_cb *cb;
1980
1981         do {
1982                 struct sk_buff *nskb = skb->next;
1983
1984                 skb->next = nskb->next;
1985                 nskb->next = NULL;
1986                 kfree_skb(nskb);
1987         } while (skb->next);
1988
1989         cb = DEV_GSO_CB(skb);
1990         if (cb->destructor)
1991                 cb->destructor(skb);
1992 }
1993
1994 /**
1995  *      dev_gso_segment - Perform emulated hardware segmentation on skb.
1996  *      @skb: buffer to segment
1997  *      @features: device features as applicable to this skb
1998  *
1999  *      This function segments the given skb and stores the list of segments
2000  *      in skb->next.
2001  */
2002 static int dev_gso_segment(struct sk_buff *skb, int features)
2003 {
2004         struct sk_buff *segs;
2005
2006         segs = skb_gso_segment(skb, features);
2007
2008         /* Verifying header integrity only. */
2009         if (!segs)
2010                 return 0;
2011
2012         if (IS_ERR(segs))
2013                 return PTR_ERR(segs);
2014
2015         skb->next = segs;
2016         DEV_GSO_CB(skb)->destructor = skb->destructor;
2017         skb->destructor = dev_gso_skb_destructor;
2018
2019         return 0;
2020 }
2021
2022 /*
2023  * Try to orphan skb early, right before transmission by the device.
2024  * We cannot orphan skb if tx timestamp is requested or the sk-reference
2025  * is needed on driver level for other reasons, e.g. see net/can/raw.c
2026  */
2027 static inline void skb_orphan_try(struct sk_buff *skb)
2028 {
2029         struct sock *sk = skb->sk;
2030
2031         if (sk && !skb_shinfo(skb)->tx_flags) {
2032                 /* skb_tx_hash() wont be able to get sk.
2033                  * We copy sk_hash into skb->rxhash
2034                  */
2035                 if (!skb->rxhash)
2036                         skb->rxhash = sk->sk_hash;
2037                 skb_orphan(skb);
2038         }
2039 }
2040
2041 static bool can_checksum_protocol(unsigned long features, __be16 protocol)
2042 {
2043         return ((features & NETIF_F_GEN_CSUM) ||
2044                 ((features & NETIF_F_V4_CSUM) &&
2045                  protocol == htons(ETH_P_IP)) ||
2046                 ((features & NETIF_F_V6_CSUM) &&
2047                  protocol == htons(ETH_P_IPV6)) ||
2048                 ((features & NETIF_F_FCOE_CRC) &&
2049                  protocol == htons(ETH_P_FCOE)));
2050 }
2051
2052 static u32 harmonize_features(struct sk_buff *skb, __be16 protocol, u32 features)
2053 {
2054         if (!can_checksum_protocol(features, protocol)) {
2055                 features &= ~NETIF_F_ALL_CSUM;
2056                 features &= ~NETIF_F_SG;
2057         } else if (illegal_highdma(skb->dev, skb)) {
2058                 features &= ~NETIF_F_SG;
2059         }
2060
2061         return features;
2062 }
2063
2064 u32 netif_skb_features(struct sk_buff *skb)
2065 {
2066         __be16 protocol = skb->protocol;
2067         u32 features = skb->dev->features;
2068
2069         if (protocol == htons(ETH_P_8021Q)) {
2070                 struct vlan_ethhdr *veh = (struct vlan_ethhdr *)skb->data;
2071                 protocol = veh->h_vlan_encapsulated_proto;
2072         } else if (!vlan_tx_tag_present(skb)) {
2073                 return harmonize_features(skb, protocol, features);
2074         }
2075
2076         features &= (skb->dev->vlan_features | NETIF_F_HW_VLAN_TX);
2077
2078         if (protocol != htons(ETH_P_8021Q)) {
2079                 return harmonize_features(skb, protocol, features);
2080         } else {
2081                 features &= NETIF_F_SG | NETIF_F_HIGHDMA | NETIF_F_FRAGLIST |
2082                                 NETIF_F_GEN_CSUM | NETIF_F_HW_VLAN_TX;
2083                 return harmonize_features(skb, protocol, features);
2084         }
2085 }
2086 EXPORT_SYMBOL(netif_skb_features);
2087
2088 /*
2089  * Returns true if either:
2090  *      1. skb has frag_list and the device doesn't support FRAGLIST, or
2091  *      2. skb is fragmented and the device does not support SG, or if
2092  *         at least one of fragments is in highmem and device does not
2093  *         support DMA from it.
2094  */
2095 static inline int skb_needs_linearize(struct sk_buff *skb,
2096                                       int features)
2097 {
2098         return skb_is_nonlinear(skb) &&
2099                         ((skb_has_frag_list(skb) &&
2100                                 !(features & NETIF_F_FRAGLIST)) ||
2101                         (skb_shinfo(skb)->nr_frags &&
2102                                 !(features & NETIF_F_SG)));
2103 }
2104
2105 int dev_hard_start_xmit(struct sk_buff *skb, struct net_device *dev,
2106                         struct netdev_queue *txq)
2107 {
2108         const struct net_device_ops *ops = dev->netdev_ops;
2109         int rc = NETDEV_TX_OK;
2110         unsigned int skb_len;
2111
2112         if (likely(!skb->next)) {
2113                 u32 features;
2114
2115                 /*
2116                  * If device doesn't need skb->dst, release it right now while
2117                  * its hot in this cpu cache
2118                  */
2119                 if (dev->priv_flags & IFF_XMIT_DST_RELEASE)
2120                         skb_dst_drop(skb);
2121
2122                 if (!list_empty(&ptype_all))
2123                         dev_queue_xmit_nit(skb, dev);
2124
2125                 skb_orphan_try(skb);
2126
2127                 features = netif_skb_features(skb);
2128
2129                 if (vlan_tx_tag_present(skb) &&
2130                     !(features & NETIF_F_HW_VLAN_TX)) {
2131                         skb = __vlan_put_tag(skb, vlan_tx_tag_get(skb));
2132                         if (unlikely(!skb))
2133                                 goto out;
2134
2135                         skb->vlan_tci = 0;
2136                 }
2137
2138                 if (netif_needs_gso(skb, features)) {
2139                         if (unlikely(dev_gso_segment(skb, features)))
2140                                 goto out_kfree_skb;
2141                         if (skb->next)
2142                                 goto gso;
2143                 } else {
2144                         if (skb_needs_linearize(skb, features) &&
2145                             __skb_linearize(skb))
2146                                 goto out_kfree_skb;
2147
2148                         /* If packet is not checksummed and device does not
2149                          * support checksumming for this protocol, complete
2150                          * checksumming here.
2151                          */
2152                         if (skb->ip_summed == CHECKSUM_PARTIAL) {
2153                                 skb_set_transport_header(skb,
2154                                         skb_checksum_start_offset(skb));
2155                                 if (!(features & NETIF_F_ALL_CSUM) &&
2156                                      skb_checksum_help(skb))
2157                                         goto out_kfree_skb;
2158                         }
2159                 }
2160
2161                 skb_len = skb->len;
2162                 rc = ops->ndo_start_xmit(skb, dev);
2163                 trace_net_dev_xmit(skb, rc, dev, skb_len);
2164                 if (rc == NETDEV_TX_OK)
2165                         txq_trans_update(txq);
2166                 return rc;
2167         }
2168
2169 gso:
2170         do {
2171                 struct sk_buff *nskb = skb->next;
2172
2173                 skb->next = nskb->next;
2174                 nskb->next = NULL;
2175
2176                 /*
2177                  * If device doesn't need nskb->dst, release it right now while
2178                  * its hot in this cpu cache
2179                  */
2180                 if (dev->priv_flags & IFF_XMIT_DST_RELEASE)
2181                         skb_dst_drop(nskb);
2182
2183                 skb_len = nskb->len;
2184                 rc = ops->ndo_start_xmit(nskb, dev);
2185                 trace_net_dev_xmit(nskb, rc, dev, skb_len);
2186                 if (unlikely(rc != NETDEV_TX_OK)) {
2187                         if (rc & ~NETDEV_TX_MASK)
2188                                 goto out_kfree_gso_skb;
2189                         nskb->next = skb->next;
2190                         skb->next = nskb;
2191                         return rc;
2192                 }
2193                 txq_trans_update(txq);
2194                 if (unlikely(netif_tx_queue_stopped(txq) && skb->next))
2195                         return NETDEV_TX_BUSY;
2196         } while (skb->next);
2197
2198 out_kfree_gso_skb:
2199         if (likely(skb->next == NULL))
2200                 skb->destructor = DEV_GSO_CB(skb)->destructor;
2201 out_kfree_skb:
2202         kfree_skb(skb);
2203 out:
2204         return rc;
2205 }
2206
2207 static u32 hashrnd __read_mostly;
2208
2209 /*
2210  * Returns a Tx hash based on the given packet descriptor a Tx queues' number
2211  * to be used as a distribution range.
2212  */
2213 u16 __skb_tx_hash(const struct net_device *dev, const struct sk_buff *skb,
2214                   unsigned int num_tx_queues)
2215 {
2216         u32 hash;
2217         u16 qoffset = 0;
2218         u16 qcount = num_tx_queues;
2219
2220         if (skb_rx_queue_recorded(skb)) {
2221                 hash = skb_get_rx_queue(skb);
2222                 while (unlikely(hash >= num_tx_queues))
2223                         hash -= num_tx_queues;
2224                 return hash;
2225         }
2226
2227         if (dev->num_tc) {
2228                 u8 tc = netdev_get_prio_tc_map(dev, skb->priority);
2229                 qoffset = dev->tc_to_txq[tc].offset;
2230                 qcount = dev->tc_to_txq[tc].count;
2231         }
2232
2233         if (skb->sk && skb->sk->sk_hash)
2234                 hash = skb->sk->sk_hash;
2235         else
2236                 hash = (__force u16) skb->protocol ^ skb->rxhash;
2237         hash = jhash_1word(hash, hashrnd);
2238
2239         return (u16) (((u64) hash * qcount) >> 32) + qoffset;
2240 }
2241 EXPORT_SYMBOL(__skb_tx_hash);
2242
2243 static inline u16 dev_cap_txqueue(struct net_device *dev, u16 queue_index)
2244 {
2245         if (unlikely(queue_index >= dev->real_num_tx_queues)) {
2246                 if (net_ratelimit()) {
2247                         pr_warning("%s selects TX queue %d, but "
2248                                 "real number of TX queues is %d\n",
2249                                 dev->name, queue_index, dev->real_num_tx_queues);
2250                 }
2251                 return 0;
2252         }
2253         return queue_index;
2254 }
2255
2256 static inline int get_xps_queue(struct net_device *dev, struct sk_buff *skb)
2257 {
2258 #ifdef CONFIG_XPS
2259         struct xps_dev_maps *dev_maps;
2260         struct xps_map *map;
2261         int queue_index = -1;
2262
2263         rcu_read_lock();
2264         dev_maps = rcu_dereference(dev->xps_maps);
2265         if (dev_maps) {
2266                 map = rcu_dereference(
2267                     dev_maps->cpu_map[raw_smp_processor_id()]);
2268                 if (map) {
2269                         if (map->len == 1)
2270                                 queue_index = map->queues[0];
2271                         else {
2272                                 u32 hash;
2273                                 if (skb->sk && skb->sk->sk_hash)
2274                                         hash = skb->sk->sk_hash;
2275                                 else
2276                                         hash = (__force u16) skb->protocol ^
2277                                             skb->rxhash;
2278                                 hash = jhash_1word(hash, hashrnd);
2279                                 queue_index = map->queues[
2280                                     ((u64)hash * map->len) >> 32];
2281                         }
2282                         if (unlikely(queue_index >= dev->real_num_tx_queues))
2283                                 queue_index = -1;
2284                 }
2285         }
2286         rcu_read_unlock();
2287
2288         return queue_index;
2289 #else
2290         return -1;
2291 #endif
2292 }
2293
2294 static struct netdev_queue *dev_pick_tx(struct net_device *dev,
2295                                         struct sk_buff *skb)
2296 {
2297         int queue_index;
2298         const struct net_device_ops *ops = dev->netdev_ops;
2299
2300         if (dev->real_num_tx_queues == 1)
2301                 queue_index = 0;
2302         else if (ops->ndo_select_queue) {
2303                 queue_index = ops->ndo_select_queue(dev, skb);
2304                 queue_index = dev_cap_txqueue(dev, queue_index);
2305         } else {
2306                 struct sock *sk = skb->sk;
2307                 queue_index = sk_tx_queue_get(sk);
2308
2309                 if (queue_index < 0 || skb->ooo_okay ||
2310                     queue_index >= dev->real_num_tx_queues) {
2311                         int old_index = queue_index;
2312
2313                         queue_index = get_xps_queue(dev, skb);
2314                         if (queue_index < 0)
2315                                 queue_index = skb_tx_hash(dev, skb);
2316
2317                         if (queue_index != old_index && sk) {
2318                                 struct dst_entry *dst =
2319                                     rcu_dereference_check(sk->sk_dst_cache, 1);
2320
2321                                 if (dst && skb_dst(skb) == dst)
2322                                         sk_tx_queue_set(sk, queue_index);
2323                         }
2324                 }
2325         }
2326
2327         skb_set_queue_mapping(skb, queue_index);
2328         return netdev_get_tx_queue(dev, queue_index);
2329 }
2330
2331 static inline int __dev_xmit_skb(struct sk_buff *skb, struct Qdisc *q,
2332                                  struct net_device *dev,
2333                                  struct netdev_queue *txq)
2334 {
2335         spinlock_t *root_lock = qdisc_lock(q);
2336         bool contended;
2337         int rc;
2338
2339         qdisc_skb_cb(skb)->pkt_len = skb->len;
2340         qdisc_calculate_pkt_len(skb, q);
2341         /*
2342          * Heuristic to force contended enqueues to serialize on a
2343          * separate lock before trying to get qdisc main lock.
2344          * This permits __QDISC_STATE_RUNNING owner to get the lock more often
2345          * and dequeue packets faster.
2346          */
2347         contended = qdisc_is_running(q);
2348         if (unlikely(contended))
2349                 spin_lock(&q->busylock);
2350
2351         spin_lock(root_lock);
2352         if (unlikely(test_bit(__QDISC_STATE_DEACTIVATED, &q->state))) {
2353                 kfree_skb(skb);
2354                 rc = NET_XMIT_DROP;
2355         } else if ((q->flags & TCQ_F_CAN_BYPASS) && !qdisc_qlen(q) &&
2356                    qdisc_run_begin(q)) {
2357                 /*
2358                  * This is a work-conserving queue; there are no old skbs
2359                  * waiting to be sent out; and the qdisc is not running -
2360                  * xmit the skb directly.
2361                  */
2362                 if (!(dev->priv_flags & IFF_XMIT_DST_RELEASE))
2363                         skb_dst_force(skb);
2364
2365                 qdisc_bstats_update(q, skb);
2366
2367                 if (sch_direct_xmit(skb, q, dev, txq, root_lock)) {
2368                         if (unlikely(contended)) {
2369                                 spin_unlock(&q->busylock);
2370                                 contended = false;
2371                         }
2372                         __qdisc_run(q);
2373                 } else
2374                         qdisc_run_end(q);
2375
2376                 rc = NET_XMIT_SUCCESS;
2377         } else {
2378                 skb_dst_force(skb);
2379                 rc = q->enqueue(skb, q) & NET_XMIT_MASK;
2380                 if (qdisc_run_begin(q)) {
2381                         if (unlikely(contended)) {
2382                                 spin_unlock(&q->busylock);
2383                                 contended = false;
2384                         }
2385                         __qdisc_run(q);
2386                 }
2387         }
2388         spin_unlock(root_lock);
2389         if (unlikely(contended))
2390                 spin_unlock(&q->busylock);
2391         return rc;
2392 }
2393
2394 static DEFINE_PER_CPU(int, xmit_recursion);
2395 #define RECURSION_LIMIT 10
2396
2397 /**
2398  *      dev_queue_xmit - transmit a buffer
2399  *      @skb: buffer to transmit
2400  *
2401  *      Queue a buffer for transmission to a network device. The caller must
2402  *      have set the device and priority and built the buffer before calling
2403  *      this function. The function can be called from an interrupt.
2404  *
2405  *      A negative errno code is returned on a failure. A success does not
2406  *      guarantee the frame will be transmitted as it may be dropped due
2407  *      to congestion or traffic shaping.
2408  *
2409  * -----------------------------------------------------------------------------------
2410  *      I notice this method can also return errors from the queue disciplines,
2411  *      including NET_XMIT_DROP, which is a positive value.  So, errors can also
2412  *      be positive.
2413  *
2414  *      Regardless of the return value, the skb is consumed, so it is currently
2415  *      difficult to retry a send to this method.  (You can bump the ref count
2416  *      before sending to hold a reference for retry if you are careful.)
2417  *
2418  *      When calling this method, interrupts MUST be enabled.  This is because
2419  *      the BH enable code must have IRQs enabled so that it will not deadlock.
2420  *          --BLG
2421  */
2422 int dev_queue_xmit(struct sk_buff *skb)
2423 {
2424         struct net_device *dev = skb->dev;
2425         struct netdev_queue *txq;
2426         struct Qdisc *q;
2427         int rc = -ENOMEM;
2428
2429         /* Disable soft irqs for various locks below. Also
2430          * stops preemption for RCU.
2431          */
2432         rcu_read_lock_bh();
2433
2434         txq = dev_pick_tx(dev, skb);
2435         q = rcu_dereference_bh(txq->qdisc);
2436
2437 #ifdef CONFIG_NET_CLS_ACT
2438         skb->tc_verd = SET_TC_AT(skb->tc_verd, AT_EGRESS);
2439 #endif
2440         trace_net_dev_queue(skb);
2441         if (q->enqueue) {
2442                 rc = __dev_xmit_skb(skb, q, dev, txq);
2443                 goto out;
2444         }
2445
2446         /* The device has no queue. Common case for software devices:
2447            loopback, all the sorts of tunnels...
2448
2449            Really, it is unlikely that netif_tx_lock protection is necessary
2450            here.  (f.e. loopback and IP tunnels are clean ignoring statistics
2451            counters.)
2452            However, it is possible, that they rely on protection
2453            made by us here.
2454
2455            Check this and shot the lock. It is not prone from deadlocks.
2456            Either shot noqueue qdisc, it is even simpler 8)
2457          */
2458         if (dev->flags & IFF_UP) {
2459                 int cpu = smp_processor_id(); /* ok because BHs are off */
2460
2461                 if (txq->xmit_lock_owner != cpu) {
2462
2463                         if (__this_cpu_read(xmit_recursion) > RECURSION_LIMIT)
2464                                 goto recursion_alert;
2465
2466                         HARD_TX_LOCK(dev, txq, cpu);
2467
2468                         if (!netif_tx_queue_stopped(txq)) {
2469                                 __this_cpu_inc(xmit_recursion);
2470                                 rc = dev_hard_start_xmit(skb, dev, txq);
2471                                 __this_cpu_dec(xmit_recursion);
2472                                 if (dev_xmit_complete(rc)) {
2473                                         HARD_TX_UNLOCK(dev, txq);
2474                                         goto out;
2475                                 }
2476                         }
2477                         HARD_TX_UNLOCK(dev, txq);
2478                         if (net_ratelimit())
2479                                 printk(KERN_CRIT "Virtual device %s asks to "
2480                                        "queue packet!\n", dev->name);
2481                 } else {
2482                         /* Recursion is detected! It is possible,
2483                          * unfortunately
2484                          */
2485 recursion_alert:
2486                         if (net_ratelimit())
2487                                 printk(KERN_CRIT "Dead loop on virtual device "
2488                                        "%s, fix it urgently!\n", dev->name);
2489                 }
2490         }
2491
2492         rc = -ENETDOWN;
2493         rcu_read_unlock_bh();
2494
2495         kfree_skb(skb);
2496         return rc;
2497 out:
2498         rcu_read_unlock_bh();
2499         return rc;
2500 }
2501 EXPORT_SYMBOL(dev_queue_xmit);
2502
2503
2504 /*=======================================================================
2505                         Receiver routines
2506   =======================================================================*/
2507
2508 int netdev_max_backlog __read_mostly = 1000;
2509 int netdev_tstamp_prequeue __read_mostly = 1;
2510 int netdev_budget __read_mostly = 300;
2511 int weight_p __read_mostly = 64;            /* old backlog weight */
2512
2513 /* Called with irq disabled */
2514 static inline void ____napi_schedule(struct softnet_data *sd,
2515                                      struct napi_struct *napi)
2516 {
2517         list_add_tail(&napi->poll_list, &sd->poll_list);
2518         __raise_softirq_irqoff(NET_RX_SOFTIRQ);
2519 }
2520
2521 /*
2522  * __skb_get_rxhash: calculate a flow hash based on src/dst addresses
2523  * and src/dst port numbers.  Sets rxhash in skb to non-zero hash value
2524  * on success, zero indicates no valid hash.  Also, sets l4_rxhash in skb
2525  * if hash is a canonical 4-tuple hash over transport ports.
2526  */
2527 void __skb_get_rxhash(struct sk_buff *skb)
2528 {
2529         int nhoff, hash = 0, poff;
2530         const struct ipv6hdr *ip6;
2531         const struct iphdr *ip;
2532         u8 ip_proto;
2533         u32 addr1, addr2;
2534         u16 proto;
2535         union {
2536                 u32 v32;
2537                 u16 v16[2];
2538         } ports;
2539
2540         nhoff = skb_network_offset(skb);
2541         proto = skb->protocol;
2542
2543 again:
2544         switch (proto) {
2545         case __constant_htons(ETH_P_IP):
2546                 if (!pskb_may_pull(skb, sizeof(*ip) + nhoff))
2547                         goto done;
2548
2549                 ip = (const struct iphdr *) (skb->data + nhoff);
2550                 if (ip_is_fragment(ip))
2551                         ip_proto = 0;
2552                 else
2553                         ip_proto = ip->protocol;
2554                 addr1 = (__force u32) ip->saddr;
2555                 addr2 = (__force u32) ip->daddr;
2556                 nhoff += ip->ihl * 4;
2557                 break;
2558         case __constant_htons(ETH_P_IPV6):
2559                 if (!pskb_may_pull(skb, sizeof(*ip6) + nhoff))
2560                         goto done;
2561
2562                 ip6 = (const struct ipv6hdr *) (skb->data + nhoff);
2563                 ip_proto = ip6->nexthdr;
2564                 addr1 = (__force u32) ip6->saddr.s6_addr32[3];
2565                 addr2 = (__force u32) ip6->daddr.s6_addr32[3];
2566                 nhoff += 40;
2567                 break;
2568         default:
2569                 goto done;
2570         }
2571
2572         switch (ip_proto) {
2573         case IPPROTO_GRE:
2574                 if (pskb_may_pull(skb, nhoff + 16)) {
2575                         u8 *h = skb->data + nhoff;
2576                         __be16 flags = *(__be16 *)h;
2577
2578                         /*
2579                          * Only look inside GRE if version zero and no
2580                          * routing
2581                          */
2582                         if (!(flags & (GRE_VERSION|GRE_ROUTING))) {
2583                                 proto = *(__be16 *)(h + 2);
2584                                 nhoff += 4;
2585                                 if (flags & GRE_CSUM)
2586                                         nhoff += 4;
2587                                 if (flags & GRE_KEY)
2588                                         nhoff += 4;
2589                                 if (flags & GRE_SEQ)
2590                                         nhoff += 4;
2591                                 goto again;
2592                         }
2593                 }
2594                 break;
2595         default:
2596                 break;
2597         }
2598
2599         ports.v32 = 0;
2600         poff = proto_ports_offset(ip_proto);
2601         if (poff >= 0) {
2602                 nhoff += poff;
2603                 if (pskb_may_pull(skb, nhoff + 4)) {
2604                         ports.v32 = * (__force u32 *) (skb->data + nhoff);
2605                         if (ports.v16[1] < ports.v16[0])
2606                                 swap(ports.v16[0], ports.v16[1]);
2607                         skb->l4_rxhash = 1;
2608                 }
2609         }
2610
2611         /* get a consistent hash (same value on both flow directions) */
2612         if (addr2 < addr1)
2613                 swap(addr1, addr2);
2614
2615         hash = jhash_3words(addr1, addr2, ports.v32, hashrnd);
2616         if (!hash)
2617                 hash = 1;
2618
2619 done:
2620         skb->rxhash = hash;
2621 }
2622 EXPORT_SYMBOL(__skb_get_rxhash);
2623
2624 #ifdef CONFIG_RPS
2625
2626 /* One global table that all flow-based protocols share. */
2627 struct rps_sock_flow_table __rcu *rps_sock_flow_table __read_mostly;
2628 EXPORT_SYMBOL(rps_sock_flow_table);
2629
2630 static struct rps_dev_flow *
2631 set_rps_cpu(struct net_device *dev, struct sk_buff *skb,
2632             struct rps_dev_flow *rflow, u16 next_cpu)
2633 {
2634         u16 tcpu;
2635
2636         tcpu = rflow->cpu = next_cpu;
2637         if (tcpu != RPS_NO_CPU) {
2638 #ifdef CONFIG_RFS_ACCEL
2639                 struct netdev_rx_queue *rxqueue;
2640                 struct rps_dev_flow_table *flow_table;
2641                 struct rps_dev_flow *old_rflow;
2642                 u32 flow_id;
2643                 u16 rxq_index;
2644                 int rc;
2645
2646                 /* Should we steer this flow to a different hardware queue? */
2647                 if (!skb_rx_queue_recorded(skb) || !dev->rx_cpu_rmap ||
2648                     !(dev->features & NETIF_F_NTUPLE))
2649                         goto out;
2650                 rxq_index = cpu_rmap_lookup_index(dev->rx_cpu_rmap, next_cpu);
2651                 if (rxq_index == skb_get_rx_queue(skb))
2652                         goto out;
2653
2654                 rxqueue = dev->_rx + rxq_index;
2655                 flow_table = rcu_dereference(rxqueue->rps_flow_table);
2656                 if (!flow_table)
2657                         goto out;
2658                 flow_id = skb->rxhash & flow_table->mask;
2659                 rc = dev->netdev_ops->ndo_rx_flow_steer(dev, skb,
2660                                                         rxq_index, flow_id);
2661                 if (rc < 0)
2662                         goto out;
2663                 old_rflow = rflow;
2664                 rflow = &flow_table->flows[flow_id];
2665                 rflow->cpu = next_cpu;
2666                 rflow->filter = rc;
2667                 if (old_rflow->filter == rflow->filter)
2668                         old_rflow->filter = RPS_NO_FILTER;
2669         out:
2670 #endif
2671                 rflow->last_qtail =
2672                         per_cpu(softnet_data, tcpu).input_queue_head;
2673         }
2674
2675         return rflow;
2676 }
2677
2678 /*
2679  * get_rps_cpu is called from netif_receive_skb and returns the target
2680  * CPU from the RPS map of the receiving queue for a given skb.
2681  * rcu_read_lock must be held on entry.
2682  */
2683 static int get_rps_cpu(struct net_device *dev, struct sk_buff *skb,
2684                        struct rps_dev_flow **rflowp)
2685 {
2686         struct netdev_rx_queue *rxqueue;
2687         struct rps_map *map;
2688         struct rps_dev_flow_table *flow_table;
2689         struct rps_sock_flow_table *sock_flow_table;
2690         int cpu = -1;
2691         u16 tcpu;
2692
2693         if (skb_rx_queue_recorded(skb)) {
2694                 u16 index = skb_get_rx_queue(skb);
2695                 if (unlikely(index >= dev->real_num_rx_queues)) {
2696                         WARN_ONCE(dev->real_num_rx_queues > 1,
2697                                   "%s received packet on queue %u, but number "
2698                                   "of RX queues is %u\n",
2699                                   dev->name, index, dev->real_num_rx_queues);
2700                         goto done;
2701                 }
2702                 rxqueue = dev->_rx + index;
2703         } else
2704                 rxqueue = dev->_rx;
2705
2706         map = rcu_dereference(rxqueue->rps_map);
2707         if (map) {
2708                 if (map->len == 1 &&
2709                     !rcu_access_pointer(rxqueue->rps_flow_table)) {
2710                         tcpu = map->cpus[0];
2711                         if (cpu_online(tcpu))
2712                                 cpu = tcpu;
2713                         goto done;
2714                 }
2715         } else if (!rcu_access_pointer(rxqueue->rps_flow_table)) {
2716                 goto done;
2717         }
2718
2719         skb_reset_network_header(skb);
2720         if (!skb_get_rxhash(skb))
2721                 goto done;
2722
2723         flow_table = rcu_dereference(rxqueue->rps_flow_table);
2724         sock_flow_table = rcu_dereference(rps_sock_flow_table);
2725         if (flow_table && sock_flow_table) {
2726                 u16 next_cpu;
2727                 struct rps_dev_flow *rflow;
2728
2729                 rflow = &flow_table->flows[skb->rxhash & flow_table->mask];
2730                 tcpu = rflow->cpu;
2731
2732                 next_cpu = sock_flow_table->ents[skb->rxhash &
2733                     sock_flow_table->mask];
2734
2735                 /*
2736                  * If the desired CPU (where last recvmsg was done) is
2737                  * different from current CPU (one in the rx-queue flow
2738                  * table entry), switch if one of the following holds:
2739                  *   - Current CPU is unset (equal to RPS_NO_CPU).
2740                  *   - Current CPU is offline.
2741                  *   - The current CPU's queue tail has advanced beyond the
2742                  *     last packet that was enqueued using this table entry.
2743                  *     This guarantees that all previous packets for the flow
2744                  *     have been dequeued, thus preserving in order delivery.
2745                  */
2746                 if (unlikely(tcpu != next_cpu) &&
2747                     (tcpu == RPS_NO_CPU || !cpu_online(tcpu) ||
2748                      ((int)(per_cpu(softnet_data, tcpu).input_queue_head -
2749                       rflow->last_qtail)) >= 0))
2750                         rflow = set_rps_cpu(dev, skb, rflow, next_cpu);
2751
2752                 if (tcpu != RPS_NO_CPU && cpu_online(tcpu)) {
2753                         *rflowp = rflow;
2754                         cpu = tcpu;
2755                         goto done;
2756                 }
2757         }
2758
2759         if (map) {
2760                 tcpu = map->cpus[((u64) skb->rxhash * map->len) >> 32];
2761
2762                 if (cpu_online(tcpu)) {
2763                         cpu = tcpu;
2764                         goto done;
2765                 }
2766         }
2767
2768 done:
2769         return cpu;
2770 }
2771
2772 #ifdef CONFIG_RFS_ACCEL
2773
2774 /**
2775  * rps_may_expire_flow - check whether an RFS hardware filter may be removed
2776  * @dev: Device on which the filter was set
2777  * @rxq_index: RX queue index
2778  * @flow_id: Flow ID passed to ndo_rx_flow_steer()
2779  * @filter_id: Filter ID returned by ndo_rx_flow_steer()
2780  *
2781  * Drivers that implement ndo_rx_flow_steer() should periodically call
2782  * this function for each installed filter and remove the filters for
2783  * which it returns %true.
2784  */
2785 bool rps_may_expire_flow(struct net_device *dev, u16 rxq_index,
2786                          u32 flow_id, u16 filter_id)
2787 {
2788         struct netdev_rx_queue *rxqueue = dev->_rx + rxq_index;
2789         struct rps_dev_flow_table *flow_table;
2790         struct rps_dev_flow *rflow;
2791         bool expire = true;
2792         int cpu;
2793
2794         rcu_read_lock();
2795         flow_table = rcu_dereference(rxqueue->rps_flow_table);
2796         if (flow_table && flow_id <= flow_table->mask) {
2797                 rflow = &flow_table->flows[flow_id];
2798                 cpu = ACCESS_ONCE(rflow->cpu);
2799                 if (rflow->filter == filter_id && cpu != RPS_NO_CPU &&
2800                     ((int)(per_cpu(softnet_data, cpu).input_queue_head -
2801                            rflow->last_qtail) <
2802                      (int)(10 * flow_table->mask)))
2803                         expire = false;
2804         }
2805         rcu_read_unlock();
2806         return expire;
2807 }
2808 EXPORT_SYMBOL(rps_may_expire_flow);
2809
2810 #endif /* CONFIG_RFS_ACCEL */
2811
2812 /* Called from hardirq (IPI) context */
2813 static void rps_trigger_softirq(void *data)
2814 {
2815         struct softnet_data *sd = data;
2816
2817         ____napi_schedule(sd, &sd->backlog);
2818         sd->received_rps++;
2819 }
2820
2821 #endif /* CONFIG_RPS */
2822
2823 /*
2824  * Check if this softnet_data structure is another cpu one
2825  * If yes, queue it to our IPI list and return 1
2826  * If no, return 0
2827  */
2828 static int rps_ipi_queued(struct softnet_data *sd)
2829 {
2830 #ifdef CONFIG_RPS
2831         struct softnet_data *mysd = &__get_cpu_var(softnet_data);
2832
2833         if (sd != mysd) {
2834                 sd->rps_ipi_next = mysd->rps_ipi_list;
2835                 mysd->rps_ipi_list = sd;
2836
2837                 __raise_softirq_irqoff(NET_RX_SOFTIRQ);
2838                 return 1;
2839         }
2840 #endif /* CONFIG_RPS */
2841         return 0;
2842 }
2843
2844 /*
2845  * enqueue_to_backlog is called to queue an skb to a per CPU backlog
2846  * queue (may be a remote CPU queue).
2847  */
2848 static int enqueue_to_backlog(struct sk_buff *skb, int cpu,
2849                               unsigned int *qtail)
2850 {
2851         struct softnet_data *sd;
2852         unsigned long flags;
2853
2854         sd = &per_cpu(softnet_data, cpu);
2855
2856         local_irq_save(flags);
2857
2858         rps_lock(sd);
2859         if (skb_queue_len(&sd->input_pkt_queue) <= netdev_max_backlog) {
2860                 if (skb_queue_len(&sd->input_pkt_queue)) {
2861 enqueue:
2862                         __skb_queue_tail(&sd->input_pkt_queue, skb);
2863                         input_queue_tail_incr_save(sd, qtail);
2864                         rps_unlock(sd);
2865                         local_irq_restore(flags);
2866                         return NET_RX_SUCCESS;
2867                 }
2868
2869                 /* Schedule NAPI for backlog device
2870                  * We can use non atomic operation since we own the queue lock
2871                  */
2872                 if (!__test_and_set_bit(NAPI_STATE_SCHED, &sd->backlog.state)) {
2873                         if (!rps_ipi_queued(sd))
2874                                 ____napi_schedule(sd, &sd->backlog);
2875                 }
2876                 goto enqueue;
2877         }
2878
2879         sd->dropped++;
2880         rps_unlock(sd);
2881
2882         local_irq_restore(flags);
2883
2884         atomic_long_inc(&skb->dev->rx_dropped);
2885         kfree_skb(skb);
2886         return NET_RX_DROP;
2887 }
2888
2889 /**
2890  *      netif_rx        -       post buffer to the network code
2891  *      @skb: buffer to post
2892  *
2893  *      This function receives a packet from a device driver and queues it for
2894  *      the upper (protocol) levels to process.  It always succeeds. The buffer
2895  *      may be dropped during processing for congestion control or by the
2896  *      protocol layers.
2897  *
2898  *      return values:
2899  *      NET_RX_SUCCESS  (no congestion)
2900  *      NET_RX_DROP     (packet was dropped)
2901  *
2902  */
2903
2904 int netif_rx(struct sk_buff *skb)
2905 {
2906         int ret;
2907
2908         /* if netpoll wants it, pretend we never saw it */
2909         if (netpoll_rx(skb))
2910                 return NET_RX_DROP;
2911
2912         if (netdev_tstamp_prequeue)
2913                 net_timestamp_check(skb);
2914
2915         trace_netif_rx(skb);
2916 #ifdef CONFIG_RPS
2917         {
2918                 struct rps_dev_flow voidflow, *rflow = &voidflow;
2919                 int cpu;
2920
2921                 preempt_disable();
2922                 rcu_read_lock();
2923
2924                 cpu = get_rps_cpu(skb->dev, skb, &rflow);
2925                 if (cpu < 0)
2926                         cpu = smp_processor_id();
2927
2928                 ret = enqueue_to_backlog(skb, cpu, &rflow->last_qtail);
2929
2930                 rcu_read_unlock();
2931                 preempt_enable();
2932         }
2933 #else
2934         {
2935                 unsigned int qtail;
2936                 ret = enqueue_to_backlog(skb, get_cpu(), &qtail);
2937                 put_cpu();
2938         }
2939 #endif
2940         return ret;
2941 }
2942 EXPORT_SYMBOL(netif_rx);
2943
2944 int netif_rx_ni(struct sk_buff *skb)
2945 {
2946         int err;
2947
2948         preempt_disable();
2949         err = netif_rx(skb);
2950         if (local_softirq_pending())
2951                 do_softirq();
2952         preempt_enable();
2953
2954         return err;
2955 }
2956 EXPORT_SYMBOL(netif_rx_ni);
2957
2958 static void net_tx_action(struct softirq_action *h)
2959 {
2960         struct softnet_data *sd = &__get_cpu_var(softnet_data);
2961
2962         if (sd->completion_queue) {
2963                 struct sk_buff *clist;
2964
2965                 local_irq_disable();
2966                 clist = sd->completion_queue;
2967                 sd->completion_queue = NULL;
2968                 local_irq_enable();
2969
2970                 while (clist) {
2971                         struct sk_buff *skb = clist;
2972                         clist = clist->next;
2973
2974                         WARN_ON(atomic_read(&skb->users));
2975                         trace_kfree_skb(skb, net_tx_action);
2976                         __kfree_skb(skb);
2977                 }
2978         }
2979
2980         if (sd->output_queue) {
2981                 struct Qdisc *head;
2982
2983                 local_irq_disable();
2984                 head = sd->output_queue;
2985                 sd->output_queue = NULL;
2986                 sd->output_queue_tailp = &sd->output_queue;
2987                 local_irq_enable();
2988
2989                 while (head) {
2990                         struct Qdisc *q = head;
2991                         spinlock_t *root_lock;
2992
2993                         head = head->next_sched;
2994
2995                         root_lock = qdisc_lock(q);
2996                         if (spin_trylock(root_lock)) {
2997                                 smp_mb__before_clear_bit();
2998                                 clear_bit(__QDISC_STATE_SCHED,
2999                                           &q->state);
3000                                 qdisc_run(q);
3001                                 spin_unlock(root_lock);
3002                         } else {
3003                                 if (!test_bit(__QDISC_STATE_DEACTIVATED,
3004                                               &q->state)) {
3005                                         __netif_reschedule(q);
3006                                 } else {
3007                                         smp_mb__before_clear_bit();
3008                                         clear_bit(__QDISC_STATE_SCHED,
3009                                                   &q->state);
3010                                 }
3011                         }
3012                 }
3013         }
3014 }
3015
3016 #if (defined(CONFIG_BRIDGE) || defined(CONFIG_BRIDGE_MODULE)) && \
3017     (defined(CONFIG_ATM_LANE) || defined(CONFIG_ATM_LANE_MODULE))
3018 /* This hook is defined here for ATM LANE */
3019 int (*br_fdb_test_addr_hook)(struct net_device *dev,
3020                              unsigned char *addr) __read_mostly;
3021 EXPORT_SYMBOL_GPL(br_fdb_test_addr_hook);
3022 #endif
3023
3024 #ifdef CONFIG_NET_CLS_ACT
3025 /* TODO: Maybe we should just force sch_ingress to be compiled in
3026  * when CONFIG_NET_CLS_ACT is? otherwise some useless instructions
3027  * a compare and 2 stores extra right now if we dont have it on
3028  * but have CONFIG_NET_CLS_ACT
3029  * NOTE: This doesn't stop any functionality; if you dont have
3030  * the ingress scheduler, you just can't add policies on ingress.
3031  *
3032  */
3033 static int ing_filter(struct sk_buff *skb, struct netdev_queue *rxq)
3034 {
3035         struct net_device *dev = skb->dev;
3036         u32 ttl = G_TC_RTTL(skb->tc_verd);
3037         int result = TC_ACT_OK;
3038         struct Qdisc *q;
3039
3040         if (unlikely(MAX_RED_LOOP < ttl++)) {
3041                 if (net_ratelimit())
3042                         pr_warning( "Redir loop detected Dropping packet (%d->%d)\n",
3043                                skb->skb_iif, dev->ifindex);
3044                 return TC_ACT_SHOT;
3045         }
3046
3047         skb->tc_verd = SET_TC_RTTL(skb->tc_verd, ttl);
3048         skb->tc_verd = SET_TC_AT(skb->tc_verd, AT_INGRESS);
3049
3050         q = rxq->qdisc;
3051         if (q != &noop_qdisc) {
3052                 spin_lock(qdisc_lock(q));
3053                 if (likely(!test_bit(__QDISC_STATE_DEACTIVATED, &q->state)))
3054                         result = qdisc_enqueue_root(skb, q);
3055                 spin_unlock(qdisc_lock(q));
3056         }
3057
3058         return result;
3059 }
3060
3061 static inline struct sk_buff *handle_ing(struct sk_buff *skb,
3062                                          struct packet_type **pt_prev,
3063                                          int *ret, struct net_device *orig_dev)
3064 {
3065         struct netdev_queue *rxq = rcu_dereference(skb->dev->ingress_queue);
3066
3067         if (!rxq || rxq->qdisc == &noop_qdisc)
3068                 goto out;
3069
3070         if (*pt_prev) {
3071                 *ret = deliver_skb(skb, *pt_prev, orig_dev);
3072                 *pt_prev = NULL;
3073         }
3074
3075         switch (ing_filter(skb, rxq)) {
3076         case TC_ACT_SHOT:
3077         case TC_ACT_STOLEN:
3078                 kfree_skb(skb);
3079                 return NULL;
3080         }
3081
3082 out:
3083         skb->tc_verd = 0;
3084         return skb;
3085 }
3086 #endif
3087
3088 /**
3089  *      netdev_rx_handler_register - register receive handler
3090  *      @dev: device to register a handler for
3091  *      @rx_handler: receive handler to register
3092  *      @rx_handler_data: data pointer that is used by rx handler
3093  *
3094  *      Register a receive hander for a device. This handler will then be
3095  *      called from __netif_receive_skb. A negative errno code is returned
3096  *      on a failure.
3097  *
3098  *      The caller must hold the rtnl_mutex.
3099  *
3100  *      For a general description of rx_handler, see enum rx_handler_result.
3101  */
3102 int netdev_rx_handler_register(struct net_device *dev,
3103                                rx_handler_func_t *rx_handler,
3104                                void *rx_handler_data)
3105 {
3106         ASSERT_RTNL();
3107
3108         if (dev->rx_handler)
3109                 return -EBUSY;
3110
3111         rcu_assign_pointer(dev->rx_handler_data, rx_handler_data);
3112         rcu_assign_pointer(dev->rx_handler, rx_handler);
3113
3114         return 0;
3115 }
3116 EXPORT_SYMBOL_GPL(netdev_rx_handler_register);
3117
3118 /**
3119  *      netdev_rx_handler_unregister - unregister receive handler
3120  *      @dev: device to unregister a handler from
3121  *
3122  *      Unregister a receive hander from a device.
3123  *
3124  *      The caller must hold the rtnl_mutex.
3125  */
3126 void netdev_rx_handler_unregister(struct net_device *dev)
3127 {
3128
3129         ASSERT_RTNL();
3130         RCU_INIT_POINTER(dev->rx_handler, NULL);
3131         RCU_INIT_POINTER(dev->rx_handler_data, NULL);
3132 }
3133 EXPORT_SYMBOL_GPL(netdev_rx_handler_unregister);
3134
3135 static int __netif_receive_skb(struct sk_buff *skb)
3136 {
3137         struct packet_type *ptype, *pt_prev;
3138         rx_handler_func_t *rx_handler;
3139         struct net_device *orig_dev;
3140         struct net_device *null_or_dev;
3141         bool deliver_exact = false;
3142         int ret = NET_RX_DROP;
3143         __be16 type;
3144
3145         if (!netdev_tstamp_prequeue)
3146                 net_timestamp_check(skb);
3147
3148         trace_netif_receive_skb(skb);
3149
3150         /* if we've gotten here through NAPI, check netpoll */
3151         if (netpoll_receive_skb(skb))
3152                 return NET_RX_DROP;
3153
3154         if (!skb->skb_iif)
3155                 skb->skb_iif = skb->dev->ifindex;
3156         orig_dev = skb->dev;
3157
3158         skb_reset_network_header(skb);
3159         skb_reset_transport_header(skb);
3160         skb_reset_mac_len(skb);
3161
3162         pt_prev = NULL;
3163
3164         rcu_read_lock();
3165
3166 another_round:
3167
3168         __this_cpu_inc(softnet_data.processed);
3169
3170         if (skb->protocol == cpu_to_be16(ETH_P_8021Q)) {
3171                 skb = vlan_untag(skb);
3172                 if (unlikely(!skb))
3173                         goto out;
3174         }
3175
3176 #ifdef CONFIG_NET_CLS_ACT
3177         if (skb->tc_verd & TC_NCLS) {
3178                 skb->tc_verd = CLR_TC_NCLS(skb->tc_verd);
3179                 goto ncls;
3180         }
3181 #endif
3182
3183         list_for_each_entry_rcu(ptype, &ptype_all, list) {
3184                 if (!ptype->dev || ptype->dev == skb->dev) {
3185                         if (pt_prev)
3186                                 ret = deliver_skb(skb, pt_prev, orig_dev);
3187                         pt_prev = ptype;
3188                 }
3189         }
3190
3191 #ifdef CONFIG_NET_CLS_ACT
3192         skb = handle_ing(skb, &pt_prev, &ret, orig_dev);
3193         if (!skb)
3194                 goto out;
3195 ncls:
3196 #endif
3197
3198         rx_handler = rcu_dereference(skb->dev->rx_handler);
3199         if (rx_handler) {
3200                 if (pt_prev) {
3201                         ret = deliver_skb(skb, pt_prev, orig_dev);
3202                         pt_prev = NULL;
3203                 }
3204                 switch (rx_handler(&skb)) {
3205                 case RX_HANDLER_CONSUMED:
3206                         goto out;
3207                 case RX_HANDLER_ANOTHER:
3208                         goto another_round;
3209                 case RX_HANDLER_EXACT:
3210                         deliver_exact = true;
3211                 case RX_HANDLER_PASS:
3212                         break;
3213                 default:
3214                         BUG();
3215                 }
3216         }
3217
3218         if (vlan_tx_tag_present(skb)) {
3219                 if (pt_prev) {
3220                         ret = deliver_skb(skb, pt_prev, orig_dev);
3221                         pt_prev = NULL;
3222                 }
3223                 if (vlan_do_receive(&skb)) {
3224                         ret = __netif_receive_skb(skb);
3225                         goto out;
3226                 } else if (unlikely(!skb))
3227                         goto out;
3228         }
3229
3230         /* deliver only exact match when indicated */
3231         null_or_dev = deliver_exact ? skb->dev : NULL;
3232
3233         type = skb->protocol;
3234         list_for_each_entry_rcu(ptype,
3235                         &ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) {
3236                 if (ptype->type == type &&
3237                     (ptype->dev == null_or_dev || ptype->dev == skb->dev ||
3238                      ptype->dev == orig_dev)) {
3239                         if (pt_prev)
3240                                 ret = deliver_skb(skb, pt_prev, orig_dev);
3241                         pt_prev = ptype;
3242                 }
3243         }
3244
3245         if (pt_prev) {
3246                 ret = pt_prev->func(skb, skb->dev, pt_prev, orig_dev);
3247         } else {
3248                 atomic_long_inc(&skb->dev->rx_dropped);
3249                 kfree_skb(skb);
3250                 /* Jamal, now you will not able to escape explaining
3251                  * me how you were going to use this. :-)
3252                  */
3253                 ret = NET_RX_DROP;
3254         }
3255
3256 out:
3257         rcu_read_unlock();
3258         return ret;
3259 }
3260
3261 /**
3262  *      netif_receive_skb - process receive buffer from network
3263  *      @skb: buffer to process
3264  *
3265  *      netif_receive_skb() is the main receive data processing function.
3266  *      It always succeeds. The buffer may be dropped during processing
3267  *      for congestion control or by the protocol layers.
3268  *
3269  *      This function may only be called from softirq context and interrupts
3270  *      should be enabled.
3271  *
3272  *      Return values (usually ignored):
3273  *      NET_RX_SUCCESS: no congestion
3274  *      NET_RX_DROP: packet was dropped
3275  */
3276 int netif_receive_skb(struct sk_buff *skb)
3277 {
3278         if (netdev_tstamp_prequeue)
3279                 net_timestamp_check(skb);
3280
3281         if (skb_defer_rx_timestamp(skb))
3282                 return NET_RX_SUCCESS;
3283
3284 #ifdef CONFIG_RPS
3285         {
3286                 struct rps_dev_flow voidflow, *rflow = &voidflow;
3287                 int cpu, ret;
3288
3289                 rcu_read_lock();
3290
3291                 cpu = get_rps_cpu(skb->dev, skb, &rflow);
3292
3293                 if (cpu >= 0) {
3294                         ret = enqueue_to_backlog(skb, cpu, &rflow->last_qtail);
3295                         rcu_read_unlock();
3296                 } else {
3297                         rcu_read_unlock();
3298                         ret = __netif_receive_skb(skb);
3299                 }
3300
3301                 return ret;
3302         }
3303 #else
3304         return __netif_receive_skb(skb);
3305 #endif
3306 }
3307 EXPORT_SYMBOL(netif_receive_skb);
3308
3309 /* Network device is going away, flush any packets still pending
3310  * Called with irqs disabled.
3311  */
3312 static void flush_backlog(void *arg)
3313 {
3314         struct net_device *dev = arg;
3315         struct softnet_data *sd = &__get_cpu_var(softnet_data);
3316         struct sk_buff *skb, *tmp;
3317
3318         rps_lock(sd);
3319         skb_queue_walk_safe(&sd->input_pkt_queue, skb, tmp) {
3320                 if (skb->dev == dev) {
3321                         __skb_unlink(skb, &sd->input_pkt_queue);
3322                         kfree_skb(skb);
3323                         input_queue_head_incr(sd);
3324                 }
3325         }
3326         rps_unlock(sd);
3327
3328         skb_queue_walk_safe(&sd->process_queue, skb, tmp) {
3329                 if (skb->dev == dev) {
3330                         __skb_unlink(skb, &sd->process_queue);
3331                         kfree_skb(skb);
3332                         input_queue_head_incr(sd);
3333                 }
3334         }
3335 }
3336
3337 static int napi_gro_complete(struct sk_buff *skb)
3338 {
3339         struct packet_type *ptype;
3340         __be16 type = skb->protocol;
3341         struct list_head *head = &ptype_base[ntohs(type) & PTYPE_HASH_MASK];
3342         int err = -ENOENT;
3343
3344         if (NAPI_GRO_CB(skb)->count == 1) {
3345                 skb_shinfo(skb)->gso_size = 0;
3346                 goto out;
3347         }
3348
3349         rcu_read_lock();
3350         list_for_each_entry_rcu(ptype, head, list) {
3351                 if (ptype->type != type || ptype->dev || !ptype->gro_complete)
3352                         continue;
3353
3354                 err = ptype->gro_complete(skb);
3355                 break;
3356         }
3357         rcu_read_unlock();
3358
3359         if (err) {
3360                 WARN_ON(&ptype->list == head);
3361                 kfree_skb(skb);
3362                 return NET_RX_SUCCESS;
3363         }
3364
3365 out:
3366         return netif_receive_skb(skb);
3367 }
3368
3369 inline void napi_gro_flush(struct napi_struct *napi)
3370 {
3371         struct sk_buff *skb, *next;
3372
3373         for (skb = napi->gro_list; skb; skb = next) {
3374                 next = skb->next;
3375                 skb->next = NULL;
3376                 napi_gro_complete(skb);
3377         }
3378
3379         napi->gro_count = 0;
3380         napi->gro_list = NULL;
3381 }
3382 EXPORT_SYMBOL(napi_gro_flush);
3383
3384 enum gro_result dev_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
3385 {
3386         struct sk_buff **pp = NULL;
3387         struct packet_type *ptype;
3388         __be16 type = skb->protocol;
3389         struct list_head *head = &ptype_base[ntohs(type) & PTYPE_HASH_MASK];
3390         int same_flow;
3391         int mac_len;
3392         enum gro_result ret;
3393
3394         if (!(skb->dev->features & NETIF_F_GRO) || netpoll_rx_on(skb))
3395                 goto normal;
3396
3397         if (skb_is_gso(skb) || skb_has_frag_list(skb))
3398                 goto normal;
3399
3400         rcu_read_lock();
3401         list_for_each_entry_rcu(ptype, head, list) {
3402                 if (ptype->type != type || ptype->dev || !ptype->gro_receive)
3403                         continue;
3404
3405                 skb_set_network_header(skb, skb_gro_offset(skb));
3406                 mac_len = skb->network_header - skb->mac_header;
3407                 skb->mac_len = mac_len;
3408                 NAPI_GRO_CB(skb)->same_flow = 0;
3409                 NAPI_GRO_CB(skb)->flush = 0;
3410                 NAPI_GRO_CB(skb)->free = 0;
3411
3412                 pp = ptype->gro_receive(&napi->gro_list, skb);
3413                 break;
3414         }
3415         rcu_read_unlock();
3416
3417         if (&ptype->list == head)
3418                 goto normal;
3419
3420         same_flow = NAPI_GRO_CB(skb)->same_flow;
3421         ret = NAPI_GRO_CB(skb)->free ? GRO_MERGED_FREE : GRO_MERGED;
3422
3423         if (pp) {
3424                 struct sk_buff *nskb = *pp;
3425
3426                 *pp = nskb->next;
3427                 nskb->next = NULL;
3428                 napi_gro_complete(nskb);
3429                 napi->gro_count--;
3430         }
3431
3432         if (same_flow)
3433                 goto ok;
3434
3435         if (NAPI_GRO_CB(skb)->flush || napi->gro_count >= MAX_GRO_SKBS)
3436                 goto normal;
3437
3438         napi->gro_count++;
3439         NAPI_GRO_CB(skb)->count = 1;
3440         skb_shinfo(skb)->gso_size = skb_gro_len(skb);
3441         skb->next = napi->gro_list;
3442         napi->gro_list = skb;
3443         ret = GRO_HELD;
3444
3445 pull:
3446         if (skb_headlen(skb) < skb_gro_offset(skb)) {
3447                 int grow = skb_gro_offset(skb) - skb_headlen(skb);
3448
3449                 BUG_ON(skb->end - skb->tail < grow);
3450
3451                 memcpy(skb_tail_pointer(skb), NAPI_GRO_CB(skb)->frag0, grow);
3452
3453                 skb->tail += grow;
3454                 skb->data_len -= grow;
3455
3456                 skb_shinfo(skb)->frags[0].page_offset += grow;
3457                 skb_shinfo(skb)->frags[0].size -= grow;
3458
3459                 if (unlikely(!skb_shinfo(skb)->frags[0].size)) {
3460                         put_page(skb_shinfo(skb)->frags[0].page);
3461                         memmove(skb_shinfo(skb)->frags,
3462                                 skb_shinfo(skb)->frags + 1,
3463                                 --skb_shinfo(skb)->nr_frags * sizeof(skb_frag_t));
3464                 }
3465         }
3466
3467 ok:
3468         return ret;
3469
3470 normal:
3471         ret = GRO_NORMAL;
3472         goto pull;
3473 }
3474 EXPORT_SYMBOL(dev_gro_receive);
3475
3476 static inline gro_result_t
3477 __napi_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
3478 {
3479         struct sk_buff *p;
3480
3481         for (p = napi->gro_list; p; p = p->next) {
3482                 unsigned long diffs;
3483
3484                 diffs = (unsigned long)p->dev ^ (unsigned long)skb->dev;
3485                 diffs |= p->vlan_tci ^ skb->vlan_tci;
3486                 diffs |= compare_ether_header(skb_mac_header(p),
3487                                               skb_gro_mac_header(skb));
3488                 NAPI_GRO_CB(p)->same_flow = !diffs;
3489                 NAPI_GRO_CB(p)->flush = 0;
3490         }
3491
3492         return dev_gro_receive(napi, skb);
3493 }
3494
3495 gro_result_t napi_skb_finish(gro_result_t ret, struct sk_buff *skb)
3496 {
3497         switch (ret) {
3498         case GRO_NORMAL:
3499                 if (netif_receive_skb(skb))
3500                         ret = GRO_DROP;
3501                 break;
3502
3503         case GRO_DROP:
3504         case GRO_MERGED_FREE:
3505                 kfree_skb(skb);
3506                 break;
3507
3508         case GRO_HELD:
3509         case GRO_MERGED:
3510                 break;
3511         }
3512
3513         return ret;
3514 }
3515 EXPORT_SYMBOL(napi_skb_finish);
3516
3517 void skb_gro_reset_offset(struct sk_buff *skb)
3518 {
3519         NAPI_GRO_CB(skb)->data_offset = 0;
3520         NAPI_GRO_CB(skb)->frag0 = NULL;
3521         NAPI_GRO_CB(skb)->frag0_len = 0;
3522
3523         if (skb->mac_header == skb->tail &&
3524             !PageHighMem(skb_shinfo(skb)->frags[0].page)) {
3525                 NAPI_GRO_CB(skb)->frag0 =
3526                         page_address(skb_shinfo(skb)->frags[0].page) +
3527                         skb_shinfo(skb)->frags[0].page_offset;
3528                 NAPI_GRO_CB(skb)->frag0_len = skb_shinfo(skb)->frags[0].size;
3529         }
3530 }
3531 EXPORT_SYMBOL(skb_gro_reset_offset);
3532
3533 gro_result_t napi_gro_receive(struct napi_struct *napi, struct sk_buff *skb)
3534 {
3535         skb_gro_reset_offset(skb);
3536
3537         return napi_skb_finish(__napi_gro_receive(napi, skb), skb);
3538 }
3539 EXPORT_SYMBOL(napi_gro_receive);
3540
3541 static void napi_reuse_skb(struct napi_struct *napi, struct sk_buff *skb)
3542 {
3543         __skb_pull(skb, skb_headlen(skb));
3544         skb_reserve(skb, NET_IP_ALIGN - skb_headroom(skb));
3545         skb->vlan_tci = 0;
3546         skb->dev = napi->dev;
3547         skb->skb_iif = 0;
3548
3549         napi->skb = skb;
3550 }
3551
3552 struct sk_buff *napi_get_frags(struct napi_struct *napi)
3553 {
3554         struct sk_buff *skb = napi->skb;
3555
3556         if (!skb) {
3557                 skb = netdev_alloc_skb_ip_align(napi->dev, GRO_MAX_HEAD);
3558                 if (skb)
3559                         napi->skb = skb;
3560         }
3561         return skb;
3562 }
3563 EXPORT_SYMBOL(napi_get_frags);
3564
3565 gro_result_t napi_frags_finish(struct napi_struct *napi, struct sk_buff *skb,
3566                                gro_result_t ret)
3567 {
3568         switch (ret) {
3569         case GRO_NORMAL:
3570         case GRO_HELD:
3571                 skb->protocol = eth_type_trans(skb, skb->dev);
3572
3573                 if (ret == GRO_HELD)
3574                         skb_gro_pull(skb, -ETH_HLEN);
3575                 else if (netif_receive_skb(skb))
3576                         ret = GRO_DROP;
3577                 break;
3578
3579         case GRO_DROP:
3580         case GRO_MERGED_FREE:
3581                 napi_reuse_skb(napi, skb);
3582                 break;
3583
3584         case GRO_MERGED:
3585                 break;
3586         }
3587
3588         return ret;
3589 }
3590 EXPORT_SYMBOL(napi_frags_finish);
3591
3592 struct sk_buff *napi_frags_skb(struct napi_struct *napi)
3593 {
3594         struct sk_buff *skb = napi->skb;
3595         struct ethhdr *eth;
3596         unsigned int hlen;
3597         unsigned int off;
3598
3599         napi->skb = NULL;
3600
3601         skb_reset_mac_header(skb);
3602         skb_gro_reset_offset(skb);
3603
3604         off = skb_gro_offset(skb);
3605         hlen = off + sizeof(*eth);
3606         eth = skb_gro_header_fast(skb, off);
3607         if (skb_gro_header_hard(skb, hlen)) {
3608                 eth = skb_gro_header_slow(skb, hlen, off);
3609                 if (unlikely(!eth)) {
3610                         napi_reuse_skb(napi, skb);
3611                         skb = NULL;
3612                         goto out;
3613                 }
3614         }
3615
3616         skb_gro_pull(skb, sizeof(*eth));
3617
3618         /*
3619          * This works because the only protocols we care about don't require
3620          * special handling.  We'll fix it up properly at the end.
3621          */
3622         skb->protocol = eth->h_proto;
3623
3624 out:
3625         return skb;
3626 }
3627 EXPORT_SYMBOL(napi_frags_skb);
3628
3629 gro_result_t napi_gro_frags(struct napi_struct *napi)
3630 {
3631         struct sk_buff *skb = napi_frags_skb(napi);
3632
3633         if (!skb)
3634                 return GRO_DROP;
3635
3636         return napi_frags_finish(napi, skb, __napi_gro_receive(napi, skb));
3637 }
3638 EXPORT_SYMBOL(napi_gro_frags);
3639
3640 /*
3641  * net_rps_action sends any pending IPI's for rps.
3642  * Note: called with local irq disabled, but exits with local irq enabled.
3643  */
3644 static void net_rps_action_and_irq_enable(struct softnet_data *sd)
3645 {
3646 #ifdef CONFIG_RPS
3647         struct softnet_data *remsd = sd->rps_ipi_list;
3648
3649         if (remsd) {
3650                 sd->rps_ipi_list = NULL;
3651
3652                 local_irq_enable();
3653
3654                 /* Send pending IPI's to kick RPS processing on remote cpus. */
3655                 while (remsd) {
3656                         struct softnet_data *next = remsd->rps_ipi_next;
3657
3658                         if (cpu_online(remsd->cpu))
3659                                 __smp_call_function_single(remsd->cpu,
3660                                                            &remsd->csd, 0);
3661                         remsd = next;
3662                 }
3663         } else
3664 #endif
3665                 local_irq_enable();
3666 }
3667
3668 static int process_backlog(struct napi_struct *napi, int quota)
3669 {
3670         int work = 0;
3671         struct softnet_data *sd = container_of(napi, struct softnet_data, backlog);
3672
3673 #ifdef CONFIG_RPS
3674         /* Check if we have pending ipi, its better to send them now,
3675          * not waiting net_rx_action() end.
3676          */
3677         if (sd->rps_ipi_list) {
3678                 local_irq_disable();
3679                 net_rps_action_and_irq_enable(sd);
3680         }
3681 #endif
3682         napi->weight = weight_p;
3683         local_irq_disable();
3684         while (work < quota) {
3685                 struct sk_buff *skb;
3686                 unsigned int qlen;
3687
3688                 while ((skb = __skb_dequeue(&sd->process_queue))) {
3689                         local_irq_enable();
3690                         __netif_receive_skb(skb);
3691                         local_irq_disable();
3692                         input_queue_head_incr(sd);
3693                         if (++work >= quota) {
3694                                 local_irq_enable();
3695                                 return work;
3696                         }
3697                 }
3698
3699                 rps_lock(sd);
3700                 qlen = skb_queue_len(&sd->input_pkt_queue);
3701                 if (qlen)
3702                         skb_queue_splice_tail_init(&sd->input_pkt_queue,
3703                                                    &sd->process_queue);
3704
3705                 if (qlen < quota - work) {
3706                         /*
3707                          * Inline a custom version of __napi_complete().
3708                          * only current cpu owns and manipulates this napi,
3709                          * and NAPI_STATE_SCHED is the only possible flag set on backlog.
3710                          * we can use a plain write instead of clear_bit(),
3711                          * and we dont need an smp_mb() memory barrier.
3712                          */
3713                         list_del(&napi->poll_list);
3714                         napi->state = 0;
3715
3716                         quota = work + qlen;
3717                 }
3718                 rps_unlock(sd);
3719         }
3720         local_irq_enable();
3721
3722         return work;
3723 }
3724
3725 /**
3726  * __napi_schedule - schedule for receive
3727  * @n: entry to schedule
3728  *
3729  * The entry's receive function will be scheduled to run
3730  */
3731 void __napi_schedule(struct napi_struct *n)
3732 {
3733         unsigned long flags;
3734
3735         local_irq_save(flags);
3736         ____napi_schedule(&__get_cpu_var(softnet_data), n);
3737         local_irq_restore(flags);
3738 }
3739 EXPORT_SYMBOL(__napi_schedule);
3740
3741 void __napi_complete(struct napi_struct *n)
3742 {
3743         BUG_ON(!test_bit(NAPI_STATE_SCHED, &n->state));
3744         BUG_ON(n->gro_list);
3745
3746         list_del(&n->poll_list);
3747         smp_mb__before_clear_bit();
3748         clear_bit(NAPI_STATE_SCHED, &n->state);
3749 }
3750 EXPORT_SYMBOL(__napi_complete);
3751
3752 void napi_complete(struct napi_struct *n)
3753 {
3754         unsigned long flags;
3755
3756         /*
3757          * don't let napi dequeue from the cpu poll list
3758          * just in case its running on a different cpu
3759          */
3760         if (unlikely(test_bit(NAPI_STATE_NPSVC, &n->state)))
3761                 return;
3762
3763         napi_gro_flush(n);
3764         local_irq_save(flags);
3765         __napi_complete(n);
3766         local_irq_restore(flags);
3767 }
3768 EXPORT_SYMBOL(napi_complete);
3769
3770 void netif_napi_add(struct net_device *dev, struct napi_struct *napi,
3771                     int (*poll)(struct napi_struct *, int), int weight)
3772 {
3773         INIT_LIST_HEAD(&napi->poll_list);
3774         napi->gro_count = 0;
3775         napi->gro_list = NULL;
3776         napi->skb = NULL;
3777         napi->poll = poll;
3778         napi->weight = weight;
3779         list_add(&napi->dev_list, &dev->napi_list);
3780         napi->dev = dev;
3781 #ifdef CONFIG_NETPOLL
3782         spin_lock_init(&napi->poll_lock);
3783         napi->poll_owner = -1;
3784 #endif
3785         set_bit(NAPI_STATE_SCHED, &napi->state);
3786 }
3787 EXPORT_SYMBOL(netif_napi_add);
3788
3789 void netif_napi_del(struct napi_struct *napi)
3790 {
3791         struct sk_buff *skb, *next;
3792
3793         list_del_init(&napi->dev_list);
3794         napi_free_frags(napi);
3795
3796         for (skb = napi->gro_list; skb; skb = next) {
3797                 next = skb->next;
3798                 skb->next = NULL;
3799                 kfree_skb(skb);
3800         }
3801
3802         napi->gro_list = NULL;
3803         napi->gro_count = 0;
3804 }
3805 EXPORT_SYMBOL(netif_napi_del);
3806
3807 static void net_rx_action(struct softirq_action *h)
3808 {
3809         struct softnet_data *sd = &__get_cpu_var(softnet_data);
3810         unsigned long time_limit = jiffies + 2;
3811         int budget = netdev_budget;
3812         void *have;
3813
3814         local_irq_disable();
3815
3816         while (!list_empty(&sd->poll_list)) {
3817                 struct napi_struct *n;
3818                 int work, weight;
3819
3820                 /* If softirq window is exhuasted then punt.
3821                  * Allow this to run for 2 jiffies since which will allow
3822                  * an average latency of 1.5/HZ.
3823                  */
3824                 if (unlikely(budget <= 0 || time_after(jiffies, time_limit)))
3825                         goto softnet_break;
3826
3827                 local_irq_enable();
3828
3829                 /* Even though interrupts have been re-enabled, this
3830                  * access is safe because interrupts can only add new
3831                  * entries to the tail of this list, and only ->poll()
3832                  * calls can remove this head entry from the list.
3833                  */
3834                 n = list_first_entry(&sd->poll_list, struct napi_struct, poll_list);
3835
3836                 have = netpoll_poll_lock(n);
3837
3838                 weight = n->weight;
3839
3840                 /* This NAPI_STATE_SCHED test is for avoiding a race
3841                  * with netpoll's poll_napi().  Only the entity which
3842                  * obtains the lock and sees NAPI_STATE_SCHED set will
3843                  * actually make the ->poll() call.  Therefore we avoid
3844                  * accidentally calling ->poll() when NAPI is not scheduled.
3845                  */
3846                 work = 0;
3847                 if (test_bit(NAPI_STATE_SCHED, &n->state)) {
3848                         work = n->poll(n, weight);
3849                         trace_napi_poll(n);
3850                 }
3851
3852                 WARN_ON_ONCE(work > weight);
3853
3854                 budget -= work;
3855
3856                 local_irq_disable();
3857
3858                 /* Drivers must not modify the NAPI state if they
3859                  * consume the entire weight.  In such cases this code
3860                  * still "owns" the NAPI instance and therefore can
3861                  * move the instance around on the list at-will.
3862                  */
3863                 if (unlikely(work == weight)) {
3864                         if (unlikely(napi_disable_pending(n))) {
3865                                 local_irq_enable();
3866                                 napi_complete(n);
3867                                 local_irq_disable();
3868                         } else
3869                                 list_move_tail(&n->poll_list, &sd->poll_list);
3870                 }
3871
3872                 netpoll_poll_unlock(have);
3873         }
3874 out:
3875         net_rps_action_and_irq_enable(sd);
3876
3877 #ifdef CONFIG_NET_DMA
3878         /*
3879          * There may not be any more sk_buffs coming right now, so push
3880          * any pending DMA copies to hardware
3881          */
3882         dma_issue_pending_all();
3883 #endif
3884
3885         return;
3886
3887 softnet_break:
3888         sd->time_squeeze++;
3889         __raise_softirq_irqoff(NET_RX_SOFTIRQ);
3890         goto out;
3891 }
3892
3893 static gifconf_func_t *gifconf_list[NPROTO];
3894
3895 /**
3896  *      register_gifconf        -       register a SIOCGIF handler
3897  *      @family: Address family
3898  *      @gifconf: Function handler
3899  *
3900  *      Register protocol dependent address dumping routines. The handler
3901  *      that is passed must not be freed or reused until it has been replaced
3902  *      by another handler.
3903  */
3904 int register_gifconf(unsigned int family, gifconf_func_t *gifconf)
3905 {
3906         if (family >= NPROTO)
3907                 return -EINVAL;
3908         gifconf_list[family] = gifconf;
3909         return 0;
3910 }
3911 EXPORT_SYMBOL(register_gifconf);
3912
3913
3914 /*
3915  *      Map an interface index to its name (SIOCGIFNAME)
3916  */
3917
3918 /*
3919  *      We need this ioctl for efficient implementation of the
3920  *      if_indextoname() function required by the IPv6 API.  Without
3921  *      it, we would have to search all the interfaces to find a
3922  *      match.  --pb
3923  */
3924
3925 static int dev_ifname(struct net *net, struct ifreq __user *arg)
3926 {
3927         struct net_device *dev;
3928         struct ifreq ifr;
3929
3930         /*
3931          *      Fetch the caller's info block.
3932          */
3933
3934         if (copy_from_user(&ifr, arg, sizeof(struct ifreq)))
3935                 return -EFAULT;
3936
3937         rcu_read_lock();
3938         dev = dev_get_by_index_rcu(net, ifr.ifr_ifindex);
3939         if (!dev) {
3940                 rcu_read_unlock();
3941                 return -ENODEV;
3942         }
3943
3944         strcpy(ifr.ifr_name, dev->name);
3945         rcu_read_unlock();
3946
3947         if (copy_to_user(arg, &ifr, sizeof(struct ifreq)))
3948                 return -EFAULT;
3949         return 0;
3950 }
3951
3952 /*
3953  *      Perform a SIOCGIFCONF call. This structure will change
3954  *      size eventually, and there is nothing I can do about it.
3955  *      Thus we will need a 'compatibility mode'.
3956  */
3957
3958 static int dev_ifconf(struct net *net, char __user *arg)
3959 {
3960         struct ifconf ifc;
3961         struct net_device *dev;
3962         char __user *pos;
3963         int len;
3964         int total;
3965         int i;
3966
3967         /*
3968          *      Fetch the caller's info block.
3969          */
3970
3971         if (copy_from_user(&ifc, arg, sizeof(struct ifconf)))
3972                 return -EFAULT;
3973
3974         pos = ifc.ifc_buf;
3975         len = ifc.ifc_len;
3976
3977         /*
3978          *      Loop over the interfaces, and write an info block for each.
3979          */
3980
3981         total = 0;
3982         for_each_netdev(net, dev) {
3983                 for (i = 0; i < NPROTO; i++) {
3984                         if (gifconf_list[i]) {
3985                                 int done;
3986                                 if (!pos)
3987                                         done = gifconf_list[i](dev, NULL, 0);
3988                                 else
3989                                         done = gifconf_list[i](dev, pos + total,
3990                                                                len - total);
3991                                 if (done < 0)
3992                                         return -EFAULT;
3993                                 total += done;
3994                         }
3995                 }
3996         }
3997
3998         /*
3999          *      All done.  Write the updated control block back to the caller.
4000          */
4001         ifc.ifc_len = total;
4002
4003         /*
4004          *      Both BSD and Solaris return 0 here, so we do too.
4005          */
4006         return copy_to_user(arg, &ifc, sizeof(struct ifconf)) ? -EFAULT : 0;
4007 }
4008
4009 #ifdef CONFIG_PROC_FS
4010 /*
4011  *      This is invoked by the /proc filesystem handler to display a device
4012  *      in detail.
4013  */
4014 void *dev_seq_start(struct seq_file *seq, loff_t *pos)
4015         __acquires(RCU)
4016 {
4017         struct net *net = seq_file_net(seq);
4018         loff_t off;
4019         struct net_device *dev;
4020
4021         rcu_read_lock();
4022         if (!*pos)
4023                 return SEQ_START_TOKEN;
4024
4025         off = 1;
4026         for_each_netdev_rcu(net, dev)
4027                 if (off++ == *pos)
4028                         return dev;
4029
4030         return NULL;
4031 }
4032
4033 void *dev_seq_next(struct seq_file *seq, void *v, loff_t *pos)
4034 {
4035         struct net_device *dev = v;
4036
4037         if (v == SEQ_START_TOKEN)
4038                 dev = first_net_device_rcu(seq_file_net(seq));
4039         else
4040                 dev = next_net_device_rcu(dev);
4041
4042         ++*pos;
4043         return dev;
4044 }
4045
4046 void dev_seq_stop(struct seq_file *seq, void *v)
4047         __releases(RCU)
4048 {
4049         rcu_read_unlock();
4050 }
4051
4052 static void dev_seq_printf_stats(struct seq_file *seq, struct net_device *dev)
4053 {
4054         struct rtnl_link_stats64 temp;
4055         const struct rtnl_link_stats64 *stats = dev_get_stats(dev, &temp);
4056
4057         seq_printf(seq, "%6s: %7llu %7llu %4llu %4llu %4llu %5llu %10llu %9llu "
4058                    "%8llu %7llu %4llu %4llu %4llu %5llu %7llu %10llu\n",
4059                    dev->name, stats->rx_bytes, stats->rx_packets,
4060                    stats->rx_errors,
4061                    stats->rx_dropped + stats->rx_missed_errors,
4062                    stats->rx_fifo_errors,
4063                    stats->rx_length_errors + stats->rx_over_errors +
4064                     stats->rx_crc_errors + stats->rx_frame_errors,
4065                    stats->rx_compressed, stats->multicast,
4066                    stats->tx_bytes, stats->tx_packets,
4067                    stats->tx_errors, stats->tx_dropped,
4068                    stats->tx_fifo_errors, stats->collisions,
4069                    stats->tx_carrier_errors +
4070                     stats->tx_aborted_errors +
4071                     stats->tx_window_errors +
4072                     stats->tx_heartbeat_errors,
4073                    stats->tx_compressed);
4074 }
4075
4076 /*
4077  *      Called from the PROCfs module. This now uses the new arbitrary sized
4078  *      /proc/net interface to create /proc/net/dev
4079  */
4080 static int dev_seq_show(struct seq_file *seq, void *v)
4081 {
4082         if (v == SEQ_START_TOKEN)
4083                 seq_puts(seq, "Inter-|   Receive                            "
4084                               "                    |  Transmit\n"
4085                               " face |bytes    packets errs drop fifo frame "
4086                               "compressed multicast|bytes    packets errs "
4087                               "drop fifo colls carrier compressed\n");
4088         else
4089                 dev_seq_printf_stats(seq, v);
4090         return 0;
4091 }
4092
4093 static struct softnet_data *softnet_get_online(loff_t *pos)
4094 {
4095         struct softnet_data *sd = NULL;
4096
4097         while (*pos < nr_cpu_ids)
4098                 if (cpu_online(*pos)) {
4099                         sd = &per_cpu(softnet_data, *pos);
4100                         break;
4101                 } else
4102                         ++*pos;
4103         return sd;
4104 }
4105
4106 static void *softnet_seq_start(struct seq_file *seq, loff_t *pos)
4107 {
4108         return softnet_get_online(pos);
4109 }
4110
4111 static void *softnet_seq_next(struct seq_file *seq, void *v, loff_t *pos)
4112 {
4113         ++*pos;
4114         return softnet_get_online(pos);
4115 }
4116
4117 static void softnet_seq_stop(struct seq_file *seq, void *v)
4118 {
4119 }
4120
4121 static int softnet_seq_show(struct seq_file *seq, void *v)
4122 {
4123         struct softnet_data *sd = v;
4124
4125         seq_printf(seq, "%08x %08x %08x %08x %08x %08x %08x %08x %08x %08x\n",
4126                    sd->processed, sd->dropped, sd->time_squeeze, 0,
4127                    0, 0, 0, 0, /* was fastroute */
4128                    sd->cpu_collision, sd->received_rps);
4129         return 0;
4130 }
4131
4132 static const struct seq_operations dev_seq_ops = {
4133         .start = dev_seq_start,
4134         .next  = dev_seq_next,
4135         .stop  = dev_seq_stop,
4136         .show  = dev_seq_show,
4137 };
4138
4139 static int dev_seq_open(struct inode *inode, struct file *file)
4140 {
4141         return seq_open_net(inode, file, &dev_seq_ops,
4142                             sizeof(struct seq_net_private));
4143 }
4144
4145 static const struct file_operations dev_seq_fops = {
4146         .owner   = THIS_MODULE,
4147         .open    = dev_seq_open,
4148         .read    = seq_read,
4149         .llseek  = seq_lseek,
4150         .release = seq_release_net,
4151 };
4152
4153 static const struct seq_operations softnet_seq_ops = {
4154         .start = softnet_seq_start,
4155         .next  = softnet_seq_next,
4156         .stop  = softnet_seq_stop,
4157         .show  = softnet_seq_show,
4158 };
4159
4160 static int softnet_seq_open(struct inode *inode, struct file *file)
4161 {
4162         return seq_open(file, &softnet_seq_ops);
4163 }
4164
4165 static const struct file_operations softnet_seq_fops = {
4166         .owner   = THIS_MODULE,
4167         .open    = softnet_seq_open,
4168         .read    = seq_read,
4169         .llseek  = seq_lseek,
4170         .release = seq_release,
4171 };
4172
4173 static void *ptype_get_idx(loff_t pos)
4174 {
4175         struct packet_type *pt = NULL;
4176         loff_t i = 0;
4177         int t;
4178
4179         list_for_each_entry_rcu(pt, &ptype_all, list) {
4180                 if (i == pos)
4181                         return pt;
4182                 ++i;
4183         }
4184
4185         for (t = 0; t < PTYPE_HASH_SIZE; t++) {
4186                 list_for_each_entry_rcu(pt, &ptype_base[t], list) {
4187                         if (i == pos)
4188                                 return pt;
4189                         ++i;
4190                 }
4191         }
4192         return NULL;
4193 }
4194
4195 static void *ptype_seq_start(struct seq_file *seq, loff_t *pos)
4196         __acquires(RCU)
4197 {
4198         rcu_read_lock();
4199         return *pos ? ptype_get_idx(*pos - 1) : SEQ_START_TOKEN;
4200 }
4201
4202 static void *ptype_seq_next(struct seq_file *seq, void *v, loff_t *pos)
4203 {
4204         struct packet_type *pt;
4205         struct list_head *nxt;
4206         int hash;
4207
4208         ++*pos;
4209         if (v == SEQ_START_TOKEN)
4210                 return ptype_get_idx(0);
4211
4212         pt = v;
4213         nxt = pt->list.next;
4214         if (pt->type == htons(ETH_P_ALL)) {
4215                 if (nxt != &ptype_all)
4216                         goto found;
4217                 hash = 0;
4218                 nxt = ptype_base[0].next;
4219         } else
4220                 hash = ntohs(pt->type) & PTYPE_HASH_MASK;
4221
4222         while (nxt == &ptype_base[hash]) {
4223                 if (++hash >= PTYPE_HASH_SIZE)
4224                         return NULL;
4225                 nxt = ptype_base[hash].next;
4226         }
4227 found:
4228         return list_entry(nxt, struct packet_type, list);
4229 }
4230
4231 static void ptype_seq_stop(struct seq_file *seq, void *v)
4232         __releases(RCU)
4233 {
4234         rcu_read_unlock();
4235 }
4236
4237 static int ptype_seq_show(struct seq_file *seq, void *v)
4238 {
4239         struct packet_type *pt = v;
4240
4241         if (v == SEQ_START_TOKEN)
4242                 seq_puts(seq, "Type Device      Function\n");
4243         else if (pt->dev == NULL || dev_net(pt->dev) == seq_file_net(seq)) {
4244                 if (pt->type == htons(ETH_P_ALL))
4245                         seq_puts(seq, "ALL ");
4246                 else
4247                         seq_printf(seq, "%04x", ntohs(pt->type));
4248
4249                 seq_printf(seq, " %-8s %pF\n",
4250                            pt->dev ? pt->dev->name : "", pt->func);
4251         }
4252
4253         return 0;
4254 }
4255
4256 static const struct seq_operations ptype_seq_ops = {
4257         .start = ptype_seq_start,
4258         .next  = ptype_seq_next,
4259         .stop  = ptype_seq_stop,
4260         .show  = ptype_seq_show,
4261 };
4262
4263 static int ptype_seq_open(struct inode *inode, struct file *file)
4264 {
4265         return seq_open_net(inode, file, &ptype_seq_ops,
4266                         sizeof(struct seq_net_private));
4267 }
4268
4269 static const struct file_operations ptype_seq_fops = {
4270         .owner   = THIS_MODULE,
4271         .open    = ptype_seq_open,
4272         .read    = seq_read,
4273         .llseek  = seq_lseek,
4274         .release = seq_release_net,
4275 };
4276
4277
4278 static int __net_init dev_proc_net_init(struct net *net)
4279 {
4280         int rc = -ENOMEM;
4281
4282         if (!proc_net_fops_create(net, "dev", S_IRUGO, &dev_seq_fops))
4283                 goto out;
4284         if (!proc_net_fops_create(net, "softnet_stat", S_IRUGO, &softnet_seq_fops))
4285                 goto out_dev;
4286         if (!proc_net_fops_create(net, "ptype", S_IRUGO, &ptype_seq_fops))
4287                 goto out_softnet;
4288
4289         if (wext_proc_init(net))
4290                 goto out_ptype;
4291         rc = 0;
4292 out:
4293         return rc;
4294 out_ptype:
4295         proc_net_remove(net, "ptype");
4296 out_softnet:
4297         proc_net_remove(net, "softnet_stat");
4298 out_dev:
4299         proc_net_remove(net, "dev");
4300         goto out;
4301 }
4302
4303 static void __net_exit dev_proc_net_exit(struct net *net)
4304 {
4305         wext_proc_exit(net);
4306
4307         proc_net_remove(net, "ptype");
4308         proc_net_remove(net, "softnet_stat");
4309         proc_net_remove(net, "dev");
4310 }
4311
4312 static struct pernet_operations __net_initdata dev_proc_ops = {
4313         .init = dev_proc_net_init,
4314         .exit = dev_proc_net_exit,
4315 };
4316
4317 static int __init dev_proc_init(void)
4318 {
4319         return register_pernet_subsys(&dev_proc_ops);
4320 }
4321 #else
4322 #define dev_proc_init() 0
4323 #endif  /* CONFIG_PROC_FS */
4324
4325
4326 /**
4327  *      netdev_set_master       -       set up master pointer
4328  *      @slave: slave device
4329  *      @master: new master device
4330  *
4331  *      Changes the master device of the slave. Pass %NULL to break the
4332  *      bonding. The caller must hold the RTNL semaphore. On a failure
4333  *      a negative errno code is returned. On success the reference counts
4334  *      are adjusted and the function returns zero.
4335  */
4336 int netdev_set_master(struct net_device *slave, struct net_device *master)
4337 {
4338         struct net_device *old = slave->master;
4339
4340         ASSERT_RTNL();
4341
4342         if (master) {
4343                 if (old)
4344                         return -EBUSY;
4345                 dev_hold(master);
4346         }
4347
4348         slave->master = master;
4349
4350         if (old)
4351                 dev_put(old);
4352         return 0;
4353 }
4354 EXPORT_SYMBOL(netdev_set_master);
4355
4356 /**
4357  *      netdev_set_bond_master  -       set up bonding master/slave pair
4358  *      @slave: slave device
4359  *      @master: new master device
4360  *
4361  *      Changes the master device of the slave. Pass %NULL to break the
4362  *      bonding. The caller must hold the RTNL semaphore. On a failure
4363  *      a negative errno code is returned. On success %RTM_NEWLINK is sent
4364  *      to the routing socket and the function returns zero.
4365  */
4366 int netdev_set_bond_master(struct net_device *slave, struct net_device *master)
4367 {
4368         int err;
4369
4370         ASSERT_RTNL();
4371
4372         err = netdev_set_master(slave, master);
4373         if (err)
4374                 return err;
4375         if (master)
4376                 slave->flags |= IFF_SLAVE;
4377         else
4378                 slave->flags &= ~IFF_SLAVE;
4379
4380         rtmsg_ifinfo(RTM_NEWLINK, slave, IFF_SLAVE);
4381         return 0;
4382 }
4383 EXPORT_SYMBOL(netdev_set_bond_master);
4384
4385 static void dev_change_rx_flags(struct net_device *dev, int flags)
4386 {
4387         const struct net_device_ops *ops = dev->netdev_ops;
4388
4389         if ((dev->flags & IFF_UP) && ops->ndo_change_rx_flags)
4390                 ops->ndo_change_rx_flags(dev, flags);
4391 }
4392
4393 static int __dev_set_promiscuity(struct net_device *dev, int inc)
4394 {
4395         unsigned short old_flags = dev->flags;
4396         uid_t uid;
4397         gid_t gid;
4398
4399         ASSERT_RTNL();
4400
4401         dev->flags |= IFF_PROMISC;
4402         dev->promiscuity += inc;
4403         if (dev->promiscuity == 0) {
4404                 /*
4405                  * Avoid overflow.
4406                  * If inc causes overflow, untouch promisc and return error.
4407                  */
4408                 if (inc < 0)
4409                         dev->flags &= ~IFF_PROMISC;
4410                 else {
4411                         dev->promiscuity -= inc;
4412                         printk(KERN_WARNING "%s: promiscuity touches roof, "
4413                                 "set promiscuity failed, promiscuity feature "
4414                                 "of device might be broken.\n", dev->name);
4415                         return -EOVERFLOW;
4416                 }
4417         }
4418         if (dev->flags != old_flags) {
4419                 printk(KERN_INFO "device %s %s promiscuous mode\n",
4420                        dev->name, (dev->flags & IFF_PROMISC) ? "entered" :
4421                                                                "left");
4422                 if (audit_enabled) {
4423                         current_uid_gid(&uid, &gid);
4424                         audit_log(current->audit_context, GFP_ATOMIC,
4425                                 AUDIT_ANOM_PROMISCUOUS,
4426                                 "dev=%s prom=%d old_prom=%d auid=%u uid=%u gid=%u ses=%u",
4427                                 dev->name, (dev->flags & IFF_PROMISC),
4428                                 (old_flags & IFF_PROMISC),
4429                                 audit_get_loginuid(current),
4430                                 uid, gid,
4431                                 audit_get_sessionid(current));
4432                 }
4433
4434                 dev_change_rx_flags(dev, IFF_PROMISC);
4435         }
4436         return 0;
4437 }
4438
4439 /**
4440  *      dev_set_promiscuity     - update promiscuity count on a device
4441  *      @dev: device
4442  *      @inc: modifier
4443  *
4444  *      Add or remove promiscuity from a device. While the count in the device
4445  *      remains above zero the interface remains promiscuous. Once it hits zero
4446  *      the device reverts back to normal filtering operation. A negative inc
4447  *      value is used to drop promiscuity on the device.
4448  *      Return 0 if successful or a negative errno code on error.
4449  */
4450 int dev_set_promiscuity(struct net_device *dev, int inc)
4451 {
4452         unsigned short old_flags = dev->flags;
4453         int err;
4454
4455         err = __dev_set_promiscuity(dev, inc);
4456         if (err < 0)
4457                 return err;
4458         if (dev->flags != old_flags)
4459                 dev_set_rx_mode(dev);
4460         return err;
4461 }
4462 EXPORT_SYMBOL(dev_set_promiscuity);
4463
4464 /**
4465  *      dev_set_allmulti        - update allmulti count on a device
4466  *      @dev: device
4467  *      @inc: modifier
4468  *
4469  *      Add or remove reception of all multicast frames to a device. While the
4470  *      count in the device remains above zero the interface remains listening
4471  *      to all interfaces. Once it hits zero the device reverts back to normal
4472  *      filtering operation. A negative @inc value is used to drop the counter
4473  *      when releasing a resource needing all multicasts.
4474  *      Return 0 if successful or a negative errno code on error.
4475  */
4476
4477 int dev_set_allmulti(struct net_device *dev, int inc)
4478 {
4479         unsigned short old_flags = dev->flags;
4480
4481         ASSERT_RTNL();
4482
4483         dev->flags |= IFF_ALLMULTI;
4484         dev->allmulti += inc;
4485         if (dev->allmulti == 0) {
4486                 /*
4487                  * Avoid overflow.
4488                  * If inc causes overflow, untouch allmulti and return error.
4489                  */
4490                 if (inc < 0)
4491                         dev->flags &= ~IFF_ALLMULTI;
4492                 else {
4493                         dev->allmulti -= inc;
4494                         printk(KERN_WARNING "%s: allmulti touches roof, "
4495                                 "set allmulti failed, allmulti feature of "
4496                                 "device might be broken.\n", dev->name);
4497                         return -EOVERFLOW;
4498                 }
4499         }
4500         if (dev->flags ^ old_flags) {
4501                 dev_change_rx_flags(dev, IFF_ALLMULTI);
4502                 dev_set_rx_mode(dev);
4503         }
4504         return 0;
4505 }
4506 EXPORT_SYMBOL(dev_set_allmulti);
4507
4508 /*
4509  *      Upload unicast and multicast address lists to device and
4510  *      configure RX filtering. When the device doesn't support unicast
4511  *      filtering it is put in promiscuous mode while unicast addresses
4512  *      are present.
4513  */
4514 void __dev_set_rx_mode(struct net_device *dev)
4515 {
4516         const struct net_device_ops *ops = dev->netdev_ops;
4517
4518         /* dev_open will call this function so the list will stay sane. */
4519         if (!(dev->flags&IFF_UP))
4520                 return;
4521
4522         if (!netif_device_present(dev))
4523                 return;
4524
4525         if (!(dev->priv_flags & IFF_UNICAST_FLT)) {
4526                 /* Unicast addresses changes may only happen under the rtnl,
4527                  * therefore calling __dev_set_promiscuity here is safe.
4528                  */
4529                 if (!netdev_uc_empty(dev) && !dev->uc_promisc) {
4530                         __dev_set_promiscuity(dev, 1);
4531                         dev->uc_promisc = true;
4532                 } else if (netdev_uc_empty(dev) && dev->uc_promisc) {
4533                         __dev_set_promiscuity(dev, -1);
4534                         dev->uc_promisc = false;
4535                 }
4536         }
4537
4538         if (ops->ndo_set_rx_mode)
4539                 ops->ndo_set_rx_mode(dev);
4540         else if (ops->ndo_set_multicast_list)
4541                 ops->ndo_set_multicast_list(dev);
4542 }
4543
4544 void dev_set_rx_mode(struct net_device *dev)
4545 {
4546         netif_addr_lock_bh(dev);
4547         __dev_set_rx_mode(dev);
4548         netif_addr_unlock_bh(dev);
4549 }
4550
4551 /**
4552  *      dev_ethtool_get_settings - call device's ethtool_ops::get_settings()
4553  *      @dev: device
4554  *      @cmd: memory area for ethtool_ops::get_settings() result
4555  *
4556  *      The cmd arg is initialized properly (cleared and
4557  *      ethtool_cmd::cmd field set to ETHTOOL_GSET).
4558  *
4559  *      Return device's ethtool_ops::get_settings() result value or
4560  *      -EOPNOTSUPP when device doesn't expose
4561  *      ethtool_ops::get_settings() operation.
4562  */
4563 int dev_ethtool_get_settings(struct net_device *dev,
4564                              struct ethtool_cmd *cmd)
4565 {
4566         if (!dev->ethtool_ops || !dev->ethtool_ops->get_settings)
4567                 return -EOPNOTSUPP;
4568
4569         memset(cmd, 0, sizeof(struct ethtool_cmd));
4570         cmd->cmd = ETHTOOL_GSET;
4571         return dev->ethtool_ops->get_settings(dev, cmd);
4572 }
4573 EXPORT_SYMBOL(dev_ethtool_get_settings);
4574
4575 /**
4576  *      dev_get_flags - get flags reported to userspace
4577  *      @dev: device
4578  *
4579  *      Get the combination of flag bits exported through APIs to userspace.
4580  */
4581 unsigned dev_get_flags(const struct net_device *dev)
4582 {
4583         unsigned flags;
4584
4585         flags = (dev->flags & ~(IFF_PROMISC |
4586                                 IFF_ALLMULTI |
4587                                 IFF_RUNNING |
4588                                 IFF_LOWER_UP |
4589                                 IFF_DORMANT)) |
4590                 (dev->gflags & (IFF_PROMISC |
4591                                 IFF_ALLMULTI));
4592
4593         if (netif_running(dev)) {
4594                 if (netif_oper_up(dev))
4595                         flags |= IFF_RUNNING;
4596                 if (netif_carrier_ok(dev))
4597                         flags |= IFF_LOWER_UP;
4598                 if (netif_dormant(dev))
4599                         flags |= IFF_DORMANT;
4600         }
4601
4602         return flags;
4603 }
4604 EXPORT_SYMBOL(dev_get_flags);
4605
4606 int __dev_change_flags(struct net_device *dev, unsigned int flags)
4607 {
4608         int old_flags = dev->flags;
4609         int ret;
4610
4611         ASSERT_RTNL();
4612
4613         /*
4614          *      Set the flags on our device.
4615          */
4616
4617         dev->flags = (flags & (IFF_DEBUG | IFF_NOTRAILERS | IFF_NOARP |
4618                                IFF_DYNAMIC | IFF_MULTICAST | IFF_PORTSEL |
4619                                IFF_AUTOMEDIA)) |
4620                      (dev->flags & (IFF_UP | IFF_VOLATILE | IFF_PROMISC |
4621                                     IFF_ALLMULTI));
4622
4623         /*
4624          *      Load in the correct multicast list now the flags have changed.
4625          */
4626
4627         if ((old_flags ^ flags) & IFF_MULTICAST)
4628                 dev_change_rx_flags(dev, IFF_MULTICAST);
4629
4630         dev_set_rx_mode(dev);
4631
4632         /*
4633          *      Have we downed the interface. We handle IFF_UP ourselves
4634          *      according to user attempts to set it, rather than blindly
4635          *      setting it.
4636          */
4637
4638         ret = 0;
4639         if ((old_flags ^ flags) & IFF_UP) {     /* Bit is different  ? */
4640                 ret = ((old_flags & IFF_UP) ? __dev_close : __dev_open)(dev);
4641
4642                 if (!ret)
4643                         dev_set_rx_mode(dev);
4644         }
4645
4646         if ((flags ^ dev->gflags) & IFF_PROMISC) {
4647                 int inc = (flags & IFF_PROMISC) ? 1 : -1;
4648
4649                 dev->gflags ^= IFF_PROMISC;
4650                 dev_set_promiscuity(dev, inc);
4651         }
4652
4653         /* NOTE: order of synchronization of IFF_PROMISC and IFF_ALLMULTI
4654            is important. Some (broken) drivers set IFF_PROMISC, when
4655            IFF_ALLMULTI is requested not asking us and not reporting.
4656          */
4657         if ((flags ^ dev->gflags) & IFF_ALLMULTI) {
4658                 int inc = (flags & IFF_ALLMULTI) ? 1 : -1;
4659
4660                 dev->gflags ^= IFF_ALLMULTI;
4661                 dev_set_allmulti(dev, inc);
4662         }
4663
4664         return ret;
4665 }
4666
4667 void __dev_notify_flags(struct net_device *dev, unsigned int old_flags)
4668 {
4669         unsigned int changes = dev->flags ^ old_flags;
4670
4671         if (changes & IFF_UP) {
4672                 if (dev->flags & IFF_UP)
4673                         call_netdevice_notifiers(NETDEV_UP, dev);
4674                 else
4675                         call_netdevice_notifiers(NETDEV_DOWN, dev);
4676         }
4677
4678         if (dev->flags & IFF_UP &&
4679             (changes & ~(IFF_UP | IFF_PROMISC | IFF_ALLMULTI | IFF_VOLATILE)))
4680                 call_netdevice_notifiers(NETDEV_CHANGE, dev);
4681 }
4682
4683 /**
4684  *      dev_change_flags - change device settings
4685  *      @dev: device
4686  *      @flags: device state flags
4687  *
4688  *      Change settings on device based state flags. The flags are
4689  *      in the userspace exported format.
4690  */
4691 int dev_change_flags(struct net_device *dev, unsigned flags)
4692 {
4693         int ret, changes;
4694         int old_flags = dev->flags;
4695
4696         ret = __dev_change_flags(dev, flags);
4697         if (ret < 0)
4698                 return ret;
4699
4700         changes = old_flags ^ dev->flags;
4701         if (changes)
4702                 rtmsg_ifinfo(RTM_NEWLINK, dev, changes);
4703
4704         __dev_notify_flags(dev, old_flags);
4705         return ret;
4706 }
4707 EXPORT_SYMBOL(dev_change_flags);
4708
4709 /**
4710  *      dev_set_mtu - Change maximum transfer unit
4711  *      @dev: device
4712  *      @new_mtu: new transfer unit
4713  *
4714  *      Change the maximum transfer size of the network device.
4715  */
4716 int dev_set_mtu(struct net_device *dev, int new_mtu)
4717 {
4718         const struct net_device_ops *ops = dev->netdev_ops;
4719         int err;
4720
4721         if (new_mtu == dev->mtu)
4722                 return 0;
4723
4724         /*      MTU must be positive.    */
4725         if (new_mtu < 0)
4726                 return -EINVAL;
4727
4728         if (!netif_device_present(dev))
4729                 return -ENODEV;
4730
4731         err = 0;
4732         if (ops->ndo_change_mtu)
4733                 err = ops->ndo_change_mtu(dev, new_mtu);
4734         else
4735                 dev->mtu = new_mtu;
4736
4737         if (!err && dev->flags & IFF_UP)
4738                 call_netdevice_notifiers(NETDEV_CHANGEMTU, dev);
4739         return err;
4740 }
4741 EXPORT_SYMBOL(dev_set_mtu);
4742
4743 /**
4744  *      dev_set_group - Change group this device belongs to
4745  *      @dev: device
4746  *      @new_group: group this device should belong to
4747  */
4748 void dev_set_group(struct net_device *dev, int new_group)
4749 {
4750         dev->group = new_group;
4751 }
4752 EXPORT_SYMBOL(dev_set_group);
4753
4754 /**
4755  *      dev_set_mac_address - Change Media Access Control Address
4756  *      @dev: device
4757  *      @sa: new address
4758  *
4759  *      Change the hardware (MAC) address of the device
4760  */
4761 int dev_set_mac_address(struct net_device *dev, struct sockaddr *sa)
4762 {
4763         const struct net_device_ops *ops = dev->netdev_ops;
4764         int err;
4765
4766         if (!ops->ndo_set_mac_address)
4767                 return -EOPNOTSUPP;
4768         if (sa->sa_family != dev->type)
4769                 return -EINVAL;
4770         if (!netif_device_present(dev))
4771                 return -ENODEV;
4772         err = ops->ndo_set_mac_address(dev, sa);
4773         if (!err)
4774                 call_netdevice_notifiers(NETDEV_CHANGEADDR, dev);
4775         return err;
4776 }
4777 EXPORT_SYMBOL(dev_set_mac_address);
4778
4779 /*
4780  *      Perform the SIOCxIFxxx calls, inside rcu_read_lock()
4781  */
4782 static int dev_ifsioc_locked(struct net *net, struct ifreq *ifr, unsigned int cmd)
4783 {
4784         int err;
4785         struct net_device *dev = dev_get_by_name_rcu(net, ifr->ifr_name);
4786
4787         if (!dev)
4788                 return -ENODEV;
4789
4790         switch (cmd) {
4791         case SIOCGIFFLAGS:      /* Get interface flags */
4792                 ifr->ifr_flags = (short) dev_get_flags(dev);
4793                 return 0;
4794
4795         case SIOCGIFMETRIC:     /* Get the metric on the interface
4796                                    (currently unused) */
4797                 ifr->ifr_metric = 0;
4798                 return 0;
4799
4800         case SIOCGIFMTU:        /* Get the MTU of a device */
4801                 ifr->ifr_mtu = dev->mtu;
4802                 return 0;
4803
4804         case SIOCGIFHWADDR:
4805                 if (!dev->addr_len)
4806                         memset(ifr->ifr_hwaddr.sa_data, 0, sizeof ifr->ifr_hwaddr.sa_data);
4807                 else
4808                         memcpy(ifr->ifr_hwaddr.sa_data, dev->dev_addr,
4809                                min(sizeof ifr->ifr_hwaddr.sa_data, (size_t) dev->addr_len));
4810                 ifr->ifr_hwaddr.sa_family = dev->type;
4811                 return 0;
4812
4813         case SIOCGIFSLAVE:
4814                 err = -EINVAL;
4815                 break;
4816
4817         case SIOCGIFMAP:
4818                 ifr->ifr_map.mem_start = dev->mem_start;
4819                 ifr->ifr_map.mem_end   = dev->mem_end;
4820                 ifr->ifr_map.base_addr = dev->base_addr;
4821                 ifr->ifr_map.irq       = dev->irq;
4822                 ifr->ifr_map.dma       = dev->dma;
4823                 ifr->ifr_map.port      = dev->if_port;
4824                 return 0;
4825
4826         case SIOCGIFINDEX:
4827                 ifr->ifr_ifindex = dev->ifindex;
4828                 return 0;
4829
4830         case SIOCGIFTXQLEN:
4831                 ifr->ifr_qlen = dev->tx_queue_len;
4832                 return 0;
4833
4834         default:
4835                 /* dev_ioctl() should ensure this case
4836                  * is never reached
4837                  */
4838                 WARN_ON(1);
4839                 err = -ENOTTY;
4840                 break;
4841
4842         }
4843         return err;
4844 }
4845
4846 /*
4847  *      Perform the SIOCxIFxxx calls, inside rtnl_lock()
4848  */
4849 static int dev_ifsioc(struct net *net, struct ifreq *ifr, unsigned int cmd)
4850 {
4851         int err;
4852         struct net_device *dev = __dev_get_by_name(net, ifr->ifr_name);
4853         const struct net_device_ops *ops;
4854
4855         if (!dev)
4856                 return -ENODEV;
4857
4858         ops = dev->netdev_ops;
4859
4860         switch (cmd) {
4861         case SIOCSIFFLAGS:      /* Set interface flags */
4862                 return dev_change_flags(dev, ifr->ifr_flags);
4863
4864         case SIOCSIFMETRIC:     /* Set the metric on the interface
4865                                    (currently unused) */
4866                 return -EOPNOTSUPP;
4867
4868         case SIOCSIFMTU:        /* Set the MTU of a device */
4869                 return dev_set_mtu(dev, ifr->ifr_mtu);
4870
4871         case SIOCSIFHWADDR:
4872                 return dev_set_mac_address(dev, &ifr->ifr_hwaddr);
4873
4874         case SIOCSIFHWBROADCAST:
4875                 if (ifr->ifr_hwaddr.sa_family != dev->type)
4876                         return -EINVAL;
4877                 memcpy(dev->broadcast, ifr->ifr_hwaddr.sa_data,
4878                        min(sizeof ifr->ifr_hwaddr.sa_data, (size_t) dev->addr_len));
4879                 call_netdevice_notifiers(NETDEV_CHANGEADDR, dev);
4880                 return 0;
4881
4882         case SIOCSIFMAP:
4883                 if (ops->ndo_set_config) {
4884                         if (!netif_device_present(dev))
4885                                 return -ENODEV;
4886                         return ops->ndo_set_config(dev, &ifr->ifr_map);
4887                 }
4888                 return -EOPNOTSUPP;
4889
4890         case SIOCADDMULTI:
4891                 if ((!ops->ndo_set_multicast_list && !ops->ndo_set_rx_mode) ||
4892                     ifr->ifr_hwaddr.sa_family != AF_UNSPEC)
4893                         return -EINVAL;
4894                 if (!netif_device_present(dev))
4895                         return -ENODEV;
4896                 return dev_mc_add_global(dev, ifr->ifr_hwaddr.sa_data);
4897
4898         case SIOCDELMULTI:
4899                 if ((!ops->ndo_set_multicast_list && !ops->ndo_set_rx_mode) ||
4900                     ifr->ifr_hwaddr.sa_family != AF_UNSPEC)
4901                         return -EINVAL;
4902                 if (!netif_device_present(dev))
4903                         return -ENODEV;
4904                 return dev_mc_del_global(dev, ifr->ifr_hwaddr.sa_data);
4905
4906         case SIOCSIFTXQLEN:
4907                 if (ifr->ifr_qlen < 0)
4908                         return -EINVAL;
4909                 dev->tx_queue_len = ifr->ifr_qlen;
4910                 return 0;
4911
4912         case SIOCSIFNAME:
4913                 ifr->ifr_newname[IFNAMSIZ-1] = '\0';
4914                 return dev_change_name(dev, ifr->ifr_newname);
4915
4916         /*
4917          *      Unknown or private ioctl
4918          */
4919         default:
4920                 if ((cmd >= SIOCDEVPRIVATE &&
4921                     cmd <= SIOCDEVPRIVATE + 15) ||
4922                     cmd == SIOCBONDENSLAVE ||
4923                     cmd == SIOCBONDRELEASE ||
4924                     cmd == SIOCBONDSETHWADDR ||
4925                     cmd == SIOCBONDSLAVEINFOQUERY ||
4926                     cmd == SIOCBONDINFOQUERY ||
4927                     cmd == SIOCBONDCHANGEACTIVE ||
4928                     cmd == SIOCGMIIPHY ||
4929                     cmd == SIOCGMIIREG ||
4930                     cmd == SIOCSMIIREG ||
4931                     cmd == SIOCBRADDIF ||
4932                     cmd == SIOCBRDELIF ||
4933                     cmd == SIOCSHWTSTAMP ||
4934                     cmd == SIOCWANDEV) {
4935                         err = -EOPNOTSUPP;
4936                         if (ops->ndo_do_ioctl) {
4937                                 if (netif_device_present(dev))
4938                                         err = ops->ndo_do_ioctl(dev, ifr, cmd);
4939                                 else
4940                                         err = -ENODEV;
4941                         }
4942                 } else
4943                         err = -EINVAL;
4944
4945         }
4946         return err;
4947 }
4948
4949 /*
4950  *      This function handles all "interface"-type I/O control requests. The actual
4951  *      'doing' part of this is dev_ifsioc above.
4952  */
4953
4954 /**
4955  *      dev_ioctl       -       network device ioctl
4956  *      @net: the applicable net namespace
4957  *      @cmd: command to issue
4958  *      @arg: pointer to a struct ifreq in user space
4959  *
4960  *      Issue ioctl functions to devices. This is normally called by the
4961  *      user space syscall interfaces but can sometimes be useful for
4962  *      other purposes. The return value is the return from the syscall if
4963  *      positive or a negative errno code on error.
4964  */
4965
4966 int dev_ioctl(struct net *net, unsigned int cmd, void __user *arg)
4967 {
4968         struct ifreq ifr;
4969         int ret;
4970         char *colon;
4971
4972         /* One special case: SIOCGIFCONF takes ifconf argument
4973            and requires shared lock, because it sleeps writing
4974            to user space.
4975          */
4976
4977         if (cmd == SIOCGIFCONF) {
4978                 rtnl_lock();
4979                 ret = dev_ifconf(net, (char __user *) arg);
4980                 rtnl_unlock();
4981                 return ret;
4982         }
4983         if (cmd == SIOCGIFNAME)
4984                 return dev_ifname(net, (struct ifreq __user *)arg);
4985
4986         if (copy_from_user(&ifr, arg, sizeof(struct ifreq)))
4987                 return -EFAULT;
4988
4989         ifr.ifr_name[IFNAMSIZ-1] = 0;
4990
4991         colon = strchr(ifr.ifr_name, ':');
4992         if (colon)
4993                 *colon = 0;
4994
4995         /*
4996          *      See which interface the caller is talking about.
4997          */
4998
4999         switch (cmd) {
5000         /*
5001          *      These ioctl calls:
5002          *      - can be done by all.
5003          *      - atomic and do not require locking.
5004          *      - return a value
5005          */
5006         case SIOCGIFFLAGS:
5007         case SIOCGIFMETRIC:
5008         case SIOCGIFMTU:
5009         case SIOCGIFHWADDR:
5010         case SIOCGIFSLAVE:
5011         case SIOCGIFMAP:
5012         case SIOCGIFINDEX:
5013         case SIOCGIFTXQLEN:
5014                 dev_load(net, ifr.ifr_name);
5015                 rcu_read_lock();
5016                 ret = dev_ifsioc_locked(net, &ifr, cmd);
5017                 rcu_read_unlock();
5018                 if (!ret) {
5019                         if (colon)
5020                                 *colon = ':';
5021                         if (copy_to_user(arg, &ifr,
5022                                          sizeof(struct ifreq)))
5023                                 ret = -EFAULT;
5024                 }
5025                 return ret;
5026
5027         case SIOCETHTOOL:
5028                 dev_load(net, ifr.ifr_name);
5029                 rtnl_lock();
5030                 ret = dev_ethtool(net, &ifr);
5031                 rtnl_unlock();
5032                 if (!ret) {
5033                         if (colon)
5034                                 *colon = ':';
5035                         if (copy_to_user(arg, &ifr,
5036                                          sizeof(struct ifreq)))
5037                                 ret = -EFAULT;
5038                 }
5039                 return ret;
5040
5041         /*
5042          *      These ioctl calls:
5043          *      - require superuser power.
5044          *      - require strict serialization.
5045          *      - return a value
5046          */
5047         case SIOCGMIIPHY:
5048         case SIOCGMIIREG:
5049         case SIOCSIFNAME:
5050                 if (!capable(CAP_NET_ADMIN))
5051                         return -EPERM;
5052                 dev_load(net, ifr.ifr_name);
5053                 rtnl_lock();
5054                 ret = dev_ifsioc(net, &ifr, cmd);
5055                 rtnl_unlock();
5056                 if (!ret) {
5057                         if (colon)
5058                                 *colon = ':';
5059                         if (copy_to_user(arg, &ifr,
5060                                          sizeof(struct ifreq)))
5061                                 ret = -EFAULT;
5062                 }
5063                 return ret;
5064
5065         /*
5066          *      These ioctl calls:
5067          *      - require superuser power.
5068          *      - require strict serialization.
5069          *      - do not return a value
5070          */
5071         case SIOCSIFFLAGS:
5072         case SIOCSIFMETRIC:
5073         case SIOCSIFMTU:
5074         case SIOCSIFMAP:
5075         case SIOCSIFHWADDR:
5076         case SIOCSIFSLAVE:
5077         case SIOCADDMULTI:
5078         case SIOCDELMULTI:
5079         case SIOCSIFHWBROADCAST:
5080         case SIOCSIFTXQLEN:
5081         case SIOCSMIIREG:
5082         case SIOCBONDENSLAVE:
5083         case SIOCBONDRELEASE:
5084         case SIOCBONDSETHWADDR:
5085         case SIOCBONDCHANGEACTIVE:
5086         case SIOCBRADDIF:
5087         case SIOCBRDELIF:
5088         case SIOCSHWTSTAMP:
5089                 if (!capable(CAP_NET_ADMIN))
5090                         return -EPERM;
5091                 /* fall through */
5092         case SIOCBONDSLAVEINFOQUERY:
5093         case SIOCBONDINFOQUERY:
5094                 dev_load(net, ifr.ifr_name);
5095                 rtnl_lock();
5096                 ret = dev_ifsioc(net, &ifr, cmd);
5097                 rtnl_unlock();
5098                 return ret;
5099
5100         case SIOCGIFMEM:
5101                 /* Get the per device memory space. We can add this but
5102                  * currently do not support it */
5103         case SIOCSIFMEM:
5104                 /* Set the per device memory buffer space.
5105                  * Not applicable in our case */
5106         case SIOCSIFLINK:
5107                 return -ENOTTY;
5108
5109         /*
5110          *      Unknown or private ioctl.
5111          */
5112         default:
5113                 if (cmd == SIOCWANDEV ||
5114                     (cmd >= SIOCDEVPRIVATE &&
5115                      cmd <= SIOCDEVPRIVATE + 15)) {
5116                         dev_load(net, ifr.ifr_name);
5117                         rtnl_lock();
5118                         ret = dev_ifsioc(net, &ifr, cmd);
5119                         rtnl_unlock();
5120                         if (!ret && copy_to_user(arg, &ifr,
5121                                                  sizeof(struct ifreq)))
5122                                 ret = -EFAULT;
5123                         return ret;
5124                 }
5125                 /* Take care of Wireless Extensions */
5126                 if (cmd >= SIOCIWFIRST && cmd <= SIOCIWLAST)
5127                         return wext_handle_ioctl(net, &ifr, cmd, arg);
5128                 return -ENOTTY;
5129         }
5130 }
5131
5132
5133 /**
5134  *      dev_new_index   -       allocate an ifindex
5135  *      @net: the applicable net namespace
5136  *
5137  *      Returns a suitable unique value for a new device interface
5138  *      number.  The caller must hold the rtnl semaphore or the
5139  *      dev_base_lock to be sure it remains unique.
5140  */
5141 static int dev_new_index(struct net *net)
5142 {
5143         static int ifindex;
5144         for (;;) {
5145                 if (++ifindex <= 0)
5146                         ifindex = 1;
5147                 if (!__dev_get_by_index(net, ifindex))
5148                         return ifindex;
5149         }
5150 }
5151
5152 /* Delayed registration/unregisteration */
5153 static LIST_HEAD(net_todo_list);
5154
5155 static void net_set_todo(struct net_device *dev)
5156 {
5157         list_add_tail(&dev->todo_list, &net_todo_list);
5158 }
5159
5160 static void rollback_registered_many(struct list_head *head)
5161 {
5162         struct net_device *dev, *tmp;
5163
5164         BUG_ON(dev_boot_phase);
5165         ASSERT_RTNL();
5166
5167         list_for_each_entry_safe(dev, tmp, head, unreg_list) {
5168                 /* Some devices call without registering
5169                  * for initialization unwind. Remove those
5170                  * devices and proceed with the remaining.
5171                  */
5172                 if (dev->reg_state == NETREG_UNINITIALIZED) {
5173                         pr_debug("unregister_netdevice: device %s/%p never "
5174                                  "was registered\n", dev->name, dev);
5175
5176                         WARN_ON(1);
5177                         list_del(&dev->unreg_list);
5178                         continue;
5179                 }
5180                 dev->dismantle = true;
5181                 BUG_ON(dev->reg_state != NETREG_REGISTERED);
5182         }
5183
5184         /* If device is running, close it first. */
5185         dev_close_many(head);
5186
5187         list_for_each_entry(dev, head, unreg_list) {
5188                 /* And unlink it from device chain. */
5189                 unlist_netdevice(dev);
5190
5191                 dev->reg_state = NETREG_UNREGISTERING;
5192         }
5193
5194         synchronize_net();
5195
5196         list_for_each_entry(dev, head, unreg_list) {
5197                 /* Shutdown queueing discipline. */
5198                 dev_shutdown(dev);
5199
5200
5201                 /* Notify protocols, that we are about to destroy
5202                    this device. They should clean all the things.
5203                 */
5204                 call_netdevice_notifiers(NETDEV_UNREGISTER, dev);
5205
5206                 if (!dev->rtnl_link_ops ||
5207                     dev->rtnl_link_state == RTNL_LINK_INITIALIZED)
5208                         rtmsg_ifinfo(RTM_DELLINK, dev, ~0U);
5209
5210                 /*
5211                  *      Flush the unicast and multicast chains
5212                  */
5213                 dev_uc_flush(dev);
5214                 dev_mc_flush(dev);
5215
5216                 if (dev->netdev_ops->ndo_uninit)
5217                         dev->netdev_ops->ndo_uninit(dev);
5218
5219                 /* Notifier chain MUST detach us from master device. */
5220                 WARN_ON(dev->master);
5221
5222                 /* Remove entries from kobject tree */
5223                 netdev_unregister_kobject(dev);
5224         }
5225
5226         /* Process any work delayed until the end of the batch */
5227         dev = list_first_entry(head, struct net_device, unreg_list);
5228         call_netdevice_notifiers(NETDEV_UNREGISTER_BATCH, dev);
5229
5230         rcu_barrier();
5231
5232         list_for_each_entry(dev, head, unreg_list)
5233                 dev_put(dev);
5234 }
5235
5236 static void rollback_registered(struct net_device *dev)
5237 {
5238         LIST_HEAD(single);
5239
5240         list_add(&dev->unreg_list, &single);
5241         rollback_registered_many(&single);
5242         list_del(&single);
5243 }
5244
5245 static u32 netdev_fix_features(struct net_device *dev, u32 features)
5246 {
5247         /* Fix illegal checksum combinations */
5248         if ((features & NETIF_F_HW_CSUM) &&
5249             (features & (NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM))) {
5250                 netdev_warn(dev, "mixed HW and IP checksum settings.\n");
5251                 features &= ~(NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM);
5252         }
5253
5254         if ((features & NETIF_F_NO_CSUM) &&
5255             (features & (NETIF_F_HW_CSUM|NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM))) {
5256                 netdev_warn(dev, "mixed no checksumming and other settings.\n");
5257                 features &= ~(NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM|NETIF_F_HW_CSUM);
5258         }
5259
5260         /* Fix illegal SG+CSUM combinations. */
5261         if ((features & NETIF_F_SG) &&
5262             !(features & NETIF_F_ALL_CSUM)) {
5263                 netdev_dbg(dev,
5264                         "Dropping NETIF_F_SG since no checksum feature.\n");
5265                 features &= ~NETIF_F_SG;
5266         }
5267
5268         /* TSO requires that SG is present as well. */
5269         if ((features & NETIF_F_ALL_TSO) && !(features & NETIF_F_SG)) {
5270                 netdev_dbg(dev, "Dropping TSO features since no SG feature.\n");
5271                 features &= ~NETIF_F_ALL_TSO;
5272         }
5273
5274         /* TSO ECN requires that TSO is present as well. */
5275         if ((features & NETIF_F_ALL_TSO) == NETIF_F_TSO_ECN)
5276                 features &= ~NETIF_F_TSO_ECN;
5277
5278         /* Software GSO depends on SG. */
5279         if ((features & NETIF_F_GSO) && !(features & NETIF_F_SG)) {
5280                 netdev_dbg(dev, "Dropping NETIF_F_GSO since no SG feature.\n");
5281                 features &= ~NETIF_F_GSO;
5282         }
5283
5284         /* UFO needs SG and checksumming */
5285         if (features & NETIF_F_UFO) {
5286                 /* maybe split UFO into V4 and V6? */
5287                 if (!((features & NETIF_F_GEN_CSUM) ||
5288                     (features & (NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM))
5289                             == (NETIF_F_IP_CSUM|NETIF_F_IPV6_CSUM))) {
5290                         netdev_dbg(dev,
5291                                 "Dropping NETIF_F_UFO since no checksum offload features.\n");
5292                         features &= ~NETIF_F_UFO;
5293                 }
5294
5295                 if (!(features & NETIF_F_SG)) {
5296                         netdev_dbg(dev,
5297                                 "Dropping NETIF_F_UFO since no NETIF_F_SG feature.\n");
5298                         features &= ~NETIF_F_UFO;
5299                 }
5300         }
5301
5302         return features;
5303 }
5304
5305 int __netdev_update_features(struct net_device *dev)
5306 {
5307         u32 features;
5308         int err = 0;
5309
5310         ASSERT_RTNL();
5311
5312         features = netdev_get_wanted_features(dev);
5313
5314         if (dev->netdev_ops->ndo_fix_features)
5315                 features = dev->netdev_ops->ndo_fix_features(dev, features);
5316
5317         /* driver might be less strict about feature dependencies */
5318         features = netdev_fix_features(dev, features);
5319
5320         if (dev->features == features)
5321                 return 0;
5322
5323         netdev_dbg(dev, "Features changed: 0x%08x -> 0x%08x\n",
5324                 dev->features, features);
5325
5326         if (dev->netdev_ops->ndo_set_features)
5327                 err = dev->netdev_ops->ndo_set_features(dev, features);
5328
5329         if (unlikely(err < 0)) {
5330                 netdev_err(dev,
5331                         "set_features() failed (%d); wanted 0x%08x, left 0x%08x\n",
5332                         err, features, dev->features);
5333                 return -1;
5334         }
5335
5336         if (!err)
5337                 dev->features = features;
5338
5339         return 1;
5340 }
5341
5342 /**
5343  *      netdev_update_features - recalculate device features
5344  *      @dev: the device to check
5345  *
5346  *      Recalculate dev->features set and send notifications if it
5347  *      has changed. Should be called after driver or hardware dependent
5348  *      conditions might have changed that influence the features.
5349  */
5350 void netdev_update_features(struct net_device *dev)
5351 {
5352         if (__netdev_update_features(dev))
5353                 netdev_features_change(dev);
5354 }
5355 EXPORT_SYMBOL(netdev_update_features);
5356
5357 /**
5358  *      netdev_change_features - recalculate device features
5359  *      @dev: the device to check
5360  *
5361  *      Recalculate dev->features set and send notifications even
5362  *      if they have not changed. Should be called instead of
5363  *      netdev_update_features() if also dev->vlan_features might
5364  *      have changed to allow the changes to be propagated to stacked
5365  *      VLAN devices.
5366  */
5367 void netdev_change_features(struct net_device *dev)
5368 {
5369         __netdev_update_features(dev);
5370         netdev_features_change(dev);
5371 }
5372 EXPORT_SYMBOL(netdev_change_features);
5373
5374 /**
5375  *      netif_stacked_transfer_operstate -      transfer operstate
5376  *      @rootdev: the root or lower level device to transfer state from
5377  *      @dev: the device to transfer operstate to
5378  *
5379  *      Transfer operational state from root to device. This is normally
5380  *      called when a stacking relationship exists between the root
5381  *      device and the device(a leaf device).
5382  */
5383 void netif_stacked_transfer_operstate(const struct net_device *rootdev,
5384                                         struct net_device *dev)
5385 {
5386         if (rootdev->operstate == IF_OPER_DORMANT)
5387                 netif_dormant_on(dev);
5388         else
5389                 netif_dormant_off(dev);
5390
5391         if (netif_carrier_ok(rootdev)) {
5392                 if (!netif_carrier_ok(dev))
5393                         netif_carrier_on(dev);
5394         } else {
5395                 if (netif_carrier_ok(dev))
5396                         netif_carrier_off(dev);
5397         }
5398 }
5399 EXPORT_SYMBOL(netif_stacked_transfer_operstate);
5400
5401 #ifdef CONFIG_RPS
5402 static int netif_alloc_rx_queues(struct net_device *dev)
5403 {
5404         unsigned int i, count = dev->num_rx_queues;
5405         struct netdev_rx_queue *rx;
5406
5407         BUG_ON(count < 1);
5408
5409         rx = kcalloc(count, sizeof(struct netdev_rx_queue), GFP_KERNEL);
5410         if (!rx) {
5411                 pr_err("netdev: Unable to allocate %u rx queues.\n", count);
5412                 return -ENOMEM;
5413         }
5414         dev->_rx = rx;
5415
5416         for (i = 0; i < count; i++)
5417                 rx[i].dev = dev;
5418         return 0;
5419 }
5420 #endif
5421
5422 static void netdev_init_one_queue(struct net_device *dev,
5423                                   struct netdev_queue *queue, void *_unused)
5424 {
5425         /* Initialize queue lock */
5426         spin_lock_init(&queue->_xmit_lock);
5427         netdev_set_xmit_lockdep_class(&queue->_xmit_lock, dev->type);
5428         queue->xmit_lock_owner = -1;
5429         netdev_queue_numa_node_write(queue, NUMA_NO_NODE);
5430         queue->dev = dev;
5431 }
5432
5433 static int netif_alloc_netdev_queues(struct net_device *dev)
5434 {
5435         unsigned int count = dev->num_tx_queues;
5436         struct netdev_queue *tx;
5437
5438         BUG_ON(count < 1);
5439
5440         tx = kcalloc(count, sizeof(struct netdev_queue), GFP_KERNEL);
5441         if (!tx) {
5442                 pr_err("netdev: Unable to allocate %u tx queues.\n",
5443                        count);
5444                 return -ENOMEM;
5445         }
5446         dev->_tx = tx;
5447
5448         netdev_for_each_tx_queue(dev, netdev_init_one_queue, NULL);
5449         spin_lock_init(&dev->tx_global_lock);
5450
5451         return 0;
5452 }
5453
5454 /**
5455  *      register_netdevice      - register a network device
5456  *      @dev: device to register
5457  *
5458  *      Take a completed network device structure and add it to the kernel
5459  *      interfaces. A %NETDEV_REGISTER message is sent to the netdev notifier
5460  *      chain. 0 is returned on success. A negative errno code is returned
5461  *      on a failure to set up the device, or if the name is a duplicate.
5462  *
5463  *      Callers must hold the rtnl semaphore. You may want
5464  *      register_netdev() instead of this.
5465  *
5466  *      BUGS:
5467  *      The locking appears insufficient to guarantee two parallel registers
5468  *      will not get the same name.
5469  */
5470
5471 int register_netdevice(struct net_device *dev)
5472 {
5473         int ret;
5474         struct net *net = dev_net(dev);
5475
5476         BUG_ON(dev_boot_phase);
5477         ASSERT_RTNL();
5478
5479         might_sleep();
5480
5481         /* When net_device's are persistent, this will be fatal. */
5482         BUG_ON(dev->reg_state != NETREG_UNINITIALIZED);
5483         BUG_ON(!net);
5484
5485         spin_lock_init(&dev->addr_list_lock);
5486         netdev_set_addr_lockdep_class(dev);
5487
5488         dev->iflink = -1;
5489
5490         ret = dev_get_valid_name(dev, dev->name);
5491         if (ret < 0)
5492                 goto out;
5493
5494         /* Init, if this function is available */
5495         if (dev->netdev_ops->ndo_init) {
5496                 ret = dev->netdev_ops->ndo_init(dev);
5497                 if (ret) {
5498                         if (ret > 0)
5499                                 ret = -EIO;
5500                         goto out;
5501                 }
5502         }
5503
5504         dev->ifindex = dev_new_index(net);
5505         if (dev->iflink == -1)
5506                 dev->iflink = dev->ifindex;
5507
5508         /* Transfer changeable features to wanted_features and enable
5509          * software offloads (GSO and GRO).
5510          */
5511         dev->hw_features |= NETIF_F_SOFT_FEATURES;
5512         dev->features |= NETIF_F_SOFT_FEATURES;
5513         dev->wanted_features = dev->features & dev->hw_features;
5514
5515         /* Turn on no cache copy if HW is doing checksum */
5516         dev->hw_features |= NETIF_F_NOCACHE_COPY;
5517         if ((dev->features & NETIF_F_ALL_CSUM) &&
5518             !(dev->features & NETIF_F_NO_CSUM)) {
5519                 dev->wanted_features |= NETIF_F_NOCACHE_COPY;
5520                 dev->features |= NETIF_F_NOCACHE_COPY;
5521         }
5522
5523         /* Make NETIF_F_HIGHDMA inheritable to VLAN devices.
5524          */
5525         dev->vlan_features |= NETIF_F_HIGHDMA;
5526
5527         ret = call_netdevice_notifiers(NETDEV_POST_INIT, dev);
5528         ret = notifier_to_errno(ret);
5529         if (ret)
5530                 goto err_uninit;
5531
5532         ret = netdev_register_kobject(dev);
5533         if (ret)
5534                 goto err_uninit;
5535         dev->reg_state = NETREG_REGISTERED;
5536
5537         __netdev_update_features(dev);
5538
5539         /*
5540          *      Default initial state at registry is that the
5541          *      device is present.
5542          */
5543
5544         set_bit(__LINK_STATE_PRESENT, &dev->state);
5545
5546         dev_init_scheduler(dev);
5547         dev_hold(dev);
5548         list_netdevice(dev);
5549
5550         /* Notify protocols, that a new device appeared. */
5551         ret = call_netdevice_notifiers(NETDEV_REGISTER, dev);
5552         ret = notifier_to_errno(ret);
5553         if (ret) {
5554                 rollback_registered(dev);
5555                 dev->reg_state = NETREG_UNREGISTERED;
5556         }
5557         /*
5558          *      Prevent userspace races by waiting until the network
5559          *      device is fully setup before sending notifications.
5560          */
5561         if (!dev->rtnl_link_ops ||
5562             dev->rtnl_link_state == RTNL_LINK_INITIALIZED)
5563                 rtmsg_ifinfo(RTM_NEWLINK, dev, ~0U);
5564
5565 out:
5566         return ret;
5567
5568 err_uninit:
5569         if (dev->netdev_ops->ndo_uninit)
5570                 dev->netdev_ops->ndo_uninit(dev);
5571         goto out;
5572 }
5573 EXPORT_SYMBOL(register_netdevice);
5574
5575 /**
5576  *      init_dummy_netdev       - init a dummy network device for NAPI
5577  *      @dev: device to init
5578  *
5579  *      This takes a network device structure and initialize the minimum
5580  *      amount of fields so it can be used to schedule NAPI polls without
5581  *      registering a full blown interface. This is to be used by drivers
5582  *      that need to tie several hardware interfaces to a single NAPI
5583  *      poll scheduler due to HW limitations.
5584  */
5585 int init_dummy_netdev(struct net_device *dev)
5586 {
5587         /* Clear everything. Note we don't initialize spinlocks
5588          * are they aren't supposed to be taken by any of the
5589          * NAPI code and this dummy netdev is supposed to be
5590          * only ever used for NAPI polls
5591          */
5592         memset(dev, 0, sizeof(struct net_device));
5593
5594         /* make sure we BUG if trying to hit standard
5595          * register/unregister code path
5596          */
5597         dev->reg_state = NETREG_DUMMY;
5598
5599         /* NAPI wants this */
5600         INIT_LIST_HEAD(&dev->napi_list);
5601
5602         /* a dummy interface is started by default */
5603         set_bit(__LINK_STATE_PRESENT, &dev->state);
5604         set_bit(__LINK_STATE_START, &dev->state);
5605
5606         /* Note : We dont allocate pcpu_refcnt for dummy devices,
5607          * because users of this 'device' dont need to change
5608          * its refcount.
5609          */
5610
5611         return 0;
5612 }
5613 EXPORT_SYMBOL_GPL(init_dummy_netdev);
5614
5615
5616 /**
5617  *      register_netdev - register a network device
5618  *      @dev: device to register
5619  *
5620  *      Take a completed network device structure and add it to the kernel
5621  *      interfaces. A %NETDEV_REGISTER message is sent to the netdev notifier
5622  *      chain. 0 is returned on success. A negative errno code is returned
5623  *      on a failure to set up the device, or if the name is a duplicate.
5624  *
5625  *      This is a wrapper around register_netdevice that takes the rtnl semaphore
5626  *      and expands the device name if you passed a format string to
5627  *      alloc_netdev.
5628  */
5629 int register_netdev(struct net_device *dev)
5630 {
5631         int err;
5632
5633         rtnl_lock();
5634         err = register_netdevice(dev);
5635         rtnl_unlock();
5636         return err;
5637 }
5638 EXPORT_SYMBOL(register_netdev);
5639
5640 int netdev_refcnt_read(const struct net_device *dev)
5641 {
5642         int i, refcnt = 0;
5643
5644         for_each_possible_cpu(i)
5645                 refcnt += *per_cpu_ptr(dev->pcpu_refcnt, i);
5646         return refcnt;
5647 }
5648 EXPORT_SYMBOL(netdev_refcnt_read);
5649
5650 /*
5651  * netdev_wait_allrefs - wait until all references are gone.
5652  *
5653  * This is called when unregistering network devices.
5654  *
5655  * Any protocol or device that holds a reference should register
5656  * for netdevice notification, and cleanup and put back the
5657  * reference if they receive an UNREGISTER event.
5658  * We can get stuck here if buggy protocols don't correctly
5659  * call dev_put.
5660  */
5661 static void netdev_wait_allrefs(struct net_device *dev)
5662 {
5663         unsigned long rebroadcast_time, warning_time;
5664         int refcnt;
5665
5666         linkwatch_forget_dev(dev);
5667
5668         rebroadcast_time = warning_time = jiffies;
5669         refcnt = netdev_refcnt_read(dev);
5670
5671         while (refcnt != 0) {
5672                 if (time_after(jiffies, rebroadcast_time + 1 * HZ)) {
5673                         rtnl_lock();
5674
5675                         /* Rebroadcast unregister notification */
5676                         call_netdevice_notifiers(NETDEV_UNREGISTER, dev);
5677                         /* don't resend NETDEV_UNREGISTER_BATCH, _BATCH users
5678                          * should have already handle it the first time */
5679
5680                         if (test_bit(__LINK_STATE_LINKWATCH_PENDING,
5681                                      &dev->state)) {
5682                                 /* We must not have linkwatch events
5683                                  * pending on unregister. If this
5684                                  * happens, we simply run the queue
5685                                  * unscheduled, resulting in a noop
5686                                  * for this device.
5687                                  */
5688                                 linkwatch_run_queue();
5689                         }
5690
5691                         __rtnl_unlock();
5692
5693                         rebroadcast_time = jiffies;
5694                 }
5695
5696                 msleep(250);
5697
5698                 refcnt = netdev_refcnt_read(dev);
5699
5700                 if (time_after(jiffies, warning_time + 10 * HZ)) {
5701                         printk(KERN_EMERG "unregister_netdevice: "
5702                                "waiting for %s to become free. Usage "
5703                                "count = %d\n",
5704                                dev->name, refcnt);
5705                         warning_time = jiffies;
5706                 }
5707         }
5708 }
5709
5710 /* The sequence is:
5711  *
5712  *      rtnl_lock();
5713  *      ...
5714  *      register_netdevice(x1);
5715  *      register_netdevice(x2);
5716  *      ...
5717  *      unregister_netdevice(y1);
5718  *      unregister_netdevice(y2);
5719  *      ...
5720  *      rtnl_unlock();
5721  *      free_netdev(y1);
5722  *      free_netdev(y2);
5723  *
5724  * We are invoked by rtnl_unlock().
5725  * This allows us to deal with problems:
5726  * 1) We can delete sysfs objects which invoke hotplug
5727  *    without deadlocking with linkwatch via keventd.
5728  * 2) Since we run with the RTNL semaphore not held, we can sleep
5729  *    safely in order to wait for the netdev refcnt to drop to zero.
5730  *
5731  * We must not return until all unregister events added during
5732  * the interval the lock was held have been completed.
5733  */
5734 void netdev_run_todo(void)
5735 {
5736         struct list_head list;
5737
5738         /* Snapshot list, allow later requests */
5739         list_replace_init(&net_todo_list, &list);
5740
5741         __rtnl_unlock();
5742
5743         while (!list_empty(&list)) {
5744                 struct net_device *dev
5745                         = list_first_entry(&list, struct net_device, todo_list);
5746                 list_del(&dev->todo_list);
5747
5748                 if (unlikely(dev->reg_state != NETREG_UNREGISTERING)) {
5749                         printk(KERN_ERR "network todo '%s' but state %d\n",
5750                                dev->name, dev->reg_state);
5751                         dump_stack();
5752                         continue;
5753                 }
5754
5755                 dev->reg_state = NETREG_UNREGISTERED;
5756
5757                 on_each_cpu(flush_backlog, dev, 1);
5758
5759                 netdev_wait_allrefs(dev);
5760
5761                 /* paranoia */
5762                 BUG_ON(netdev_refcnt_read(dev));
5763                 WARN_ON(rcu_access_pointer(dev->ip_ptr));
5764                 WARN_ON(rcu_access_pointer(dev->ip6_ptr));
5765                 WARN_ON(dev->dn_ptr);
5766
5767                 if (dev->destructor)
5768                         dev->destructor(dev);
5769
5770                 /* Free network device */
5771                 kobject_put(&dev->dev.kobj);
5772         }
5773 }
5774
5775 /* Convert net_device_stats to rtnl_link_stats64.  They have the same
5776  * fields in the same order, with only the type differing.
5777  */
5778 static void netdev_stats_to_stats64(struct rtnl_link_stats64 *stats64,
5779                                     const struct net_device_stats *netdev_stats)
5780 {
5781 #if BITS_PER_LONG == 64
5782         BUILD_BUG_ON(sizeof(*stats64) != sizeof(*netdev_stats));
5783         memcpy(stats64, netdev_stats, sizeof(*stats64));
5784 #else
5785         size_t i, n = sizeof(*stats64) / sizeof(u64);
5786         const unsigned long *src = (const unsigned long *)netdev_stats;
5787         u64 *dst = (u64 *)stats64;
5788
5789         BUILD_BUG_ON(sizeof(*netdev_stats) / sizeof(unsigned long) !=
5790                      sizeof(*stats64) / sizeof(u64));
5791         for (i = 0; i < n; i++)
5792                 dst[i] = src[i];
5793 #endif
5794 }
5795
5796 /**
5797  *      dev_get_stats   - get network device statistics
5798  *      @dev: device to get statistics from
5799  *      @storage: place to store stats
5800  *
5801  *      Get network statistics from device. Return @storage.
5802  *      The device driver may provide its own method by setting
5803  *      dev->netdev_ops->get_stats64 or dev->netdev_ops->get_stats;
5804  *      otherwise the internal statistics structure is used.
5805  */
5806 struct rtnl_link_stats64 *dev_get_stats(struct net_device *dev,
5807                                         struct rtnl_link_stats64 *storage)
5808 {
5809         const struct net_device_ops *ops = dev->netdev_ops;
5810
5811         if (ops->ndo_get_stats64) {
5812                 memset(storage, 0, sizeof(*storage));
5813                 ops->ndo_get_stats64(dev, storage);
5814         } else if (ops->ndo_get_stats) {
5815                 netdev_stats_to_stats64(storage, ops->ndo_get_stats(dev));
5816         } else {
5817                 netdev_stats_to_stats64(storage, &dev->stats);
5818         }
5819         storage->rx_dropped += atomic_long_read(&dev->rx_dropped);
5820         return storage;
5821 }
5822 EXPORT_SYMBOL(dev_get_stats);
5823
5824 struct netdev_queue *dev_ingress_queue_create(struct net_device *dev)
5825 {
5826         struct netdev_queue *queue = dev_ingress_queue(dev);
5827
5828 #ifdef CONFIG_NET_CLS_ACT
5829         if (queue)
5830                 return queue;
5831         queue = kzalloc(sizeof(*queue), GFP_KERNEL);
5832         if (!queue)
5833                 return NULL;
5834         netdev_init_one_queue(dev, queue, NULL);
5835         queue->qdisc = &noop_qdisc;
5836         queue->qdisc_sleeping = &noop_qdisc;
5837         rcu_assign_pointer(dev->ingress_queue, queue);
5838 #endif
5839         return queue;
5840 }
5841
5842 /**
5843  *      alloc_netdev_mqs - allocate network device
5844  *      @sizeof_priv:   size of private data to allocate space for
5845  *      @name:          device name format string
5846  *      @setup:         callback to initialize device
5847  *      @txqs:          the number of TX subqueues to allocate
5848  *      @rxqs:          the number of RX subqueues to allocate
5849  *
5850  *      Allocates a struct net_device with private data area for driver use
5851  *      and performs basic initialization.  Also allocates subquue structs
5852  *      for each queue on the device.
5853  */
5854 struct net_device *alloc_netdev_mqs(int sizeof_priv, const char *name,
5855                 void (*setup)(struct net_device *),
5856                 unsigned int txqs, unsigned int rxqs)
5857 {
5858         struct net_device *dev;
5859         size_t alloc_size;
5860         struct net_device *p;
5861
5862         BUG_ON(strlen(name) >= sizeof(dev->name));
5863
5864         if (txqs < 1) {
5865                 pr_err("alloc_netdev: Unable to allocate device "
5866                        "with zero queues.\n");
5867                 return NULL;
5868         }
5869
5870 #ifdef CONFIG_RPS
5871         if (rxqs < 1) {
5872                 pr_err("alloc_netdev: Unable to allocate device "
5873                        "with zero RX queues.\n");
5874                 return NULL;
5875         }
5876 #endif
5877
5878         alloc_size = sizeof(struct net_device);
5879         if (sizeof_priv) {
5880                 /* ensure 32-byte alignment of private area */
5881                 alloc_size = ALIGN(alloc_size, NETDEV_ALIGN);
5882                 alloc_size += sizeof_priv;
5883         }
5884         /* ensure 32-byte alignment of whole construct */
5885         alloc_size += NETDEV_ALIGN - 1;
5886
5887         p = kzalloc(alloc_size, GFP_KERNEL);
5888         if (!p) {
5889                 printk(KERN_ERR "alloc_netdev: Unable to allocate device.\n");
5890                 return NULL;
5891         }
5892
5893         dev = PTR_ALIGN(p, NETDEV_ALIGN);
5894         dev->padded = (char *)dev - (char *)p;
5895
5896         dev->pcpu_refcnt = alloc_percpu(int);
5897         if (!dev->pcpu_refcnt)
5898                 goto free_p;
5899
5900         if (dev_addr_init(dev))
5901                 goto free_pcpu;
5902
5903         dev_mc_init(dev);
5904         dev_uc_init(dev);
5905
5906         dev_net_set(dev, &init_net);
5907
5908         dev->gso_max_size = GSO_MAX_SIZE;
5909
5910         INIT_LIST_HEAD(&dev->napi_list);
5911         INIT_LIST_HEAD(&dev->unreg_list);
5912         INIT_LIST_HEAD(&dev->link_watch_list);
5913         dev->priv_flags = IFF_XMIT_DST_RELEASE;
5914         setup(dev);
5915
5916         dev->num_tx_queues = txqs;
5917         dev->real_num_tx_queues = txqs;
5918         if (netif_alloc_netdev_queues(dev))
5919                 goto free_all;
5920
5921 #ifdef CONFIG_RPS
5922         dev->num_rx_queues = rxqs;
5923         dev->real_num_rx_queues = rxqs;
5924         if (netif_alloc_rx_queues(dev))
5925                 goto free_all;
5926 #endif
5927
5928         strcpy(dev->name, name);
5929         dev->group = INIT_NETDEV_GROUP;
5930         return dev;
5931
5932 free_all:
5933         free_netdev(dev);
5934         return NULL;
5935
5936 free_pcpu:
5937         free_percpu(dev->pcpu_refcnt);
5938         kfree(dev->_tx);
5939 #ifdef CONFIG_RPS
5940         kfree(dev->_rx);
5941 #endif
5942
5943 free_p:
5944         kfree(p);
5945         return NULL;
5946 }
5947 EXPORT_SYMBOL(alloc_netdev_mqs);
5948
5949 /**
5950  *      free_netdev - free network device
5951  *      @dev: device
5952  *
5953  *      This function does the last stage of destroying an allocated device
5954  *      interface. The reference to the device object is released.
5955  *      If this is the last reference then it will be freed.
5956  */
5957 void free_netdev(struct net_device *dev)
5958 {
5959         struct napi_struct *p, *n;
5960
5961         release_net(dev_net(dev));
5962
5963         kfree(dev->_tx);
5964 #ifdef CONFIG_RPS
5965         kfree(dev->_rx);
5966 #endif
5967
5968         kfree(rcu_dereference_protected(dev->ingress_queue, 1));
5969
5970         /* Flush device addresses */
5971         dev_addr_flush(dev);
5972
5973         list_for_each_entry_safe(p, n, &dev->napi_list, dev_list)
5974                 netif_napi_del(p);
5975
5976         free_percpu(dev->pcpu_refcnt);
5977         dev->pcpu_refcnt = NULL;
5978
5979         /*  Compatibility with error handling in drivers */
5980         if (dev->reg_state == NETREG_UNINITIALIZED) {
5981                 kfree((char *)dev - dev->padded);
5982                 return;
5983         }
5984
5985         BUG_ON(dev->reg_state != NETREG_UNREGISTERED);
5986         dev->reg_state = NETREG_RELEASED;
5987
5988         /* will free via device release */
5989         put_device(&dev->dev);
5990 }
5991 EXPORT_SYMBOL(free_netdev);
5992
5993 /**
5994  *      synchronize_net -  Synchronize with packet receive processing
5995  *
5996  *      Wait for packets currently being received to be done.
5997  *      Does not block later packets from starting.
5998  */
5999 void synchronize_net(void)
6000 {
6001         might_sleep();
6002         if (rtnl_is_locked())
6003                 synchronize_rcu_expedited();
6004         else
6005                 synchronize_rcu();
6006 }
6007 EXPORT_SYMBOL(synchronize_net);
6008
6009 /**
6010  *      unregister_netdevice_queue - remove device from the kernel
6011  *      @dev: device
6012  *      @head: list
6013  *
6014  *      This function shuts down a device interface and removes it
6015  *      from the kernel tables.
6016  *      If head not NULL, device is queued to be unregistered later.
6017  *
6018  *      Callers must hold the rtnl semaphore.  You may want
6019  *      unregister_netdev() instead of this.
6020  */
6021
6022 void unregister_netdevice_queue(struct net_device *dev, struct list_head *head)
6023 {
6024         ASSERT_RTNL();
6025
6026         if (head) {
6027                 list_move_tail(&dev->unreg_list, head);
6028         } else {
6029                 rollback_registered(dev);
6030                 /* Finish processing unregister after unlock */
6031                 net_set_todo(dev);
6032         }
6033 }
6034 EXPORT_SYMBOL(unregister_netdevice_queue);
6035
6036 /**
6037  *      unregister_netdevice_many - unregister many devices
6038  *      @head: list of devices
6039  */
6040 void unregister_netdevice_many(struct list_head *head)
6041 {
6042         struct net_device *dev;
6043
6044         if (!list_empty(head)) {
6045                 rollback_registered_many(head);
6046                 list_for_each_entry(dev, head, unreg_list)
6047                         net_set_todo(dev);
6048         }
6049 }
6050 EXPORT_SYMBOL(unregister_netdevice_many);
6051
6052 /**
6053  *      unregister_netdev - remove device from the kernel
6054  *      @dev: device
6055  *
6056  *      This function shuts down a device interface and removes it
6057  *      from the kernel tables.
6058  *
6059  *      This is just a wrapper for unregister_netdevice that takes
6060  *      the rtnl semaphore.  In general you want to use this and not
6061  *      unregister_netdevice.
6062  */
6063 void unregister_netdev(struct net_device *dev)
6064 {
6065         rtnl_lock();
6066         unregister_netdevice(dev);
6067         rtnl_unlock();
6068 }
6069 EXPORT_SYMBOL(unregister_netdev);
6070
6071 /**
6072  *      dev_change_net_namespace - move device to different nethost namespace
6073  *      @dev: device
6074  *      @net: network namespace
6075  *      @pat: If not NULL name pattern to try if the current device name
6076  *            is already taken in the destination network namespace.
6077  *
6078  *      This function shuts down a device interface and moves it
6079  *      to a new network namespace. On success 0 is returned, on
6080  *      a failure a netagive errno code is returned.
6081  *
6082  *      Callers must hold the rtnl semaphore.
6083  */
6084
6085 int dev_change_net_namespace(struct net_device *dev, struct net *net, const char *pat)
6086 {
6087         int err;
6088
6089         ASSERT_RTNL();
6090
6091         /* Don't allow namespace local devices to be moved. */
6092         err = -EINVAL;
6093         if (dev->features & NETIF_F_NETNS_LOCAL)
6094                 goto out;
6095
6096         /* Ensure the device has been registrered */
6097         err = -EINVAL;
6098         if (dev->reg_state != NETREG_REGISTERED)
6099                 goto out;
6100
6101         /* Get out if there is nothing todo */
6102         err = 0;
6103         if (net_eq(dev_net(dev), net))
6104                 goto out;
6105
6106         /* Pick the destination device name, and ensure
6107          * we can use it in the destination network namespace.
6108          */
6109         err = -EEXIST;
6110         if (__dev_get_by_name(net, dev->name)) {
6111                 /* We get here if we can't use the current device name */
6112                 if (!pat)
6113                         goto out;
6114                 if (dev_get_valid_name(dev, pat) < 0)
6115                         goto out;
6116         }
6117
6118         /*
6119          * And now a mini version of register_netdevice unregister_netdevice.
6120          */
6121
6122         /* If device is running close it first. */
6123         dev_close(dev);
6124
6125         /* And unlink it from device chain */
6126         err = -ENODEV;
6127         unlist_netdevice(dev);
6128
6129         synchronize_net();
6130
6131         /* Shutdown queueing discipline. */
6132         dev_shutdown(dev);
6133
6134         /* Notify protocols, that we are about to destroy
6135            this device. They should clean all the things.
6136
6137            Note that dev->reg_state stays at NETREG_REGISTERED.
6138            This is wanted because this way 8021q and macvlan know
6139            the device is just moving and can keep their slaves up.
6140         */
6141         call_netdevice_notifiers(NETDEV_UNREGISTER, dev);
6142         call_netdevice_notifiers(NETDEV_UNREGISTER_BATCH, dev);
6143
6144         /*
6145          *      Flush the unicast and multicast chains
6146          */
6147         dev_uc_flush(dev);
6148         dev_mc_flush(dev);
6149
6150         /* Actually switch the network namespace */
6151         dev_net_set(dev, net);
6152
6153         /* If there is an ifindex conflict assign a new one */
6154         if (__dev_get_by_index(net, dev->ifindex)) {
6155                 int iflink = (dev->iflink == dev->ifindex);
6156                 dev->ifindex = dev_new_index(net);
6157                 if (iflink)
6158                         dev->iflink = dev->ifindex;
6159         }
6160
6161         /* Fixup kobjects */
6162         err = device_rename(&dev->dev, dev->name);
6163         WARN_ON(err);
6164
6165         /* Add the device back in the hashes */
6166         list_netdevice(dev);
6167
6168         /* Notify protocols, that a new device appeared. */
6169         call_netdevice_notifiers(NETDEV_REGISTER, dev);
6170
6171         /*
6172          *      Prevent userspace races by waiting until the network
6173          *      device is fully setup before sending notifications.
6174          */
6175         rtmsg_ifinfo(RTM_NEWLINK, dev, ~0U);
6176
6177         synchronize_net();
6178         err = 0;
6179 out:
6180         return err;
6181 }
6182 EXPORT_SYMBOL_GPL(dev_change_net_namespace);
6183
6184 static int dev_cpu_callback(struct notifier_block *nfb,
6185                             unsigned long action,
6186                             void *ocpu)
6187 {
6188         struct sk_buff **list_skb;
6189         struct sk_buff *skb;
6190         unsigned int cpu, oldcpu = (unsigned long)ocpu;
6191         struct softnet_data *sd, *oldsd;
6192
6193         if (action != CPU_DEAD && action != CPU_DEAD_FROZEN)
6194                 return NOTIFY_OK;
6195
6196         local_irq_disable();
6197         cpu = smp_processor_id();
6198         sd = &per_cpu(softnet_data, cpu);
6199         oldsd = &per_cpu(softnet_data, oldcpu);
6200
6201         /* Find end of our completion_queue. */
6202         list_skb = &sd->completion_queue;
6203         while (*list_skb)
6204                 list_skb = &(*list_skb)->next;
6205         /* Append completion queue from offline CPU. */
6206         *list_skb = oldsd->completion_queue;
6207         oldsd->completion_queue = NULL;
6208
6209         /* Append output queue from offline CPU. */
6210         if (oldsd->output_queue) {
6211                 *sd->output_queue_tailp = oldsd->output_queue;
6212                 sd->output_queue_tailp = oldsd->output_queue_tailp;
6213                 oldsd->output_queue = NULL;
6214                 oldsd->output_queue_tailp = &oldsd->output_queue;
6215         }
6216         /* Append NAPI poll list from offline CPU. */
6217         if (!list_empty(&oldsd->poll_list)) {
6218                 list_splice_init(&oldsd->poll_list, &sd->poll_list);
6219                 raise_softirq_irqoff(NET_RX_SOFTIRQ);
6220         }
6221
6222         raise_softirq_irqoff(NET_TX_SOFTIRQ);
6223         local_irq_enable();
6224
6225         /* Process offline CPU's input_pkt_queue */
6226         while ((skb = __skb_dequeue(&oldsd->process_queue))) {
6227                 netif_rx(skb);
6228                 input_queue_head_incr(oldsd);
6229         }
6230         while ((skb = __skb_dequeue(&oldsd->input_pkt_queue))) {
6231                 netif_rx(skb);
6232                 input_queue_head_incr(oldsd);
6233         }
6234
6235         return NOTIFY_OK;
6236 }
6237
6238
6239 /**
6240  *      netdev_increment_features - increment feature set by one
6241  *      @all: current feature set
6242  *      @one: new feature set
6243  *      @mask: mask feature set
6244  *
6245  *      Computes a new feature set after adding a device with feature set
6246  *      @one to the master device with current feature set @all.  Will not
6247  *      enable anything that is off in @mask. Returns the new feature set.
6248  */
6249 u32 netdev_increment_features(u32 all, u32 one, u32 mask)
6250 {
6251         if (mask & NETIF_F_GEN_CSUM)
6252                 mask |= NETIF_F_ALL_CSUM;
6253         mask |= NETIF_F_VLAN_CHALLENGED;
6254
6255         all |= one & (NETIF_F_ONE_FOR_ALL|NETIF_F_ALL_CSUM) & mask;
6256         all &= one | ~NETIF_F_ALL_FOR_ALL;
6257
6258         /* If device needs checksumming, downgrade to it. */
6259         if (all & (NETIF_F_ALL_CSUM & ~NETIF_F_NO_CSUM))
6260                 all &= ~NETIF_F_NO_CSUM;
6261
6262         /* If one device supports hw checksumming, set for all. */
6263         if (all & NETIF_F_GEN_CSUM)
6264                 all &= ~(NETIF_F_ALL_CSUM & ~NETIF_F_GEN_CSUM);
6265
6266         return all;
6267 }
6268 EXPORT_SYMBOL(netdev_increment_features);
6269
6270 static struct hlist_head *netdev_create_hash(void)
6271 {
6272         int i;
6273         struct hlist_head *hash;
6274
6275         hash = kmalloc(sizeof(*hash) * NETDEV_HASHENTRIES, GFP_KERNEL);
6276         if (hash != NULL)
6277                 for (i = 0; i < NETDEV_HASHENTRIES; i++)
6278                         INIT_HLIST_HEAD(&hash[i]);
6279
6280         return hash;
6281 }
6282
6283 /* Initialize per network namespace state */
6284 static int __net_init netdev_init(struct net *net)
6285 {
6286         INIT_LIST_HEAD(&net->dev_base_head);
6287
6288         net->dev_name_head = netdev_create_hash();
6289         if (net->dev_name_head == NULL)
6290                 goto err_name;
6291
6292         net->dev_index_head = netdev_create_hash();
6293         if (net->dev_index_head == NULL)
6294                 goto err_idx;
6295
6296         return 0;
6297
6298 err_idx:
6299         kfree(net->dev_name_head);
6300 err_name:
6301         return -ENOMEM;
6302 }
6303
6304 /**
6305  *      netdev_drivername - network driver for the device
6306  *      @dev: network device
6307  *
6308  *      Determine network driver for device.
6309  */
6310 const char *netdev_drivername(const struct net_device *dev)
6311 {
6312         const struct device_driver *driver;
6313         const struct device *parent;
6314         const char *empty = "";
6315
6316         parent = dev->dev.parent;
6317         if (!parent)
6318                 return empty;
6319
6320         driver = parent->driver;
6321         if (driver && driver->name)
6322                 return driver->name;
6323         return empty;
6324 }
6325
6326 static int __netdev_printk(const char *level, const struct net_device *dev,
6327                            struct va_format *vaf)
6328 {
6329         int r;
6330
6331         if (dev && dev->dev.parent)
6332                 r = dev_printk(level, dev->dev.parent, "%s: %pV",
6333                                netdev_name(dev), vaf);
6334         else if (dev)
6335                 r = printk("%s%s: %pV", level, netdev_name(dev), vaf);
6336         else
6337                 r = printk("%s(NULL net_device): %pV", level, vaf);
6338
6339         return r;
6340 }
6341
6342 int netdev_printk(const char *level, const struct net_device *dev,
6343                   const char *format, ...)
6344 {
6345         struct va_format vaf;
6346         va_list args;
6347         int r;
6348
6349         va_start(args, format);
6350
6351         vaf.fmt = format;
6352         vaf.va = &args;
6353
6354         r = __netdev_printk(level, dev, &vaf);
6355         va_end(args);
6356
6357         return r;
6358 }
6359 EXPORT_SYMBOL(netdev_printk);
6360
6361 #define define_netdev_printk_level(func, level)                 \
6362 int func(const struct net_device *dev, const char *fmt, ...)    \
6363 {                                                               \
6364         int r;                                                  \
6365         struct va_format vaf;                                   \
6366         va_list args;                                           \
6367                                                                 \
6368         va_start(args, fmt);                                    \
6369                                                                 \
6370         vaf.fmt = fmt;                                          \
6371         vaf.va = &args;                                         \
6372                                                                 \
6373         r = __netdev_printk(level, dev, &vaf);                  \
6374         va_end(args);                                           \
6375                                                                 \
6376         return r;                                               \
6377 }                                                               \
6378 EXPORT_SYMBOL(func);
6379
6380 define_netdev_printk_level(netdev_emerg, KERN_EMERG);
6381 define_netdev_printk_level(netdev_alert, KERN_ALERT);
6382 define_netdev_printk_level(netdev_crit, KERN_CRIT);
6383 define_netdev_printk_level(netdev_err, KERN_ERR);
6384 define_netdev_printk_level(netdev_warn, KERN_WARNING);
6385 define_netdev_printk_level(netdev_notice, KERN_NOTICE);
6386 define_netdev_printk_level(netdev_info, KERN_INFO);
6387
6388 static void __net_exit netdev_exit(struct net *net)
6389 {
6390         kfree(net->dev_name_head);
6391         kfree(net->dev_index_head);
6392 }
6393
6394 static struct pernet_operations __net_initdata netdev_net_ops = {
6395         .init = netdev_init,
6396         .exit = netdev_exit,
6397 };
6398
6399 static void __net_exit default_device_exit(struct net *net)
6400 {
6401         struct net_device *dev, *aux;
6402         /*
6403          * Push all migratable network devices back to the
6404          * initial network namespace
6405          */
6406         rtnl_lock();
6407         for_each_netdev_safe(net, dev, aux) {
6408                 int err;
6409                 char fb_name[IFNAMSIZ];
6410
6411                 /* Ignore unmoveable devices (i.e. loopback) */
6412                 if (dev->features & NETIF_F_NETNS_LOCAL)
6413                         continue;
6414
6415                 /* Leave virtual devices for the generic cleanup */
6416                 if (dev->rtnl_link_ops)
6417                         continue;
6418
6419                 /* Push remaining network devices to init_net */
6420                 snprintf(fb_name, IFNAMSIZ, "dev%d", dev->ifindex);
6421                 err = dev_change_net_namespace(dev, &init_net, fb_name);
6422                 if (err) {
6423                         printk(KERN_EMERG "%s: failed to move %s to init_net: %d\n",
6424                                 __func__, dev->name, err);
6425                         BUG();
6426                 }
6427         }
6428         rtnl_unlock();
6429 }
6430
6431 static void __net_exit default_device_exit_batch(struct list_head *net_list)
6432 {
6433         /* At exit all network devices most be removed from a network
6434          * namespace.  Do this in the reverse order of registration.
6435          * Do this across as many network namespaces as possible to
6436          * improve batching efficiency.
6437          */
6438         struct net_device *dev;
6439         struct net *net;
6440         LIST_HEAD(dev_kill_list);
6441
6442         rtnl_lock();
6443         list_for_each_entry(net, net_list, exit_list) {
6444                 for_each_netdev_reverse(net, dev) {
6445                         if (dev->rtnl_link_ops)
6446                                 dev->rtnl_link_ops->dellink(dev, &dev_kill_list);
6447                         else
6448                                 unregister_netdevice_queue(dev, &dev_kill_list);
6449                 }
6450         }
6451         unregister_netdevice_many(&dev_kill_list);
6452         list_del(&dev_kill_list);
6453         rtnl_unlock();
6454 }
6455
6456 static struct pernet_operations __net_initdata default_device_ops = {
6457         .exit = default_device_exit,
6458         .exit_batch = default_device_exit_batch,
6459 };
6460
6461 /*
6462  *      Initialize the DEV module. At boot time this walks the device list and
6463  *      unhooks any devices that fail to initialise (normally hardware not
6464  *      present) and leaves us with a valid list of present and active devices.
6465  *
6466  */
6467
6468 /*
6469  *       This is called single threaded during boot, so no need
6470  *       to take the rtnl semaphore.
6471  */
6472 static int __init net_dev_init(void)
6473 {
6474         int i, rc = -ENOMEM;
6475
6476         BUG_ON(!dev_boot_phase);
6477
6478         if (dev_proc_init())
6479                 goto out;
6480
6481         if (netdev_kobject_init())
6482                 goto out;
6483
6484         INIT_LIST_HEAD(&ptype_all);
6485         for (i = 0; i < PTYPE_HASH_SIZE; i++)
6486                 INIT_LIST_HEAD(&ptype_base[i]);
6487
6488         if (register_pernet_subsys(&netdev_net_ops))
6489                 goto out;
6490
6491         /*
6492          *      Initialise the packet receive queues.
6493          */
6494
6495         for_each_possible_cpu(i) {
6496                 struct softnet_data *sd = &per_cpu(softnet_data, i);
6497
6498                 memset(sd, 0, sizeof(*sd));
6499                 skb_queue_head_init(&sd->input_pkt_queue);
6500                 skb_queue_head_init(&sd->process_queue);
6501                 sd->completion_queue = NULL;
6502                 INIT_LIST_HEAD(&sd->poll_list);
6503                 sd->output_queue = NULL;
6504                 sd->output_queue_tailp = &sd->output_queue;
6505 #ifdef CONFIG_RPS
6506                 sd->csd.func = rps_trigger_softirq;
6507                 sd->csd.info = sd;
6508                 sd->csd.flags = 0;
6509                 sd->cpu = i;
6510 #endif
6511
6512                 sd->backlog.poll = process_backlog;
6513                 sd->backlog.weight = weight_p;
6514                 sd->backlog.gro_list = NULL;
6515                 sd->backlog.gro_count = 0;
6516         }
6517
6518         dev_boot_phase = 0;
6519
6520         /* The loopback device is special if any other network devices
6521          * is present in a network namespace the loopback device must
6522          * be present. Since we now dynamically allocate and free the
6523          * loopback device ensure this invariant is maintained by
6524          * keeping the loopback device as the first device on the
6525          * list of network devices.  Ensuring the loopback devices
6526          * is the first device that appears and the last network device
6527          * that disappears.
6528          */
6529         if (register_pernet_device(&loopback_net_ops))
6530                 goto out;
6531
6532         if (register_pernet_device(&default_device_ops))
6533                 goto out;
6534
6535         open_softirq(NET_TX_SOFTIRQ, net_tx_action);
6536         open_softirq(NET_RX_SOFTIRQ, net_rx_action);
6537
6538         hotcpu_notifier(dev_cpu_callback, 0);
6539         dst_init();
6540         dev_mcast_init();
6541         rc = 0;
6542 out:
6543         return rc;
6544 }
6545
6546 subsys_initcall(net_dev_init);
6547
6548 static int __init initialize_hashrnd(void)
6549 {
6550         get_random_bytes(&hashrnd, sizeof(hashrnd));
6551         return 0;
6552 }
6553
6554 late_initcall_sync(initialize_hashrnd);
6555