drivers/md/linear.c

   1 /*
   2    linear.c : Multiple Devices driver for Linux
   3               Copyright (C) 1994-96 Marc ZYNGIER
   4               <zyngier@ufr-info-p7.ibp.fr> or
   5               <maz@gloups.fdn.fr>
   6
   7    Linear mode management functions.
   8
   9    This program is free software; you can redistribute it and/or modify
  10    it under the terms of the GNU General Public License as published by
  11    the Free Software Foundation; either version 2, or (at your option)
  12    any later version.
  13
  14    You should have received a copy of the GNU General Public License
  15    (for example /usr/src/linux/COPYING); if not, write to the Free
  16    Software Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  17 */
  18
  19 #include <linux/blkdev.h>
  20 #include <linux/raid/md_u.h>
  21 #include <linux/seq_file.h>
  22 #include <linux/module.h>
  23 #include <linux/slab.h>
  24 #include "md.h"
  25 #include "linear.h"
  26
  27 /*
  28  * find which device holds a particular offset
  29  */
  30 static inline struct dev_info *which_dev(struct mddev *mddev, sector_t sector)
  31 {
  32         int lo, mid, hi;
  33         struct linear_conf *conf;
  34
  35         lo = 0;
  36         hi = mddev->raid_disks - 1;
  37         conf = rcu_dereference(mddev->private);
  38
  39         /*
  40          * Binary Search
  41          */
  42
  43         while (hi > lo) {
  44
  45                 mid = (hi + lo) / 2;
  46                 if (sector < conf->disks[mid].end_sector)
  47                         hi = mid;
  48                 else
  49                         lo = mid + 1;
  50         }
  51
  52         return conf->disks + lo;
  53 }
  54
  55 /**
  56  *      linear_mergeable_bvec -- tell bio layer if two requests can be merged
  57  *      @q: request queue
  58  *      @bvm: properties of new bio
  59  *      @biovec: the request that could be merged to it.
  60  *
  61  *      Return amount of bytes we can take at this offset
  62  */
  63 static int linear_mergeable_bvec(struct request_queue *q,
  64                                  struct bvec_merge_data *bvm,
  65                                  struct bio_vec *biovec)
  66 {
  67         struct mddev *mddev = q->queuedata;
  68         struct dev_info *dev0;
  69         unsigned long maxsectors, bio_sectors = bvm->bi_size >> 9;
  70         sector_t sector = bvm->bi_sector + get_start_sect(bvm->bi_bdev);
  71
  72         rcu_read_lock();
  73         dev0 = which_dev(mddev, sector);
  74         maxsectors = dev0->end_sector - sector;
  75         rcu_read_unlock();
  76
  77         if (maxsectors < bio_sectors)
  78                 maxsectors = 0;
  79         else
  80                 maxsectors -= bio_sectors;
  81
  82         if (maxsectors <= (PAGE_SIZE >> 9 ) && bio_sectors == 0)
  83                 return biovec->bv_len;
  84         /* The bytes available at this offset could be really big,
  85          * so we cap at 2^31 to avoid overflow */
  86         if (maxsectors > (1 << (31-9)))
  87                 return 1<<31;
  88         return maxsectors << 9;
  89 }
  90
  91 /*
  92  * In linear_congested() conf->raid_disks is used as a copy of
  93  * mddev->raid_disks to iterate conf->disks[], because conf->raid_disks
  94  * and conf->disks[] are created in linear_conf(), they are always
  95  * consitent with each other, but mddev->raid_disks does not.
  96  */
  97 static int linear_congested(void *data, int bits)
  98 {
  99         struct mddev *mddev = data;
 100         struct linear_conf *conf;
 101         int i, ret = 0;
 102
 103         if (mddev_congested(mddev, bits))
 104                 return 1;
 105
 106         rcu_read_lock();
 107         conf = rcu_dereference(mddev->private);
 108
 109         for (i = 0; i < conf->raid_disks && !ret ; i++) {
 110                 struct request_queue *q = bdev_get_queue(conf->disks[i].rdev->bdev);
 111                 ret |= bdi_congested(&q->backing_dev_info, bits);
 112         }
 113
 114         rcu_read_unlock();
 115         return ret;
 116 }
 117
 118 static sector_t linear_size(struct mddev *mddev, sector_t sectors, int raid_disks)
 119 {
 120         struct linear_conf *conf;
 121         sector_t array_sectors;
 122
 123         rcu_read_lock();
 124         conf = rcu_dereference(mddev->private);
 125         WARN_ONCE(sectors || raid_disks,
 126                   "%s does not support generic reshape\n", __func__);
 127         array_sectors = conf->array_sectors;
 128         rcu_read_unlock();
 129
 130         return array_sectors;
 131 }
 132
 133 static struct linear_conf *linear_conf(struct mddev *mddev, int raid_disks)
 134 {
 135         struct linear_conf *conf;
 136         struct md_rdev *rdev;
 137         int i, cnt;
 138
 139         conf = kzalloc (sizeof (*conf) + raid_disks*sizeof(struct dev_info),
 140                         GFP_KERNEL);
 141         if (!conf)
 142                 return NULL;
 143
 144         cnt = 0;
 145         conf->array_sectors = 0;
 146
 147         list_for_each_entry(rdev, &mddev->disks, same_set) {
 148                 int j = rdev->raid_disk;
 149                 struct dev_info *disk = conf->disks + j;
 150                 sector_t sectors;
 151
 152                 if (j < 0 || j >= raid_disks || disk->rdev) {
 153                         printk(KERN_ERR "md/linear:%s: disk numbering problem. Aborting!\n",
 154                                mdname(mddev));
 155                         goto out;
 156                 }
 157
 158                 disk->rdev = rdev;
 159                 if (mddev->chunk_sectors) {
 160                         sectors = rdev->sectors;
 161                         sector_div(sectors, mddev->chunk_sectors);
 162                         rdev->sectors = sectors * mddev->chunk_sectors;
 163                 }
 164
 165                 disk_stack_limits(mddev->gendisk, rdev->bdev,
 166                                   rdev->data_offset << 9);
 167                 /* as we don't honour merge_bvec_fn, we must never risk
 168                  * violating it, so limit max_segments to 1 lying within
 169                  * a single page.
 170                  */
 171                 if (rdev->bdev->bd_disk->queue->merge_bvec_fn) {
 172                         blk_queue_max_segments(mddev->queue, 1);
 173                         blk_queue_segment_boundary(mddev->queue,
 174                                                    PAGE_CACHE_SIZE - 1);
 175                 }
 176
 177                 conf->array_sectors += rdev->sectors;
 178                 cnt++;
 179
 180         }
 181         if (cnt != raid_disks) {
 182                 printk(KERN_ERR "md/linear:%s: not enough drives present. Aborting!\n",
 183                        mdname(mddev));
 184                 goto out;
 185         }
 186
 187         /*
 188          * Here we calculate the device offsets.
 189          */
 190         conf->disks[0].end_sector = conf->disks[0].rdev->sectors;
 191
 192         for (i = 1; i < raid_disks; i++)
 193                 conf->disks[i].end_sector =
 194                         conf->disks[i-1].end_sector +
 195                         conf->disks[i].rdev->sectors;
 196
 197         /*
 198          * conf->raid_disks is copy of mddev->raid_disks. The reason to
 199          * keep a copy of mddev->raid_disks in struct linear_conf is,
 200          * mddev->raid_disks may not be consistent with pointers number of
 201          * conf->disks[] when it is updated in linear_add() and used to
 202          * iterate old conf->disks[] earray in linear_congested().
 203          * Here conf->raid_disks is always consitent with number of
 204          * pointers in conf->disks[] array, and mddev->private is updated
 205          * with rcu_assign_pointer() in linear_addr(), such race can be
 206          * avoided.
 207          */
 208         conf->raid_disks = raid_disks;
 209
 210         return conf;
 211
 212 out:
 213         kfree(conf);
 214         return NULL;
 215 }
 216
 217 static int linear_run (struct mddev *mddev)
 218 {
 219         struct linear_conf *conf;
 220
 221         if (md_check_no_bitmap(mddev))
 222                 return -EINVAL;
 223         conf = linear_conf(mddev, mddev->raid_disks);
 224
 225         if (!conf)
 226                 return 1;
 227         mddev->private = conf;
 228         md_set_array_sectors(mddev, linear_size(mddev, 0, 0));
 229
 230         blk_queue_merge_bvec(mddev->queue, linear_mergeable_bvec);
 231         mddev->queue->backing_dev_info.congested_fn = linear_congested;
 232         mddev->queue->backing_dev_info.congested_data = mddev;
 233         return md_integrity_register(mddev);
 234 }
 235
 236 static int linear_add(struct mddev *mddev, struct md_rdev *rdev)
 237 {
 238         /* Adding a drive to a linear array allows the array to grow.
 239          * It is permitted if the new drive has a matching superblock
 240          * already on it, with raid_disk equal to raid_disks.
 241          * It is achieved by creating a new linear_private_data structure
 242          * and swapping it in in-place of the current one.
 243          * The current one is never freed until the array is stopped.
 244          * This avoids races.
 245          */
 246         struct linear_conf *newconf, *oldconf;
 247
 248         if (rdev->saved_raid_disk != mddev->raid_disks)
 249                 return -EINVAL;
 250
 251         rdev->raid_disk = rdev->saved_raid_disk;
 252         rdev->saved_raid_disk = -1;
 253
 254         newconf = linear_conf(mddev,mddev->raid_disks+1);
 255
 256         if (!newconf)
 257                 return -ENOMEM;
 258
 259         /* newconf->raid_disks already keeps a copy of * the increased
 260          * value of mddev->raid_disks, WARN_ONCE() is just used to make
 261          * sure of this. It is possible that oldconf is still referenced
 262          * in linear_congested(), therefore kfree_rcu() is used to free
 263          * oldconf until no one uses it anymore.
 264          */
 265         oldconf = rcu_dereference(mddev->private);
 266         mddev->raid_disks++;
 267         WARN_ONCE(mddev->raid_disks != newconf->raid_disks,
 268                 "copied raid_disks doesn't match mddev->raid_disks");
 269         rcu_assign_pointer(mddev->private, newconf);
 270         md_set_array_sectors(mddev, linear_size(mddev, 0, 0));
 271         set_capacity(mddev->gendisk, mddev->array_sectors);
 272         revalidate_disk(mddev->gendisk);
 273         kfree_rcu(oldconf, rcu);
 274         return 0;
 275 }
 276
 277 static int linear_stop (struct mddev *mddev)
 278 {
 279         struct linear_conf *conf = mddev->private;
 280
 281         /*
 282          * We do not require rcu protection here since
 283          * we hold reconfig_mutex for both linear_add and
 284          * linear_stop, so they cannot race.
 285          * We should make sure any old 'conf's are properly
 286          * freed though.
 287          */
 288         rcu_barrier();
 289         blk_sync_queue(mddev->queue); /* the unplug fn references 'conf'*/
 290         kfree(conf);
 291         mddev->private = NULL;
 292
 293         return 0;
 294 }
 295
 296 static void linear_make_request(struct mddev *mddev, struct bio *bio)
 297 {
 298         struct dev_info *tmp_dev;
 299         sector_t start_sector;
 300
 301         if (unlikely(bio->bi_rw & REQ_FLUSH)) {
 302                 md_flush_request(mddev, bio);
 303                 return;
 304         }
 305
 306         rcu_read_lock();
 307         tmp_dev = which_dev(mddev, bio->bi_sector);
 308         start_sector = tmp_dev->end_sector - tmp_dev->rdev->sectors;
 309
 310
 311         if (unlikely(bio->bi_sector >= (tmp_dev->end_sector)
 312                      || (bio->bi_sector < start_sector))) {
 313                 char b[BDEVNAME_SIZE];
 314
 315                 printk(KERN_ERR
 316                        "md/linear:%s: make_request: Sector %llu out of bounds on "
 317                        "dev %s: %llu sectors, offset %llu\n",
 318                        mdname(mddev),
 319                        (unsigned long long)bio->bi_sector,
 320                        bdevname(tmp_dev->rdev->bdev, b),
 321                        (unsigned long long)tmp_dev->rdev->sectors,
 322                        (unsigned long long)start_sector);
 323                 rcu_read_unlock();
 324                 bio_io_error(bio);
 325                 return;
 326         }
 327         if (unlikely(bio->bi_sector + (bio->bi_size >> 9) >
 328                      tmp_dev->end_sector)) {
 329                 /* This bio crosses a device boundary, so we have to
 330                  * split it.
 331                  */
 332                 struct bio_pair *bp;
 333                 sector_t end_sector = tmp_dev->end_sector;
 334
 335                 rcu_read_unlock();
 336
 337                 bp = bio_split(bio, end_sector - bio->bi_sector);
 338
 339                 linear_make_request(mddev, &bp->bio1);
 340                 linear_make_request(mddev, &bp->bio2);
 341                 bio_pair_release(bp);
 342                 return;
 343         }
 344
 345         bio->bi_bdev = tmp_dev->rdev->bdev;
 346         bio->bi_sector = bio->bi_sector - start_sector
 347                 + tmp_dev->rdev->data_offset;
 348         rcu_read_unlock();
 349         generic_make_request(bio);
 350 }
 351
 352 static void linear_status (struct seq_file *seq, struct mddev *mddev)
 353 {
 354
 355         seq_printf(seq, " %dk rounding", mddev->chunk_sectors / 2);
 356 }
 357
 358
 359 static struct md_personality linear_personality =
 360 {
 361         .name           = "linear",
 362         .level          = LEVEL_LINEAR,
 363         .owner          = THIS_MODULE,
 364         .make_request   = linear_make_request,
 365         .run            = linear_run,
 366         .stop           = linear_stop,
 367         .status         = linear_status,
 368         .hot_add_disk   = linear_add,
 369         .size           = linear_size,
 370 };
 371
 372 static int __init linear_init (void)
 373 {
 374         return register_md_personality (&linear_personality);
 375 }
 376
 377 static void linear_exit (void)
 378 {
 379         unregister_md_personality (&linear_personality);
 380 }
 381
 382
 383 module_init(linear_init);
 384 module_exit(linear_exit);
 385 MODULE_LICENSE("GPL");
 386 MODULE_DESCRIPTION("Linear device concatenation personality for MD");
 387 MODULE_ALIAS("md-personality-1"); /* LINEAR - deprecated*/
 388 MODULE_ALIAS("md-linear");
 389 MODULE_ALIAS("md-level--1");