Merge branch 'i2c-for-linus' of git://git.kernel.org/pub/scm/linux/kernel/git/jdelvar...
[pandora-kernel.git] / fs / ocfs2 / localalloc.c
1 /* -*- mode: c; c-basic-offset: 8; -*-
2  * vim: noexpandtab sw=8 ts=8 sts=0:
3  *
4  * localalloc.c
5  *
6  * Node local data allocation
7  *
8  * Copyright (C) 2002, 2004 Oracle.  All rights reserved.
9  *
10  * This program is free software; you can redistribute it and/or
11  * modify it under the terms of the GNU General Public
12  * License as published by the Free Software Foundation; either
13  * version 2 of the License, or (at your option) any later version.
14  *
15  * This program is distributed in the hope that it will be useful,
16  * but WITHOUT ANY WARRANTY; without even the implied warranty of
17  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
18  * General Public License for more details.
19  *
20  * You should have received a copy of the GNU General Public
21  * License along with this program; if not, write to the
22  * Free Software Foundation, Inc., 59 Temple Place - Suite 330,
23  * Boston, MA 021110-1307, USA.
24  */
25
26 #include <linux/fs.h>
27 #include <linux/types.h>
28 #include <linux/slab.h>
29 #include <linux/highmem.h>
30 #include <linux/bitops.h>
31
32 #define MLOG_MASK_PREFIX ML_DISK_ALLOC
33 #include <cluster/masklog.h>
34
35 #include "ocfs2.h"
36
37 #include "alloc.h"
38 #include "blockcheck.h"
39 #include "dlmglue.h"
40 #include "inode.h"
41 #include "journal.h"
42 #include "localalloc.h"
43 #include "suballoc.h"
44 #include "super.h"
45 #include "sysfile.h"
46
47 #include "buffer_head_io.h"
48
49 #define OCFS2_LOCAL_ALLOC(dinode)       (&((dinode)->id2.i_lab))
50
51 static u32 ocfs2_local_alloc_count_bits(struct ocfs2_dinode *alloc);
52
53 static int ocfs2_local_alloc_find_clear_bits(struct ocfs2_super *osb,
54                                              struct ocfs2_dinode *alloc,
55                                              u32 *numbits,
56                                              struct ocfs2_alloc_reservation *resv);
57
58 static void ocfs2_clear_local_alloc(struct ocfs2_dinode *alloc);
59
60 static int ocfs2_sync_local_to_main(struct ocfs2_super *osb,
61                                     handle_t *handle,
62                                     struct ocfs2_dinode *alloc,
63                                     struct inode *main_bm_inode,
64                                     struct buffer_head *main_bm_bh);
65
66 static int ocfs2_local_alloc_reserve_for_window(struct ocfs2_super *osb,
67                                                 struct ocfs2_alloc_context **ac,
68                                                 struct inode **bitmap_inode,
69                                                 struct buffer_head **bitmap_bh);
70
71 static int ocfs2_local_alloc_new_window(struct ocfs2_super *osb,
72                                         handle_t *handle,
73                                         struct ocfs2_alloc_context *ac);
74
75 static int ocfs2_local_alloc_slide_window(struct ocfs2_super *osb,
76                                           struct inode *local_alloc_inode);
77
78 /*
79  * ocfs2_la_default_mb() - determine a default size, in megabytes of
80  * the local alloc.
81  *
82  * Generally, we'd like to pick as large a local alloc as
83  * possible. Performance on large workloads tends to scale
84  * proportionally to la size. In addition to that, the reservations
85  * code functions more efficiently as it can reserve more windows for
86  * write.
87  *
88  * Some things work against us when trying to choose a large local alloc:
89  *
90  * - We need to ensure our sizing is picked to leave enough space in
91  *   group descriptors for other allocations (such as block groups,
92  *   etc). Picking default sizes which are a multiple of 4 could help
93  *   - block groups are allocated in 2mb and 4mb chunks.
94  *
95  * - Likewise, we don't want to starve other nodes of bits on small
96  *   file systems. This can easily be taken care of by limiting our
97  *   default to a reasonable size (256M) on larger cluster sizes.
98  *
99  * - Some file systems can't support very large sizes - 4k and 8k in
100  *   particular are limited to less than 128 and 256 megabytes respectively.
101  *
102  * The following reference table shows group descriptor and local
103  * alloc maximums at various cluster sizes (4k blocksize)
104  *
105  * csize: 4K    group: 126M     la: 121M
106  * csize: 8K    group: 252M     la: 243M
107  * csize: 16K   group: 504M     la: 486M
108  * csize: 32K   group: 1008M    la: 972M
109  * csize: 64K   group: 2016M    la: 1944M
110  * csize: 128K  group: 4032M    la: 3888M
111  * csize: 256K  group: 8064M    la: 7776M
112  * csize: 512K  group: 16128M   la: 15552M
113  * csize: 1024K group: 32256M   la: 31104M
114  */
115 #define OCFS2_LA_MAX_DEFAULT_MB 256
116 #define OCFS2_LA_OLD_DEFAULT    8
117 unsigned int ocfs2_la_default_mb(struct ocfs2_super *osb)
118 {
119         unsigned int la_mb;
120         unsigned int gd_mb;
121         unsigned int megs_per_slot;
122         struct super_block *sb = osb->sb;
123
124         gd_mb = ocfs2_clusters_to_megabytes(osb->sb,
125                 8 * ocfs2_group_bitmap_size(sb, 0, osb->s_feature_incompat));
126
127         /*
128          * This takes care of files systems with very small group
129          * descriptors - 512 byte blocksize at cluster sizes lower
130          * than 16K and also 1k blocksize with 4k cluster size.
131          */
132         if ((sb->s_blocksize == 512 && osb->s_clustersize <= 8192)
133             || (sb->s_blocksize == 1024 && osb->s_clustersize == 4096))
134                 return OCFS2_LA_OLD_DEFAULT;
135
136         /*
137          * Leave enough room for some block groups and make the final
138          * value we work from a multiple of 4.
139          */
140         gd_mb -= 16;
141         gd_mb &= 0xFFFFFFFB;
142
143         la_mb = gd_mb;
144
145         /*
146          * Keep window sizes down to a reasonable default
147          */
148         if (la_mb > OCFS2_LA_MAX_DEFAULT_MB) {
149                 /*
150                  * Some clustersize / blocksize combinations will have
151                  * given us a larger than OCFS2_LA_MAX_DEFAULT_MB
152                  * default size, but get poor distribution when
153                  * limited to exactly 256 megabytes.
154                  *
155                  * As an example, 16K clustersize at 4K blocksize
156                  * gives us a cluster group size of 504M. Paring the
157                  * local alloc size down to 256 however, would give us
158                  * only one window and around 200MB left in the
159                  * cluster group. Instead, find the first size below
160                  * 256 which would give us an even distribution.
161                  *
162                  * Larger cluster group sizes actually work out pretty
163                  * well when pared to 256, so we don't have to do this
164                  * for any group that fits more than two
165                  * OCFS2_LA_MAX_DEFAULT_MB windows.
166                  */
167                 if (gd_mb > (2 * OCFS2_LA_MAX_DEFAULT_MB))
168                         la_mb = 256;
169                 else {
170                         unsigned int gd_mult = gd_mb;
171
172                         while (gd_mult > 256)
173                                 gd_mult = gd_mult >> 1;
174
175                         la_mb = gd_mult;
176                 }
177         }
178
179         megs_per_slot = osb->osb_clusters_at_boot / osb->max_slots;
180         megs_per_slot = ocfs2_clusters_to_megabytes(osb->sb, megs_per_slot);
181         /* Too many nodes, too few disk clusters. */
182         if (megs_per_slot < la_mb)
183                 la_mb = megs_per_slot;
184
185         return la_mb;
186 }
187
188 void ocfs2_la_set_sizes(struct ocfs2_super *osb, int requested_mb)
189 {
190         struct super_block *sb = osb->sb;
191         unsigned int la_default_mb = ocfs2_la_default_mb(osb);
192         unsigned int la_max_mb;
193
194         la_max_mb = ocfs2_clusters_to_megabytes(sb,
195                                                 ocfs2_local_alloc_size(sb) * 8);
196
197         mlog(0, "requested: %dM, max: %uM, default: %uM\n",
198              requested_mb, la_max_mb, la_default_mb);
199
200         if (requested_mb == -1) {
201                 /* No user request - use defaults */
202                 osb->local_alloc_default_bits =
203                         ocfs2_megabytes_to_clusters(sb, la_default_mb);
204         } else if (requested_mb > la_max_mb) {
205                 /* Request is too big, we give the maximum available */
206                 osb->local_alloc_default_bits =
207                         ocfs2_megabytes_to_clusters(sb, la_max_mb);
208         } else {
209                 osb->local_alloc_default_bits =
210                         ocfs2_megabytes_to_clusters(sb, requested_mb);
211         }
212
213         osb->local_alloc_bits = osb->local_alloc_default_bits;
214 }
215
216 static inline int ocfs2_la_state_enabled(struct ocfs2_super *osb)
217 {
218         return (osb->local_alloc_state == OCFS2_LA_THROTTLED ||
219                 osb->local_alloc_state == OCFS2_LA_ENABLED);
220 }
221
222 void ocfs2_local_alloc_seen_free_bits(struct ocfs2_super *osb,
223                                       unsigned int num_clusters)
224 {
225         spin_lock(&osb->osb_lock);
226         if (osb->local_alloc_state == OCFS2_LA_DISABLED ||
227             osb->local_alloc_state == OCFS2_LA_THROTTLED)
228                 if (num_clusters >= osb->local_alloc_default_bits) {
229                         cancel_delayed_work(&osb->la_enable_wq);
230                         osb->local_alloc_state = OCFS2_LA_ENABLED;
231                 }
232         spin_unlock(&osb->osb_lock);
233 }
234
235 void ocfs2_la_enable_worker(struct work_struct *work)
236 {
237         struct ocfs2_super *osb =
238                 container_of(work, struct ocfs2_super,
239                              la_enable_wq.work);
240         spin_lock(&osb->osb_lock);
241         osb->local_alloc_state = OCFS2_LA_ENABLED;
242         spin_unlock(&osb->osb_lock);
243 }
244
245 /*
246  * Tell us whether a given allocation should use the local alloc
247  * file. Otherwise, it has to go to the main bitmap.
248  *
249  * This function does semi-dirty reads of local alloc size and state!
250  * This is ok however, as the values are re-checked once under mutex.
251  */
252 int ocfs2_alloc_should_use_local(struct ocfs2_super *osb, u64 bits)
253 {
254         int ret = 0;
255         int la_bits;
256
257         spin_lock(&osb->osb_lock);
258         la_bits = osb->local_alloc_bits;
259
260         if (!ocfs2_la_state_enabled(osb))
261                 goto bail;
262
263         /* la_bits should be at least twice the size (in clusters) of
264          * a new block group. We want to be sure block group
265          * allocations go through the local alloc, so allow an
266          * allocation to take up to half the bitmap. */
267         if (bits > (la_bits / 2))
268                 goto bail;
269
270         ret = 1;
271 bail:
272         mlog(0, "state=%d, bits=%llu, la_bits=%d, ret=%d\n",
273              osb->local_alloc_state, (unsigned long long)bits, la_bits, ret);
274         spin_unlock(&osb->osb_lock);
275         return ret;
276 }
277
278 int ocfs2_load_local_alloc(struct ocfs2_super *osb)
279 {
280         int status = 0;
281         struct ocfs2_dinode *alloc = NULL;
282         struct buffer_head *alloc_bh = NULL;
283         u32 num_used;
284         struct inode *inode = NULL;
285         struct ocfs2_local_alloc *la;
286
287         mlog_entry_void();
288
289         if (osb->local_alloc_bits == 0)
290                 goto bail;
291
292         if (osb->local_alloc_bits >= osb->bitmap_cpg) {
293                 mlog(ML_NOTICE, "Requested local alloc window %d is larger "
294                      "than max possible %u. Using defaults.\n",
295                      osb->local_alloc_bits, (osb->bitmap_cpg - 1));
296                 osb->local_alloc_bits =
297                         ocfs2_megabytes_to_clusters(osb->sb,
298                                                     ocfs2_la_default_mb(osb));
299         }
300
301         /* read the alloc off disk */
302         inode = ocfs2_get_system_file_inode(osb, LOCAL_ALLOC_SYSTEM_INODE,
303                                             osb->slot_num);
304         if (!inode) {
305                 status = -EINVAL;
306                 mlog_errno(status);
307                 goto bail;
308         }
309
310         status = ocfs2_read_inode_block_full(inode, &alloc_bh,
311                                              OCFS2_BH_IGNORE_CACHE);
312         if (status < 0) {
313                 mlog_errno(status);
314                 goto bail;
315         }
316
317         alloc = (struct ocfs2_dinode *) alloc_bh->b_data;
318         la = OCFS2_LOCAL_ALLOC(alloc);
319
320         if (!(le32_to_cpu(alloc->i_flags) &
321             (OCFS2_LOCAL_ALLOC_FL|OCFS2_BITMAP_FL))) {
322                 mlog(ML_ERROR, "Invalid local alloc inode, %llu\n",
323                      (unsigned long long)OCFS2_I(inode)->ip_blkno);
324                 status = -EINVAL;
325                 goto bail;
326         }
327
328         if ((la->la_size == 0) ||
329             (le16_to_cpu(la->la_size) > ocfs2_local_alloc_size(inode->i_sb))) {
330                 mlog(ML_ERROR, "Local alloc size is invalid (la_size = %u)\n",
331                      le16_to_cpu(la->la_size));
332                 status = -EINVAL;
333                 goto bail;
334         }
335
336         /* do a little verification. */
337         num_used = ocfs2_local_alloc_count_bits(alloc);
338
339         /* hopefully the local alloc has always been recovered before
340          * we load it. */
341         if (num_used
342             || alloc->id1.bitmap1.i_used
343             || alloc->id1.bitmap1.i_total
344             || la->la_bm_off)
345                 mlog(ML_ERROR, "Local alloc hasn't been recovered!\n"
346                      "found = %u, set = %u, taken = %u, off = %u\n",
347                      num_used, le32_to_cpu(alloc->id1.bitmap1.i_used),
348                      le32_to_cpu(alloc->id1.bitmap1.i_total),
349                      OCFS2_LOCAL_ALLOC(alloc)->la_bm_off);
350
351         osb->local_alloc_bh = alloc_bh;
352         osb->local_alloc_state = OCFS2_LA_ENABLED;
353
354 bail:
355         if (status < 0)
356                 brelse(alloc_bh);
357         if (inode)
358                 iput(inode);
359
360         mlog(0, "Local alloc window bits = %d\n", osb->local_alloc_bits);
361
362         mlog_exit(status);
363         return status;
364 }
365
366 /*
367  * return any unused bits to the bitmap and write out a clean
368  * local_alloc.
369  *
370  * local_alloc_bh is optional. If not passed, we will simply use the
371  * one off osb. If you do pass it however, be warned that it *will* be
372  * returned brelse'd and NULL'd out.*/
373 void ocfs2_shutdown_local_alloc(struct ocfs2_super *osb)
374 {
375         int status;
376         handle_t *handle;
377         struct inode *local_alloc_inode = NULL;
378         struct buffer_head *bh = NULL;
379         struct buffer_head *main_bm_bh = NULL;
380         struct inode *main_bm_inode = NULL;
381         struct ocfs2_dinode *alloc_copy = NULL;
382         struct ocfs2_dinode *alloc = NULL;
383
384         mlog_entry_void();
385
386         cancel_delayed_work(&osb->la_enable_wq);
387         flush_workqueue(ocfs2_wq);
388
389         if (osb->local_alloc_state == OCFS2_LA_UNUSED)
390                 goto out;
391
392         local_alloc_inode =
393                 ocfs2_get_system_file_inode(osb,
394                                             LOCAL_ALLOC_SYSTEM_INODE,
395                                             osb->slot_num);
396         if (!local_alloc_inode) {
397                 status = -ENOENT;
398                 mlog_errno(status);
399                 goto out;
400         }
401
402         osb->local_alloc_state = OCFS2_LA_DISABLED;
403
404         ocfs2_resmap_uninit(&osb->osb_la_resmap);
405
406         main_bm_inode = ocfs2_get_system_file_inode(osb,
407                                                     GLOBAL_BITMAP_SYSTEM_INODE,
408                                                     OCFS2_INVALID_SLOT);
409         if (!main_bm_inode) {
410                 status = -EINVAL;
411                 mlog_errno(status);
412                 goto out;
413         }
414
415         mutex_lock(&main_bm_inode->i_mutex);
416
417         status = ocfs2_inode_lock(main_bm_inode, &main_bm_bh, 1);
418         if (status < 0) {
419                 mlog_errno(status);
420                 goto out_mutex;
421         }
422
423         /* WINDOW_MOVE_CREDITS is a bit heavy... */
424         handle = ocfs2_start_trans(osb, OCFS2_WINDOW_MOVE_CREDITS);
425         if (IS_ERR(handle)) {
426                 mlog_errno(PTR_ERR(handle));
427                 handle = NULL;
428                 goto out_unlock;
429         }
430
431         bh = osb->local_alloc_bh;
432         alloc = (struct ocfs2_dinode *) bh->b_data;
433
434         alloc_copy = kmalloc(bh->b_size, GFP_NOFS);
435         if (!alloc_copy) {
436                 status = -ENOMEM;
437                 goto out_commit;
438         }
439         memcpy(alloc_copy, alloc, bh->b_size);
440
441         status = ocfs2_journal_access_di(handle, INODE_CACHE(local_alloc_inode),
442                                          bh, OCFS2_JOURNAL_ACCESS_WRITE);
443         if (status < 0) {
444                 mlog_errno(status);
445                 goto out_commit;
446         }
447
448         ocfs2_clear_local_alloc(alloc);
449         ocfs2_journal_dirty(handle, bh);
450
451         brelse(bh);
452         osb->local_alloc_bh = NULL;
453         osb->local_alloc_state = OCFS2_LA_UNUSED;
454
455         status = ocfs2_sync_local_to_main(osb, handle, alloc_copy,
456                                           main_bm_inode, main_bm_bh);
457         if (status < 0)
458                 mlog_errno(status);
459
460 out_commit:
461         ocfs2_commit_trans(osb, handle);
462
463 out_unlock:
464         brelse(main_bm_bh);
465
466         ocfs2_inode_unlock(main_bm_inode, 1);
467
468 out_mutex:
469         mutex_unlock(&main_bm_inode->i_mutex);
470         iput(main_bm_inode);
471
472 out:
473         if (local_alloc_inode)
474                 iput(local_alloc_inode);
475
476         if (alloc_copy)
477                 kfree(alloc_copy);
478
479         mlog_exit_void();
480 }
481
482 /*
483  * We want to free the bitmap bits outside of any recovery context as
484  * we'll need a cluster lock to do so, but we must clear the local
485  * alloc before giving up the recovered nodes journal. To solve this,
486  * we kmalloc a copy of the local alloc before it's change for the
487  * caller to process with ocfs2_complete_local_alloc_recovery
488  */
489 int ocfs2_begin_local_alloc_recovery(struct ocfs2_super *osb,
490                                      int slot_num,
491                                      struct ocfs2_dinode **alloc_copy)
492 {
493         int status = 0;
494         struct buffer_head *alloc_bh = NULL;
495         struct inode *inode = NULL;
496         struct ocfs2_dinode *alloc;
497
498         mlog_entry("(slot_num = %d)\n", slot_num);
499
500         *alloc_copy = NULL;
501
502         inode = ocfs2_get_system_file_inode(osb,
503                                             LOCAL_ALLOC_SYSTEM_INODE,
504                                             slot_num);
505         if (!inode) {
506                 status = -EINVAL;
507                 mlog_errno(status);
508                 goto bail;
509         }
510
511         mutex_lock(&inode->i_mutex);
512
513         status = ocfs2_read_inode_block_full(inode, &alloc_bh,
514                                              OCFS2_BH_IGNORE_CACHE);
515         if (status < 0) {
516                 mlog_errno(status);
517                 goto bail;
518         }
519
520         *alloc_copy = kmalloc(alloc_bh->b_size, GFP_KERNEL);
521         if (!(*alloc_copy)) {
522                 status = -ENOMEM;
523                 goto bail;
524         }
525         memcpy((*alloc_copy), alloc_bh->b_data, alloc_bh->b_size);
526
527         alloc = (struct ocfs2_dinode *) alloc_bh->b_data;
528         ocfs2_clear_local_alloc(alloc);
529
530         ocfs2_compute_meta_ecc(osb->sb, alloc_bh->b_data, &alloc->i_check);
531         status = ocfs2_write_block(osb, alloc_bh, INODE_CACHE(inode));
532         if (status < 0)
533                 mlog_errno(status);
534
535 bail:
536         if ((status < 0) && (*alloc_copy)) {
537                 kfree(*alloc_copy);
538                 *alloc_copy = NULL;
539         }
540
541         brelse(alloc_bh);
542
543         if (inode) {
544                 mutex_unlock(&inode->i_mutex);
545                 iput(inode);
546         }
547
548         mlog_exit(status);
549         return status;
550 }
551
552 /*
553  * Step 2: By now, we've completed the journal recovery, we've stamped
554  * a clean local alloc on disk and dropped the node out of the
555  * recovery map. Dlm locks will no longer stall, so lets clear out the
556  * main bitmap.
557  */
558 int ocfs2_complete_local_alloc_recovery(struct ocfs2_super *osb,
559                                         struct ocfs2_dinode *alloc)
560 {
561         int status;
562         handle_t *handle;
563         struct buffer_head *main_bm_bh = NULL;
564         struct inode *main_bm_inode;
565
566         mlog_entry_void();
567
568         main_bm_inode = ocfs2_get_system_file_inode(osb,
569                                                     GLOBAL_BITMAP_SYSTEM_INODE,
570                                                     OCFS2_INVALID_SLOT);
571         if (!main_bm_inode) {
572                 status = -EINVAL;
573                 mlog_errno(status);
574                 goto out;
575         }
576
577         mutex_lock(&main_bm_inode->i_mutex);
578
579         status = ocfs2_inode_lock(main_bm_inode, &main_bm_bh, 1);
580         if (status < 0) {
581                 mlog_errno(status);
582                 goto out_mutex;
583         }
584
585         handle = ocfs2_start_trans(osb, OCFS2_WINDOW_MOVE_CREDITS);
586         if (IS_ERR(handle)) {
587                 status = PTR_ERR(handle);
588                 handle = NULL;
589                 mlog_errno(status);
590                 goto out_unlock;
591         }
592
593         /* we want the bitmap change to be recorded on disk asap */
594         handle->h_sync = 1;
595
596         status = ocfs2_sync_local_to_main(osb, handle, alloc,
597                                           main_bm_inode, main_bm_bh);
598         if (status < 0)
599                 mlog_errno(status);
600
601         ocfs2_commit_trans(osb, handle);
602
603 out_unlock:
604         ocfs2_inode_unlock(main_bm_inode, 1);
605
606 out_mutex:
607         mutex_unlock(&main_bm_inode->i_mutex);
608
609         brelse(main_bm_bh);
610
611         iput(main_bm_inode);
612
613 out:
614         if (!status)
615                 ocfs2_init_steal_slots(osb);
616         mlog_exit(status);
617         return status;
618 }
619
620 /*
621  * make sure we've got at least bits_wanted contiguous bits in the
622  * local alloc. You lose them when you drop i_mutex.
623  *
624  * We will add ourselves to the transaction passed in, but may start
625  * our own in order to shift windows.
626  */
627 int ocfs2_reserve_local_alloc_bits(struct ocfs2_super *osb,
628                                    u32 bits_wanted,
629                                    struct ocfs2_alloc_context *ac)
630 {
631         int status;
632         struct ocfs2_dinode *alloc;
633         struct inode *local_alloc_inode;
634         unsigned int free_bits;
635
636         mlog_entry_void();
637
638         BUG_ON(!ac);
639
640         local_alloc_inode =
641                 ocfs2_get_system_file_inode(osb,
642                                             LOCAL_ALLOC_SYSTEM_INODE,
643                                             osb->slot_num);
644         if (!local_alloc_inode) {
645                 status = -ENOENT;
646                 mlog_errno(status);
647                 goto bail;
648         }
649
650         mutex_lock(&local_alloc_inode->i_mutex);
651
652         /*
653          * We must double check state and allocator bits because
654          * another process may have changed them while holding i_mutex.
655          */
656         spin_lock(&osb->osb_lock);
657         if (!ocfs2_la_state_enabled(osb) ||
658             (bits_wanted > osb->local_alloc_bits)) {
659                 spin_unlock(&osb->osb_lock);
660                 status = -ENOSPC;
661                 goto bail;
662         }
663         spin_unlock(&osb->osb_lock);
664
665         alloc = (struct ocfs2_dinode *) osb->local_alloc_bh->b_data;
666
667 #ifdef CONFIG_OCFS2_DEBUG_FS
668         if (le32_to_cpu(alloc->id1.bitmap1.i_used) !=
669             ocfs2_local_alloc_count_bits(alloc)) {
670                 ocfs2_error(osb->sb, "local alloc inode %llu says it has "
671                             "%u free bits, but a count shows %u",
672                             (unsigned long long)le64_to_cpu(alloc->i_blkno),
673                             le32_to_cpu(alloc->id1.bitmap1.i_used),
674                             ocfs2_local_alloc_count_bits(alloc));
675                 status = -EIO;
676                 goto bail;
677         }
678 #endif
679
680         free_bits = le32_to_cpu(alloc->id1.bitmap1.i_total) -
681                 le32_to_cpu(alloc->id1.bitmap1.i_used);
682         if (bits_wanted > free_bits) {
683                 /* uhoh, window change time. */
684                 status =
685                         ocfs2_local_alloc_slide_window(osb, local_alloc_inode);
686                 if (status < 0) {
687                         if (status != -ENOSPC)
688                                 mlog_errno(status);
689                         goto bail;
690                 }
691
692                 /*
693                  * Under certain conditions, the window slide code
694                  * might have reduced the number of bits available or
695                  * disabled the the local alloc entirely. Re-check
696                  * here and return -ENOSPC if necessary.
697                  */
698                 status = -ENOSPC;
699                 if (!ocfs2_la_state_enabled(osb))
700                         goto bail;
701
702                 free_bits = le32_to_cpu(alloc->id1.bitmap1.i_total) -
703                         le32_to_cpu(alloc->id1.bitmap1.i_used);
704                 if (bits_wanted > free_bits)
705                         goto bail;
706         }
707
708         if (ac->ac_max_block)
709                 mlog(0, "Calling in_range for max block %llu\n",
710                      (unsigned long long)ac->ac_max_block);
711
712         ac->ac_inode = local_alloc_inode;
713         /* We should never use localalloc from another slot */
714         ac->ac_alloc_slot = osb->slot_num;
715         ac->ac_which = OCFS2_AC_USE_LOCAL;
716         get_bh(osb->local_alloc_bh);
717         ac->ac_bh = osb->local_alloc_bh;
718         status = 0;
719 bail:
720         if (status < 0 && local_alloc_inode) {
721                 mutex_unlock(&local_alloc_inode->i_mutex);
722                 iput(local_alloc_inode);
723         }
724
725         mlog(0, "bits=%d, slot=%d, ret=%d\n", bits_wanted, osb->slot_num,
726              status);
727
728         mlog_exit(status);
729         return status;
730 }
731
732 int ocfs2_claim_local_alloc_bits(struct ocfs2_super *osb,
733                                  handle_t *handle,
734                                  struct ocfs2_alloc_context *ac,
735                                  u32 bits_wanted,
736                                  u32 *bit_off,
737                                  u32 *num_bits)
738 {
739         int status, start;
740         struct inode *local_alloc_inode;
741         void *bitmap;
742         struct ocfs2_dinode *alloc;
743         struct ocfs2_local_alloc *la;
744
745         mlog_entry_void();
746         BUG_ON(ac->ac_which != OCFS2_AC_USE_LOCAL);
747
748         local_alloc_inode = ac->ac_inode;
749         alloc = (struct ocfs2_dinode *) osb->local_alloc_bh->b_data;
750         la = OCFS2_LOCAL_ALLOC(alloc);
751
752         start = ocfs2_local_alloc_find_clear_bits(osb, alloc, &bits_wanted,
753                                                   ac->ac_resv);
754         if (start == -1) {
755                 /* TODO: Shouldn't we just BUG here? */
756                 status = -ENOSPC;
757                 mlog_errno(status);
758                 goto bail;
759         }
760
761         bitmap = la->la_bitmap;
762         *bit_off = le32_to_cpu(la->la_bm_off) + start;
763         *num_bits = bits_wanted;
764
765         status = ocfs2_journal_access_di(handle,
766                                          INODE_CACHE(local_alloc_inode),
767                                          osb->local_alloc_bh,
768                                          OCFS2_JOURNAL_ACCESS_WRITE);
769         if (status < 0) {
770                 mlog_errno(status);
771                 goto bail;
772         }
773
774         ocfs2_resmap_claimed_bits(&osb->osb_la_resmap, ac->ac_resv, start,
775                                   bits_wanted);
776
777         while(bits_wanted--)
778                 ocfs2_set_bit(start++, bitmap);
779
780         le32_add_cpu(&alloc->id1.bitmap1.i_used, *num_bits);
781         ocfs2_journal_dirty(handle, osb->local_alloc_bh);
782
783 bail:
784         mlog_exit(status);
785         return status;
786 }
787
788 static u32 ocfs2_local_alloc_count_bits(struct ocfs2_dinode *alloc)
789 {
790         int i;
791         u8 *buffer;
792         u32 count = 0;
793         struct ocfs2_local_alloc *la = OCFS2_LOCAL_ALLOC(alloc);
794
795         mlog_entry_void();
796
797         buffer = la->la_bitmap;
798         for (i = 0; i < le16_to_cpu(la->la_size); i++)
799                 count += hweight8(buffer[i]);
800
801         mlog_exit(count);
802         return count;
803 }
804
805 static int ocfs2_local_alloc_find_clear_bits(struct ocfs2_super *osb,
806                                      struct ocfs2_dinode *alloc,
807                                      u32 *numbits,
808                                      struct ocfs2_alloc_reservation *resv)
809 {
810         int numfound, bitoff, left, startoff, lastzero;
811         int local_resv = 0;
812         struct ocfs2_alloc_reservation r;
813         void *bitmap = NULL;
814         struct ocfs2_reservation_map *resmap = &osb->osb_la_resmap;
815
816         mlog_entry("(numbits wanted = %u)\n", *numbits);
817
818         if (!alloc->id1.bitmap1.i_total) {
819                 mlog(0, "No bits in my window!\n");
820                 bitoff = -1;
821                 goto bail;
822         }
823
824         if (!resv) {
825                 local_resv = 1;
826                 ocfs2_resv_init_once(&r);
827                 ocfs2_resv_set_type(&r, OCFS2_RESV_FLAG_TMP);
828                 resv = &r;
829         }
830
831         numfound = *numbits;
832         if (ocfs2_resmap_resv_bits(resmap, resv, &bitoff, &numfound) == 0) {
833                 if (numfound < *numbits)
834                         *numbits = numfound;
835                 goto bail;
836         }
837
838         /*
839          * Code error. While reservations are enabled, local
840          * allocation should _always_ go through them.
841          */
842         BUG_ON(osb->osb_resv_level != 0);
843
844         /*
845          * Reservations are disabled. Handle this the old way.
846          */
847
848         bitmap = OCFS2_LOCAL_ALLOC(alloc)->la_bitmap;
849
850         numfound = bitoff = startoff = 0;
851         lastzero = -1;
852         left = le32_to_cpu(alloc->id1.bitmap1.i_total);
853         while ((bitoff = ocfs2_find_next_zero_bit(bitmap, left, startoff)) != -1) {
854                 if (bitoff == left) {
855                         /* mlog(0, "bitoff (%d) == left", bitoff); */
856                         break;
857                 }
858                 /* mlog(0, "Found a zero: bitoff = %d, startoff = %d, "
859                    "numfound = %d\n", bitoff, startoff, numfound);*/
860
861                 /* Ok, we found a zero bit... is it contig. or do we
862                  * start over?*/
863                 if (bitoff == startoff) {
864                         /* we found a zero */
865                         numfound++;
866                         startoff++;
867                 } else {
868                         /* got a zero after some ones */
869                         numfound = 1;
870                         startoff = bitoff+1;
871                 }
872                 /* we got everything we needed */
873                 if (numfound == *numbits) {
874                         /* mlog(0, "Found it all!\n"); */
875                         break;
876                 }
877         }
878
879         mlog(0, "Exiting loop, bitoff = %d, numfound = %d\n", bitoff,
880              numfound);
881
882         if (numfound == *numbits)
883                 bitoff = startoff - numfound;
884         else
885                 bitoff = -1;
886
887 bail:
888         if (local_resv)
889                 ocfs2_resv_discard(resmap, resv);
890
891         mlog_exit(bitoff);
892         return bitoff;
893 }
894
895 static void ocfs2_clear_local_alloc(struct ocfs2_dinode *alloc)
896 {
897         struct ocfs2_local_alloc *la = OCFS2_LOCAL_ALLOC(alloc);
898         int i;
899         mlog_entry_void();
900
901         alloc->id1.bitmap1.i_total = 0;
902         alloc->id1.bitmap1.i_used = 0;
903         la->la_bm_off = 0;
904         for(i = 0; i < le16_to_cpu(la->la_size); i++)
905                 la->la_bitmap[i] = 0;
906
907         mlog_exit_void();
908 }
909
910 #if 0
911 /* turn this on and uncomment below to aid debugging window shifts. */
912 static void ocfs2_verify_zero_bits(unsigned long *bitmap,
913                                    unsigned int start,
914                                    unsigned int count)
915 {
916         unsigned int tmp = count;
917         while(tmp--) {
918                 if (ocfs2_test_bit(start + tmp, bitmap)) {
919                         printk("ocfs2_verify_zero_bits: start = %u, count = "
920                                "%u\n", start, count);
921                         printk("ocfs2_verify_zero_bits: bit %u is set!",
922                                start + tmp);
923                         BUG();
924                 }
925         }
926 }
927 #endif
928
929 /*
930  * sync the local alloc to main bitmap.
931  *
932  * assumes you've already locked the main bitmap -- the bitmap inode
933  * passed is used for caching.
934  */
935 static int ocfs2_sync_local_to_main(struct ocfs2_super *osb,
936                                     handle_t *handle,
937                                     struct ocfs2_dinode *alloc,
938                                     struct inode *main_bm_inode,
939                                     struct buffer_head *main_bm_bh)
940 {
941         int status = 0;
942         int bit_off, left, count, start;
943         u64 la_start_blk;
944         u64 blkno;
945         void *bitmap;
946         struct ocfs2_local_alloc *la = OCFS2_LOCAL_ALLOC(alloc);
947
948         mlog_entry("total = %u, used = %u\n",
949                    le32_to_cpu(alloc->id1.bitmap1.i_total),
950                    le32_to_cpu(alloc->id1.bitmap1.i_used));
951
952         if (!alloc->id1.bitmap1.i_total) {
953                 mlog(0, "nothing to sync!\n");
954                 goto bail;
955         }
956
957         if (le32_to_cpu(alloc->id1.bitmap1.i_used) ==
958             le32_to_cpu(alloc->id1.bitmap1.i_total)) {
959                 mlog(0, "all bits were taken!\n");
960                 goto bail;
961         }
962
963         la_start_blk = ocfs2_clusters_to_blocks(osb->sb,
964                                                 le32_to_cpu(la->la_bm_off));
965         bitmap = la->la_bitmap;
966         start = count = bit_off = 0;
967         left = le32_to_cpu(alloc->id1.bitmap1.i_total);
968
969         while ((bit_off = ocfs2_find_next_zero_bit(bitmap, left, start))
970                != -1) {
971                 if ((bit_off < left) && (bit_off == start)) {
972                         count++;
973                         start++;
974                         continue;
975                 }
976                 if (count) {
977                         blkno = la_start_blk +
978                                 ocfs2_clusters_to_blocks(osb->sb,
979                                                          start - count);
980
981                         mlog(0, "freeing %u bits starting at local alloc bit "
982                              "%u (la_start_blk = %llu, blkno = %llu)\n",
983                              count, start - count,
984                              (unsigned long long)la_start_blk,
985                              (unsigned long long)blkno);
986
987                         status = ocfs2_release_clusters(handle,
988                                                         main_bm_inode,
989                                                         main_bm_bh, blkno,
990                                                         count);
991                         if (status < 0) {
992                                 mlog_errno(status);
993                                 goto bail;
994                         }
995                 }
996                 if (bit_off >= left)
997                         break;
998                 count = 1;
999                 start = bit_off + 1;
1000         }
1001
1002 bail:
1003         mlog_exit(status);
1004         return status;
1005 }
1006
1007 enum ocfs2_la_event {
1008         OCFS2_LA_EVENT_SLIDE,           /* Normal window slide. */
1009         OCFS2_LA_EVENT_FRAGMENTED,      /* The global bitmap has
1010                                          * enough bits theoretically
1011                                          * free, but a contiguous
1012                                          * allocation could not be
1013                                          * found. */
1014         OCFS2_LA_EVENT_ENOSPC,          /* Global bitmap doesn't have
1015                                          * enough bits free to satisfy
1016                                          * our request. */
1017 };
1018 #define OCFS2_LA_ENABLE_INTERVAL (30 * HZ)
1019 /*
1020  * Given an event, calculate the size of our next local alloc window.
1021  *
1022  * This should always be called under i_mutex of the local alloc inode
1023  * so that local alloc disabling doesn't race with processes trying to
1024  * use the allocator.
1025  *
1026  * Returns the state which the local alloc was left in. This value can
1027  * be ignored by some paths.
1028  */
1029 static int ocfs2_recalc_la_window(struct ocfs2_super *osb,
1030                                   enum ocfs2_la_event event)
1031 {
1032         unsigned int bits;
1033         int state;
1034
1035         spin_lock(&osb->osb_lock);
1036         if (osb->local_alloc_state == OCFS2_LA_DISABLED) {
1037                 WARN_ON_ONCE(osb->local_alloc_state == OCFS2_LA_DISABLED);
1038                 goto out_unlock;
1039         }
1040
1041         /*
1042          * ENOSPC and fragmentation are treated similarly for now.
1043          */
1044         if (event == OCFS2_LA_EVENT_ENOSPC ||
1045             event == OCFS2_LA_EVENT_FRAGMENTED) {
1046                 /*
1047                  * We ran out of contiguous space in the primary
1048                  * bitmap. Drastically reduce the number of bits used
1049                  * by local alloc until we have to disable it.
1050                  */
1051                 bits = osb->local_alloc_bits >> 1;
1052                 if (bits > ocfs2_megabytes_to_clusters(osb->sb, 1)) {
1053                         /*
1054                          * By setting state to THROTTLED, we'll keep
1055                          * the number of local alloc bits used down
1056                          * until an event occurs which would give us
1057                          * reason to assume the bitmap situation might
1058                          * have changed.
1059                          */
1060                         osb->local_alloc_state = OCFS2_LA_THROTTLED;
1061                         osb->local_alloc_bits = bits;
1062                 } else {
1063                         osb->local_alloc_state = OCFS2_LA_DISABLED;
1064                 }
1065                 queue_delayed_work(ocfs2_wq, &osb->la_enable_wq,
1066                                    OCFS2_LA_ENABLE_INTERVAL);
1067                 goto out_unlock;
1068         }
1069
1070         /*
1071          * Don't increase the size of the local alloc window until we
1072          * know we might be able to fulfill the request. Otherwise, we
1073          * risk bouncing around the global bitmap during periods of
1074          * low space.
1075          */
1076         if (osb->local_alloc_state != OCFS2_LA_THROTTLED)
1077                 osb->local_alloc_bits = osb->local_alloc_default_bits;
1078
1079 out_unlock:
1080         state = osb->local_alloc_state;
1081         spin_unlock(&osb->osb_lock);
1082
1083         return state;
1084 }
1085
1086 static int ocfs2_local_alloc_reserve_for_window(struct ocfs2_super *osb,
1087                                                 struct ocfs2_alloc_context **ac,
1088                                                 struct inode **bitmap_inode,
1089                                                 struct buffer_head **bitmap_bh)
1090 {
1091         int status;
1092
1093         *ac = kzalloc(sizeof(struct ocfs2_alloc_context), GFP_KERNEL);
1094         if (!(*ac)) {
1095                 status = -ENOMEM;
1096                 mlog_errno(status);
1097                 goto bail;
1098         }
1099
1100 retry_enospc:
1101         (*ac)->ac_bits_wanted = osb->local_alloc_default_bits;
1102         status = ocfs2_reserve_cluster_bitmap_bits(osb, *ac);
1103         if (status == -ENOSPC) {
1104                 if (ocfs2_recalc_la_window(osb, OCFS2_LA_EVENT_ENOSPC) ==
1105                     OCFS2_LA_DISABLED)
1106                         goto bail;
1107
1108                 ocfs2_free_ac_resource(*ac);
1109                 memset(*ac, 0, sizeof(struct ocfs2_alloc_context));
1110                 goto retry_enospc;
1111         }
1112         if (status < 0) {
1113                 mlog_errno(status);
1114                 goto bail;
1115         }
1116
1117         *bitmap_inode = (*ac)->ac_inode;
1118         igrab(*bitmap_inode);
1119         *bitmap_bh = (*ac)->ac_bh;
1120         get_bh(*bitmap_bh);
1121         status = 0;
1122 bail:
1123         if ((status < 0) && *ac) {
1124                 ocfs2_free_alloc_context(*ac);
1125                 *ac = NULL;
1126         }
1127
1128         mlog_exit(status);
1129         return status;
1130 }
1131
1132 /*
1133  * pass it the bitmap lock in lock_bh if you have it.
1134  */
1135 static int ocfs2_local_alloc_new_window(struct ocfs2_super *osb,
1136                                         handle_t *handle,
1137                                         struct ocfs2_alloc_context *ac)
1138 {
1139         int status = 0;
1140         u32 cluster_off, cluster_count;
1141         struct ocfs2_dinode *alloc = NULL;
1142         struct ocfs2_local_alloc *la;
1143
1144         mlog_entry_void();
1145
1146         alloc = (struct ocfs2_dinode *) osb->local_alloc_bh->b_data;
1147         la = OCFS2_LOCAL_ALLOC(alloc);
1148
1149         if (alloc->id1.bitmap1.i_total)
1150                 mlog(0, "asking me to alloc a new window over a non-empty "
1151                      "one\n");
1152
1153         mlog(0, "Allocating %u clusters for a new window.\n",
1154              osb->local_alloc_bits);
1155
1156         /* Instruct the allocation code to try the most recently used
1157          * cluster group. We'll re-record the group used this pass
1158          * below. */
1159         ac->ac_last_group = osb->la_last_gd;
1160
1161         /* we used the generic suballoc reserve function, but we set
1162          * everything up nicely, so there's no reason why we can't use
1163          * the more specific cluster api to claim bits. */
1164         status = ocfs2_claim_clusters(handle, ac, osb->local_alloc_bits,
1165                                       &cluster_off, &cluster_count);
1166         if (status == -ENOSPC) {
1167 retry_enospc:
1168                 /*
1169                  * Note: We could also try syncing the journal here to
1170                  * allow use of any free bits which the current
1171                  * transaction can't give us access to. --Mark
1172                  */
1173                 if (ocfs2_recalc_la_window(osb, OCFS2_LA_EVENT_FRAGMENTED) ==
1174                     OCFS2_LA_DISABLED)
1175                         goto bail;
1176
1177                 ac->ac_bits_wanted = osb->local_alloc_default_bits;
1178                 status = ocfs2_claim_clusters(handle, ac,
1179                                               osb->local_alloc_bits,
1180                                               &cluster_off,
1181                                               &cluster_count);
1182                 if (status == -ENOSPC)
1183                         goto retry_enospc;
1184                 /*
1185                  * We only shrunk the *minimum* number of in our
1186                  * request - it's entirely possible that the allocator
1187                  * might give us more than we asked for.
1188                  */
1189                 if (status == 0) {
1190                         spin_lock(&osb->osb_lock);
1191                         osb->local_alloc_bits = cluster_count;
1192                         spin_unlock(&osb->osb_lock);
1193                 }
1194         }
1195         if (status < 0) {
1196                 if (status != -ENOSPC)
1197                         mlog_errno(status);
1198                 goto bail;
1199         }
1200
1201         osb->la_last_gd = ac->ac_last_group;
1202
1203         la->la_bm_off = cpu_to_le32(cluster_off);
1204         alloc->id1.bitmap1.i_total = cpu_to_le32(cluster_count);
1205         /* just in case... In the future when we find space ourselves,
1206          * we don't have to get all contiguous -- but we'll have to
1207          * set all previously used bits in bitmap and update
1208          * la_bits_set before setting the bits in the main bitmap. */
1209         alloc->id1.bitmap1.i_used = 0;
1210         memset(OCFS2_LOCAL_ALLOC(alloc)->la_bitmap, 0,
1211                le16_to_cpu(la->la_size));
1212
1213         ocfs2_resmap_restart(&osb->osb_la_resmap, cluster_count,
1214                              OCFS2_LOCAL_ALLOC(alloc)->la_bitmap);
1215
1216         mlog(0, "New window allocated:\n");
1217         mlog(0, "window la_bm_off = %u\n",
1218              OCFS2_LOCAL_ALLOC(alloc)->la_bm_off);
1219         mlog(0, "window bits = %u\n", le32_to_cpu(alloc->id1.bitmap1.i_total));
1220
1221 bail:
1222         mlog_exit(status);
1223         return status;
1224 }
1225
1226 /* Note that we do *NOT* lock the local alloc inode here as
1227  * it's been locked already for us. */
1228 static int ocfs2_local_alloc_slide_window(struct ocfs2_super *osb,
1229                                           struct inode *local_alloc_inode)
1230 {
1231         int status = 0;
1232         struct buffer_head *main_bm_bh = NULL;
1233         struct inode *main_bm_inode = NULL;
1234         handle_t *handle = NULL;
1235         struct ocfs2_dinode *alloc;
1236         struct ocfs2_dinode *alloc_copy = NULL;
1237         struct ocfs2_alloc_context *ac = NULL;
1238
1239         mlog_entry_void();
1240
1241         ocfs2_recalc_la_window(osb, OCFS2_LA_EVENT_SLIDE);
1242
1243         /* This will lock the main bitmap for us. */
1244         status = ocfs2_local_alloc_reserve_for_window(osb,
1245                                                       &ac,
1246                                                       &main_bm_inode,
1247                                                       &main_bm_bh);
1248         if (status < 0) {
1249                 if (status != -ENOSPC)
1250                         mlog_errno(status);
1251                 goto bail;
1252         }
1253
1254         handle = ocfs2_start_trans(osb, OCFS2_WINDOW_MOVE_CREDITS);
1255         if (IS_ERR(handle)) {
1256                 status = PTR_ERR(handle);
1257                 handle = NULL;
1258                 mlog_errno(status);
1259                 goto bail;
1260         }
1261
1262         alloc = (struct ocfs2_dinode *) osb->local_alloc_bh->b_data;
1263
1264         /* We want to clear the local alloc before doing anything
1265          * else, so that if we error later during this operation,
1266          * local alloc shutdown won't try to double free main bitmap
1267          * bits. Make a copy so the sync function knows which bits to
1268          * free. */
1269         alloc_copy = kmalloc(osb->local_alloc_bh->b_size, GFP_NOFS);
1270         if (!alloc_copy) {
1271                 status = -ENOMEM;
1272                 mlog_errno(status);
1273                 goto bail;
1274         }
1275         memcpy(alloc_copy, alloc, osb->local_alloc_bh->b_size);
1276
1277         status = ocfs2_journal_access_di(handle,
1278                                          INODE_CACHE(local_alloc_inode),
1279                                          osb->local_alloc_bh,
1280                                          OCFS2_JOURNAL_ACCESS_WRITE);
1281         if (status < 0) {
1282                 mlog_errno(status);
1283                 goto bail;
1284         }
1285
1286         ocfs2_clear_local_alloc(alloc);
1287         ocfs2_journal_dirty(handle, osb->local_alloc_bh);
1288
1289         status = ocfs2_sync_local_to_main(osb, handle, alloc_copy,
1290                                           main_bm_inode, main_bm_bh);
1291         if (status < 0) {
1292                 mlog_errno(status);
1293                 goto bail;
1294         }
1295
1296         status = ocfs2_local_alloc_new_window(osb, handle, ac);
1297         if (status < 0) {
1298                 if (status != -ENOSPC)
1299                         mlog_errno(status);
1300                 goto bail;
1301         }
1302
1303         atomic_inc(&osb->alloc_stats.moves);
1304
1305 bail:
1306         if (handle)
1307                 ocfs2_commit_trans(osb, handle);
1308
1309         brelse(main_bm_bh);
1310
1311         if (main_bm_inode)
1312                 iput(main_bm_inode);
1313
1314         if (alloc_copy)
1315                 kfree(alloc_copy);
1316
1317         if (ac)
1318                 ocfs2_free_alloc_context(ac);
1319
1320         mlog_exit(status);
1321         return status;
1322 }
1323