Down gaan Foursquare “bewust gedaan” na succes Twitter met storingen

Down gaan van Foursquare is groot nieuws

Foursquare is voor de tweede keer in korte tijd meer dan acht uur down geweest. Inmiddels heeft het bedrijf een extreem-technische verklaring gegeven voor de problemen (zie onderaan dit artikel), maar steeds meer mensen stellen dat Foursquare bewust down is gegaan om zo persaandacht te genereren. Dat lijkt te lukken, want Foursquare was gisteren één van de belangrijkste nieuwstermen op Google Nieuws.

Wij kunnen het ons niet voorstellen dat een site door down te gaan persaandacht wil genereren, maar in het verleden heeft het wel gewerkt. Twitter groeide harder dan ooit tijdens de periode waarop de site vrijwel dagelijks te maken had met allerlei storingen. Doordat sites over die storingen schreven, nam de interesse in de dienst sterk toe. Mensen wilden weten waarom er zoveel commotie was over het down gaan van een site en maakten een account aan.

Foursquare zelf wil niks weten van “bewust offline” gaan, en komt met een enorm lange, technische verklaring. Lees hem hier, of hieronder.

What happened

The vast bulk of the data we store is from user check-in histories. The way our databases are structured is that that data is spread evenly across multiple database “shards”, each of which can only store so many check-ins. Starting around 11:00am EST yesterday, we noticed that one of these shards was performing poorly because a disproportionate share of check-ins were being written to it. For the next hour and a half, until about 12:30pm, we tried various measures to ensure a proper load balance. None of these things worked. As a next step, we introduced a new shard, intending to move some of the data from the overloaded shard to this new one.

We wanted to move this data in the background while the site remained up. For reasons that are not entirely clear to us right now, though, the addition of this shard caused the entire site to go down. In addition, moving the data over to the new shard did not free up as much space as anticipated (partially because of data fragmentation, partially because our database is partitioned by user ID). We spent the next five hours trying different approaches to migrating data to this new shard and then restarting the site, but each time we encountered the same problem of overloading the initial shard, keeping the site down.

At 6:30pm EST, we determined the most effective course of action was to re-index the shard, which would address the memory fragmentation and usage issues. The whole process, including extensive testing against data loss and data corruption, took about five hours. At 11:30, the site was brought back up. Because of our safeguards and extensive backups, no data was lost.


Volg hyped.nl via:



Top vacatures



Volg hyped.nl via:

Online marketing blog

Reacties

  • Van mij mag foursquare veeeeeeel langer offline gaan… zinloosheid… bij facebook kun je tenminste filteren (bijv farmville en mafia wars)/… 4sq is de pest en zit overal (zeker in het twitter zonder filters)

    JJ, 6 oktober 2010

  • Met een beetje kennis van no-sql databases, is het verhaal niet “extreem” technisch en klinkt het volledig plausibel…

    Basvd, 6 oktober 2010

  • Laat ik ook maar eens een dag offline gaan dan smile

    dvoproductions.nl

    Danny van Oeveren, 6 oktober 2010

Reageer

Reageren is niet mogelijk op dit bericht.