14:32

среда,
11 декабря

Разработчик нанес шесть миллиардов твитов на карту

08.12.2014 / 15:32
Разработчик нанес шесть миллиардов твитов на карту
Данные для проекта собирались три с половиной года и сейчас объем информации составляет около трех терабайт

Разработчик Mapbox Эрик Фишер создал карту, на которую нанесено более 6,3 миллиарда твитов с прикрепленной геопозицией. Фишер собирал данные для такой карты три с половиной года, при этом объем информации в сжатом виде составляет около трех терабайт (каждый день прибавляется еще 4 гигабайта).

В блоге Фишер рассказывает о проблемах, с которыми он столкнулся в процессе визуализации такого объема данных. Из шести миллиардов твитов только 9 процентов попали на карту как отдельные точки — остальные ему пришлось отфильтровать как дублирующие.

Дублирование возникало, когда люди чекинились в Foursquare — все чекины из одного и того же места сервис помечал одинаковыми координатами. Кроме того, Фишер заметил, что геоданные с айфонов распределяются вдоль правильной сетки — предположительно, так Apple пытается скрыть настоящее местоположение своих пользователей. Разработчику пришлось отфильтровать повторяющиеся координаты, чтобы карта не выглядела сетчатой.

Если увеличить карту в Лондоне, можно увидеть, что вдоль линии нулевого меридиана нет ни одного твита — Фишер пишет, что это Twitter по какой-то причине не передает информацию о записях, сделанных в этом районе.

Комментарии (0)
Для того, чтобы оставить комментарий, Вы должны авторизоваться.
11 декабря
10 декабря