Apache Hadoop

from Stas Fomin on Vimeo.

Презентация

Владимир Климонтович поделится своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.

    1. История вопроса.
      • Почему проблема обработки большего объема данных становится все
        более актуальный (пример роста количества данных в разных областях).
      • Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
      • Краткое описание смежных областей (distributed file system, bigtable-like storage).
      • История и краткое описание платформы Apache Hadoop.

    1. Примеры использования.
      • Использование платформы hadoop в трех отдельно взятых областях: в
        last.fm (построение charts), в online-advertising'e (построение
        статистики), в Yahoo (построение поискового индекса).
      • Описание традиционного подхода (SQL базы данных) и похода с
        использованием Hadoop для каждой из вышеобозначенных проблем.
        Достоинства и недостатки SQL/Hadoop подхода
      • Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.

    1. Платформы, построенные поверх Hadoop.
      • Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop.
      • Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL походом

    1. Проблемы с real-time доступом к данным при использовании Apache Hadoop.
      • Описания случаев, когда real-time нужен, а когда нет.
      • Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
      • Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.

  1. Hadoop как тренд.
    • Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
    • Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.

Комментарии

{{comment.AuthorInfo}}
{{ comment.DateCreated | date: 'dd.MM.yyyy' }}

Партнеры конференции

Заметили ошибку?