Что такое большие данные?

  • Арена больших данных предоставляет средства и методы для анализа, логического извлечения информации и работы с большими и сложными наборами данных с помощью программного обеспечения традиционного приложения для обработки данных.
  • Аналитика больших данных имеет тенденцию организовывать, извлекать и анализировать факты из больших объемов данных, которые слишком велики, чтобы люди могли проверять их вручную с помощью ручки и бумаги.
  • Американский ученый-компьютерщик и предприниматель Джон Р. Маши популяризировал термин «большие данные» в 1990 году.

Ключевое понятие

  • Большие данные изначально были связаны с тремя ключевыми понятиями: объем, разнообразие и скорость.
  • Следующие 10 пунктов в настоящее время чаще всего ассоциируются с большими данными.
  1. Скорость: скорость, с которой данные создаются и передаются в пункт назначения.
  2. Объем: количество собранных и сохраненных данных.
  3. Разнообразие: структурированные и неструктурированные данные в разных формах.
  4. Вариабельность: динамическое развивающееся поведение в источнике данных.
  5. Ценность: коммерческая ценность, полученная с использованием данных.
  6. Достоверность: качество или достоверность данных.
  7. Достоверность: точность или правильность данных, используемых для извлечения результата в виде информации.
  8. Виральность: скорость, с которой данные распространяются одним пользователем и получаются разными пользователями.
  9. Волатильность: продолжительность полезности данных.
  10. Визуализация: представление данных для принятия решения.
  • Американский инженер-программист, бизнесмен и генеральный директор Google (2001–2011 гг.) объясняет объем данных в эпоху центров обработки данных следующим образом: «С начала модернизации до 2003 года было создано 5 экзабайт информации. данные и цифровые технологии — каждые 2 дня создается 5 экзабайт информации. “

Аналитика больших данных Общее описание

  • Аналитика больших данных состоит из сбора данных, хранения данных, анализа данных, поиска, визуализации, запроса и обновления данных, а также использования программного обеспечения ИИ для автоматического анализа.
  • Анализ больших наборов данных используется для поиска корреляций, исторических тенденций, обнаружения необычных аномалий данных и использования этой информации для принятия корректирующих мер.
  • Большие данные теперь собираются с использованием технологий Индустрии 4.0, включая датчики IoT, смартфоны, беспилотные летательные аппараты (дистанционное зондирование), камеры, датчики радиочастотной идентификации (RFID) и беспроводные сенсорные сети.

Основное отличие от Industry 3.0 Viz-A-Vis Сбор данных в реальном времени

  • В Индустрии 3.0 данные собирались по кабелям. Данные полностью изменились, включая следующее в Индустрии 4.0.
  • Сбор данных кабельными датчиками, а также датчиками Wi-Fi
  • Данные могут передаваться в режиме реального времени в любой центр обработки данных в мире со скоростью света.
  • Эти данные могут быть проверены с помощью алгоритмов аналитики больших данных в центре обработки данных.
  • Программное обеспечение AI в режиме реального времени проводит самокоррекцию или предлагает инженерам 2–3 варианта решения проблемы.

Приложения

  • Большие данные быстро разрослись, чтобы удовлетворить спрос специалистов по управлению данными, настолько, что Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP и Dell потратили около 15 миллиардов долларов на фирмы-разработчики программного обеспечения, специализирующиеся на управлении данными и аналитике. .
  • Эта отрасль росла примерно на 10 процентов в год: примерно в два раза быстрее, чем бизнес программного обеспечения. Развитые экономики все чаще используют технологии, требующие больших объемов данных. Подписка на мобильные телефоны во всем мире составляет 4,6 миллиарда человек, и от 1 миллиарда до нескольких миллиардов человек пользуются Интернетом.
  • В период с 1990 по 2005 год один миллиард человек во всем мире вошел в средний класс, что говорит о том, что все больше людей стали более грамотными, что последовательно привело к росту информации. Способность обмениваться информацией через телекоммуникационные сети составляла 281 петабайт в 1986 году, 471 петабайт в 1993 году, 2,2 экзабайта в 2000 г., 65 экзабайт в 2007 г. и прогнозы удерживают рост интернет-трафика на уровне 667 экзабайт в год к 2014 г. во всем мире.
  • Информация, которую хранит одна треть во всем мире, находится в виде буквенно-цифрового текста и данных неподвижных изображений, соответствующих одной оценке, которая заключается в том, что формат наиболее удобен для многих приложений больших данных. Это описывает потенциал еще неиспользованных данных (т.е. в виде видео- и аудиоконтента).
  • Хотя многие поставщики предлагают готовые решения для гигантских данных, эксперты рекомендуют использовать собственные решения, специально разработанные для решения корпоративной проблемы, если у компании есть достаточные технические возможности.

Как началось хранение данных?

  • Хранение данных началось с виниловых пластинок, на которых хранились песни в 1880 году. Виниловая пластинка могла хранить 200 МБ данных, но не могла перезаписывать данные и предназначалась только для одноразового использования.
  • Первое хранилище данных на магнитной ленте появилось в 1947 году. Данные можно было перезаписывать несколько раз на одну и ту же магнитную ленту, поскольку лента могла хранить 60 МБ данных.
  • Первый жесткий диск появился в 1957 году под названием IBM 305 RAMAC. Он может хранить и хранить данные объемом 4 МБ и весит 900 кг. Жесткий диск может записывать и перезаписывать данные в режиме реального времени.
  • Первый твердотельный накопитель появился в 1991 году и имел емкость для хранения данных 20 МБ. Этот привод не имел движущихся частей и имел только электронные схемы для бесконечной записи и перезаписи данных.
  • Самая большая доступная на сегодняшний день емкость жесткого диска составляет 16 000 ГБ, а самая большая доступная емкость твердотельного диска — 8 000 ГБ. Их размер составляет 3,5 дюйма * 2 дюйма, а вес всего 500 грамм (половина кг).
  • Емкость 20 МБ в 1991 году против 16 000 ГБ в 2020 году — это всего 0,12 % емкости хранилища данных.
  • Благодаря таким огромным объемам хранения данных сегодня доступны высокоскоростной интернет, видео на YouTube, Индустрия 4.0, технологии искусственного интеллекта и машинного обучения.

Центры обработки данных Google

У Google есть такие центры обработки данных 15 по всему миру со следующими функциями;

  • Каждый дата-центр потребляет 200 МВт электроэнергии.
  • Каждый дата-центр занимает 500 акров крытых зданий.
  • Самая большая установка кондиционирования воздуха для охлаждения, так как серверы производят много тепла
  • Установка чиллеров для кондиционирования воздуха, градирен, теплообменников, водяных насосов, установок обратного осмоса — все это оборудование подключено к собственным системам машинного обучения Google для оптимизации использования всех этих коммунальных услуг.
  • Системы бесперебойного питания мощностью 20–50 МВт для резервного электроснабжения.

Facebook и технология больших данных​

  • Facebook уже использовал самые передовые технологии, такие как машинное обучение, искусственный интеллект, передовые программные алгоритмы и технологии Industry 4.0.
  • Facebook имеет 12 дата-центров по всему миру, которые не уступают дата-центрам Google.
  • Программное обеспечение для машинного обучения Facebook работает со скоростью света (терабит в секунду) и изучает предысторию каждого пользователя в мире, включая его возраст, профессию, лайки, которые он делает на Facebook, город проживания, типы друзей, которые у него есть. , типы страниц, на которые он подписан.
  • Facebook даже «знает», из какого города каждый пользователь использует Facebook, а с помощью аналитики больших данных знает, какой человек остается в каком районе и какой человек путешествует в другие страны.
  • В течение 3 месяцев программное обеспечение искусственного интеллекта Facebook изучило основные привычки каждого человека, включая симпатии и антипатии, типы и фон друзей, страницы, на которые подписан каждый человек, чаты и темы чатов каждого человека.
  • Основываясь на этих массивных данных, программное обеспечение для аналитики больших данных и машинного обучения Facebook дает индивидуальные индивидуальные предложения, разработанные для каждого человека отдельно, включая типы друзей, новые страницы и продукты.
  • Такую технологию невозможно развернуть, используя ручные листы бумаги, телефонные линии, What's App, SMS, листы Excel.

Для получения более подробной информации посетите: https://www.technologiesinindustry4.com/2020/11/key-concepts-of-big-data.html