Хеш-таблицы - это ответ на все вопросы!

Кроме случаев, когда они не ...

Предыстория. Хеш-таблицы - это здорово, не правда ли? При правильной реализации они кажутся окончательной структурой данных выбора. Что может не понравиться с впечатляющим средним поиском, вставкой и удалением Θ (1)?

Что ж, не так уж много, если все идеально и вариант использования правильный. В худшем случае хеш-таблицы работают так же или медленнее, чем все другие структуры данных:

Компромисс. Хеш-таблицы содержат проблемы. Что-то резко замедляет наш туз пик, и теперь наша задача - понять, что именно. Короткий ответ - коллизии, более длинный ответ - вы вообще используете хеш-функцию?

Хеш-функция: Ах, хеш-функция. Короче говоря, именно эта магическая функция дает нам постоянный средний случай. При наличии некоторого ключа ввода эта функция пытается вернуть некий уникальный индекс. Реализация этой функции решает, насколько хорошей или плохой будет временная сложность нашей реализации хеш-таблицы.

Итак, что же делает хеш-функцию хорошей?

Нам нужно минимизировать коллизии и заполнить наш базовый массив как можно более равномерно.

Краткое изложение причин:

В хеш-таблицах используются сегменты. Сегменты - это индексы в массиве. Наша хеш-функция берет ключ из данных, которые мы вставляем или ищем, и генерирует этот индекс. Это позволяет нам сделать поиск постоянным, поскольку нам больше не нужно перемещаться по нашему массиву, вместо этого мы переходим к его точному индексу.

Коллизия - это когда наша хеш-функция возвращает один и тот же индекс для нескольких ключей. Это проблема, которая иногда неизбежна для очень больших наборов данных. К счастью, эту проблему можно решить несколькими способами, используя разрешение столкновений. Разрешение коллизий относится к различным методам, используемым для обработки коллизий.

Одно из популярных решений - отдельная цепочка. Идея состоит в том, чтобы сделать так, чтобы каждая корзина хеш-таблицы указывала на связанный список данных, которые имеют одинаковое значение хеш-функции. Простой. Задача решена.

НОВАЯ ПРОБЛЕМА:

Все, что мы вставили, хешируется до одного и того же значения хеш-функции. Наша хеш-функция не очень хороша:

Кто-то забыл закончить наш оператор возврата, и теперь у нас остается то, что по сути является связанным списком:

Частично отсюда и происходит наш худший линейный случай! Как и в связанном списке, поиск и удаление по значению теперь стали O (n) *.

* Обратите внимание, что в приведенной выше таблице сложности предполагается, что удаляемый узел известен и указатель на узел доступен для связанных списков, следовательно, временная сложность O (1) *

Вставка O (n) происходит по совершенно другому сценарию. Этот случай возникает, когда хеш-таблица достигает своего коэффициента загрузки. Коэффициент загрузки - это предел того, насколько заполнена наша хеш-таблица перед изменением размера. Изменение размера необходимо, чтобы избежать коллизий по мере роста нашей таблицы, но требует от нас создания новой таблицы большего размера с большим количеством сегментов и повторного хеширования нашей таблицы. Существуют передовые практики, позволяющие избежать частых повторений и при этом избежать столкновений. Вы можете узнать больше по теме по ссылке выше.

Пока что может показаться, что большинство недостатков нашей любимой хеш-таблицы могут быть возложены на нас. Причина номер 1 не использовать хеш-таблицы:

1. Вы терпите неудачу в хэш-таблицах, не зная их в худшем случае.

Мрачный. Я знаю. К счастью, этого можно избежать, если больше узнать об этом предмете.

Вторую часть этого раздела мы не контролируем. Давайте обсудим некоторые унаследованные недостатки хеш-таблицы.

Когда и почему. Даже в идеальном состоянии хеш-таблицы не всегда являются решением. Мне потребовалось много времени, чтобы понять это. Вы тоже можете поверить, что идеальную хеш-таблицу можно использовать для ускорения всего. Мы обсудим, почему это не так, но сначала давайте разберемся, когда их следует использовать:

Используйте хеш-таблицы, когда магия хеш-таблиц работает на вас. Хеш-таблицы очень полезны для хранения взаимосвязей между данными. Если вы пытаетесь сохранить значения в ключах, следует внимательно изучить хеш-таблицы. Классический пример этого - словари и картография. Временная сложность Θ (1) делает их идеальными для работы с большим количеством значений. Хеш-таблицы часто могут быть наиболее эффективным методом решения многих вопросов на собеседовании. Перейдите по этой ссылке, чтобы узнать о некоторых проблемах, которые можно решить с помощью хеш-таблиц!

Когда их не следует использовать:

Перебор ключей по порядку.
Сортировка или упорядочивание предметов.
Поиск пересечений и различий.
Нахождение наибольших / наименьших значений.
Реализация «первым пришел - первым ушел» и «первым пришел - последний ушел». Вместо этого используйте очереди и стопки.

Причина номер 2 не использовать хеш-таблицы:

2. Хеш-таблицы не помогут, если вы не знаете их ограничений.

Как и в случае с любой другой структурой данных, важно знать об ограничениях и передовых методах реализации. Эти знания помогут вам различить, когда использовать хеш-таблицу или искать в другом месте!

Следите за моими приключениями в коде здесь: https://github.com/Codeofsanju

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning