WedX - журнал о программировании и компьютерных науках

Производительность времени Pytables

Я работаю над проектом, связанным с обнаружением текста в естественных изображениях. Мне нужно обучить классификатор, и для этого я использую Pytables для хранения информации. У меня есть:

  • 62 класса (a-z,A-Z,0-9)

  • В каждом классе от 100 до 600 столов.

  • Каждая таблица имеет 1 столбец для хранения 32-битного числа с плавающей запятой.

  • Каждый столбец имеет от 2^2 до 2^8 строк (в зависимости от параметров).

    Моя проблема в том, что после того, как я тренирую классификатор, требуется много времени, чтобы прочитать информацию в тесте. Например: в одной базе данных 27900 таблиц (62 класса * 450 таблиц на класс), и в каждой таблице 4 строки, для чтения и извлечения всей необходимой мне информации потребовалось около 4 часов. Тестовая программа прочитала каждую таблицу 390 раз (для классов A-Z, a-z) и 150 раз для классов 0-9, чтобы получить всю необходимую мне информацию. Это нормально? Я попытался использовать параметр индекса для уникального столбца, но не вижу никакой производительности. Я работаю на виртуальной машине с 2 ГБ оперативной памяти на HP Pavillion Dv6 (4 ГБ оперативной памяти DDR3, Core2 Duo).

21.07.2013

Ответы:


1

Вероятно, это связано с тем, что поиск столбцов в таблицах является одной из самых медленных операций, которые вы можете выполнять, и именно здесь находится ВСЯ ваша информация. У вас есть два основных варианта повышения производительности для таблиц с большим количеством столбцов и небольшим количеством строк:

  1. Поверните эту структуру так, чтобы у вас была таблица с большим количеством строк и несколькими столбцами.

  2. Перейдите к более эффективной структуре данных, такой как CArray или EArray, для каждой строки/столбца.

Кроме того, вы можете попробовать использовать сжатие, чтобы ускорить процесс. Это своего рода общий совет, потому что вы не включили никакого кода.

21.07.2013
Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..


Для любых предложений по сайту: [email protected]