Я работаю над проектом, связанным с обнаружением текста в естественных изображениях. Мне нужно обучить классификатор, и для этого я использую Pytables для хранения информации. У меня есть:
62 класса (a-z,A-Z,0-9)
В каждом классе от 100 до 600 столов.
Каждая таблица имеет 1 столбец для хранения 32-битного числа с плавающей запятой.
Каждый столбец имеет от 2^2 до 2^8 строк (в зависимости от параметров).
Моя проблема в том, что после того, как я тренирую классификатор, требуется много времени, чтобы прочитать информацию в тесте. Например: в одной базе данных 27900 таблиц (62 класса * 450 таблиц на класс), и в каждой таблице 4 строки, для чтения и извлечения всей необходимой мне информации потребовалось около 4 часов. Тестовая программа прочитала каждую таблицу 390 раз (для классов A-Z, a-z) и 150 раз для классов 0-9, чтобы получить всю необходимую мне информацию. Это нормально? Я попытался использовать параметр индекса для уникального столбца, но не вижу никакой производительности. Я работаю на виртуальной машине с 2 ГБ оперативной памяти на HP Pavillion Dv6 (4 ГБ оперативной памяти DDR3, Core2 Duo).