Spring пакет с несколькими источниками в нескольких подкаталогах

Я новичок в весенней партии и прохожу весеннюю партию и читаю multipartItemReader, я думаю, что multipartItemReader не подходит для моего проекта. Пожалуйста, через ваши мысли и гильдию, дав несколько очков.

У меня более 50 миллионов файлов xml, как показано ниже.

 GOOD
    0
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
    1000
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
    2000
    3000
    ... 
    .. no limit 
 REMAKE/
    0
      001/en/1.xml
      001/jp/1.xml
      002/en/2.xml
      003/en/3.xml
      004/jp/4.xml
       .... 
       ....
      999/jp/1.xml  
 PROCLAIMED/
 ...
  ...
  ....
  like 100 directories ..

каждый источник (GOOD, REMAKE, PROCLAIMED ... и т. д.) имеет различный формат файла xml. 1. Мне нужно создать обработчик элементов для каждого источника. 2. Каждый источник будет потоком или с фиксацией транзакции = 1 или диапазоном потоков в зависимости от количества языковых файлов внутри SOURCE////.xml. Какой вариант лучше. 3. Я по-прежнему считаю, что IteamReader является сложной реализацией. Здесь каждый файл xml имеет только одну запись. пожалуйста, поделитесь своими комментариями.

Спасибо

24.02.2014

Ответы:

Вероятно, наилучшей практикой для такого сценария является использование разделения; Я не пробовал, поэтому мало чем могу помочь, но я думаю, что разделение полезно, когда у вас есть данные одного типа для управления, а не в вашем случае, когда данные представляют собой смесь.

Теперь мои 2 цента...
Я выберу параллельные шаги

Каждый источник управляется как отдельный поток с использованием split/flow
Нет необходимости иметь commit-interval равным 1; вы можете использовать большое значение (или пользовательское CompletionPolicy, если вы хотите мелкозернистую фиксацию) для повышения производительности.
Используйте MultiResourceItemReader делегирование StaxEventItemReader для каждого вида источника
Специализированный процессор для каждого типа объектов, возвращаемых программой чтения.
Писатель (зависит от ваших потребностей)

<job id="job1">
  <split id="split1" task-executor="taskExecutor" next="lastStep">
    <flow>
      <step id="GOOD" />
    </flow>
    <flow>
      <step id="REMAKE" />
    </flow>
    <flow>
      <step id="PROCLAIMED" />
    </flow>
  </split>
  <step id="GOOD">
    <tasklet>
      <batch commit-interval="100">
        // Set MultiResourceItemReader and delegate to specialized StaxEventItemReader for GOOD file structure
        // Set specialized processor for GOOD object
        // Set writer (IDK which type)
      </batch>
  </step>
</job>

24.02.2014

Спасибо за ваш вклад. Очень помог. У меня есть одно сомнение относительно multiResourceItemReader. скажем, у меня есть 30 000 файлов только в GOOD/0, если у good есть GOOD/0, GOOD/1000, Good/2000, общее количество файлов будет 3*30 000. Нужно ли мне далее разбивать ХОРОШИЙ шаг на 0,1000,2000 .. если да, проблема в том, что 0,1000,2000 не являются содержимым. . подскажите пожалуйста.. 24.02.2014

Нет необходимости вручную разделять, потому что разделение автоматически выполняется SB на основе вашего интервала фиксации, конечно, более широкий интервал фиксации требует больше памяти для работы (установка сбалансированного интервала фиксации может значительно повысить производительность). 24.02.2014

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning