WedX - журнал о программировании и компьютерных науках

Сохранение элементов из Scrapyd в Amazon S3 с помощью Feed Exporter

Использовать Scrapy с Amazon S3 довольно просто, вы устанавливаете:

  • FEED_URI = 's3: // MYBUCKET / feeds /% (имя) s /% (время) s.jl'
  • FEED_FORMAT = 'jsonlines'
  • AWS_ACCESS_KEY_ID = [ключ доступа]
  • AWS_SECRET_ACCESS_KEY = [секретный ключ]

и все работает нормально.

Но Scrapyd, похоже, отменяет этот параметр и сохраняет элементы на сервере (со ссылкой на веб-сайте).

Добавление параметра "items_dir =", похоже, ничего не меняет.

Какие настройки заставляют его работать?

РЕДАКТИРОВАТЬ: Дополнительная информация, которая может быть актуальной - мы используем Scrapy-Heroku.

11.04.2013

  • вы что-нибудь видите в журналах scrapyd? Сохраняются ли элементы на S3, если вы запускаете поисковый робот напрямую через scrapy crawl? Как вы сказали scrapyd, где находится ваш settings файл проекта? 13.04.2013
  • Насколько я могу судить, в журналах ничего нет. Он сохраняет в S3, когда я делаю scrapy crawl (это говорит мне, что конфигурация S3 в порядке), и я просто помещаю настройки в местоположение по умолчанию (я знаю, что он хорошо его читает, потому что у меня есть настройка application, которая отлично работает) 14.04.2013

Ответы:


1

Я тоже столкнулся с той же проблемой. Удаление items_dir = из файла scrapyd.conf сработало для меня.

16.05.2018

2

Вы можете установить для свойства items_dir пустое значение, например:

[scrapyd]
items_dir=

Кажется, что когда это свойство установлено, имеет приоритет над настроенным экспортируемым. См. https://scrapyd.readthedocs.org/en/latest/config.html для получения дополнительной информации.

20.09.2013
Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]