Учебники

Scrapy – Item Pipeline

Конвейер элементов – это метод обработки отбракованных элементов. Когда элемент отправляется в конвейер элементов, он обрабатывается пауком и обрабатывается с использованием нескольких компонентов, которые выполняются последовательно.

Всякий раз, когда предмет получен, он решает одно из следующих действий:

  • Продолжайте обрабатывать предмет.
  • Брось это из трубопровода.
  • Прекратить обработку элемента.

Товаропроводы обычно используются для следующих целей –

  • Хранение очищенных элементов в базе данных.
  • Если полученный предмет повторяется, он отбрасывает повторяющийся предмет.
  • Он проверит, относится ли элемент к целевым полям.
  • Очистка данных HTML.

Синтаксис

Вы можете написать Item Pipeline, используя следующий метод –

process_item(self, item, spider) 

Вышеуказанный метод содержит следующие параметры:

  • Предмет (предметный предмет или словарь) – указывает очищаемый предмет.
  • паук (объект паука) – паук, который очистил предмет.

Вы можете использовать дополнительные методы, приведенные в следующей таблице –

Sr.No Метод и описание параметры
1

open_spider ( сам, паук )

Он выбирается при открытии паука.

паук (объект паука) – относится к открытому пауку.

2

close_spider ( сам, паук )

Выбирается, когда паук закрыт.

паук (объект паука) – относится к пауку, который был закрыт.

3

from_crawler ( cls, crawler )

С помощью сканера, конвейер может получить доступ к основным компонентам, таким как сигналы и настройки Scrapy.

crawler (объект Crawler) – относится к сканеру, который использует этот конвейер.

open_spider ( сам, паук )

Он выбирается при открытии паука.

паук (объект паука) – относится к открытому пауку.

close_spider ( сам, паук )

Выбирается, когда паук закрыт.

паук (объект паука) – относится к пауку, который был закрыт.

from_crawler ( cls, crawler )

С помощью сканера, конвейер может получить доступ к основным компонентам, таким как сигналы и настройки Scrapy.

crawler (объект Crawler) – относится к сканеру, который использует этот конвейер.

пример

Ниже приведены примеры конвейера элементов, используемых в различных концепциях.

Отбрасывание предметов без тега

В следующем коде конвейер балансирует атрибут (цена) для тех товаров, которые не включают НДС (атрибут exclude_vat), и игнорирует те товары, у которых нет ценника.

from Scrapy.exceptions import DropItem  
class PricePipeline(object): 
   vat = 2.25 

   def process_item(self, item, spider): 
      if item['price']: 
         if item['excludes_vat']: 
            item['price'] = item['price'] * self.vat 
            return item 
         else: 
            raise DropItem("Missing price in %s" % item) 

Запись элементов в файл JSON

Следующий код будет хранить все очищенные элементы от всех пауков в одном файле items.jl , который содержит один элемент на строку в сериализованной форме в формате JSON. Класс JsonWriterPipeline используется в коде, чтобы показать, как писать конвейер элементов –

import json  

class JsonWriterPipeline(object): 
   def __init__(self): 
      self.file = open('items.jl', 'wb') 

   def process_item(self, item, spider): 
      line = json.dumps(dict(item)) + "\n" 
      self.file.write(line) 
      return item

Запись элементов в MongoDB

Вы можете указать адрес и имя базы данных MongoDB в настройках Scrapy, а коллекцию MongoDB можно назвать по имени класса элемента. Следующий код описывает, как использовать метод from_crawler () для правильного сбора ресурсов:

import pymongo  

class MongoPipeline(object):  
   collection_name = 'Scrapy_list' 

   def __init__(self, mongo_uri, mongo_db): 
      self.mongo_uri = mongo_uri 
      self.mongo_db = mongo_db 

   @classmethod 
   def from_crawler(cls, crawler): 
      return cls( 
         mongo_uri = crawler.settings.get('MONGO_URI'), 
         mongo_db = crawler.settings.get('MONGO_DB', 'lists') 
      ) 
  
   def open_spider(self, spider): 
      self.client = pymongo.MongoClient(self.mongo_uri) 
      self.db = self.client[self.mongo_db] 

   def close_spider(self, spider): 
      self.client.close() 

   def process_item(self, item, spider): 
      self.db[self.collection_name].insert(dict(item)) 
      return item

Дублирующие фильтры

Фильтр проверит повторяющиеся элементы и отбросит уже обработанные элементы. В следующем коде мы использовали уникальный идентификатор для наших элементов, но spider возвращает много элементов с одинаковым идентификатором –

from scrapy.exceptions import DropItem  

class DuplicatesPipeline(object):  
   def __init__(self): 
      self.ids_seen = set() 

   def process_item(self, item, spider): 
      if item['id'] in self.ids_seen: 
         raise DropItem("Repeated items found: %s" % item) 
      else: 
         self.ids_seen.add(item['id']) 
         return item

Активация конвейера предметов

Вы можете активировать компонент Item Pipeline, добавив его класс в настройку ITEM_PIPELINES, как показано в следующем коде. Вы можете присваивать целочисленные значения классам в порядке их выполнения (порядок может быть ниже для классов с более высокими значениями), и значения будут находиться в диапазоне 0-1000.