Простой парсер товаров с Amazon с помощью BeautifulSoup

Dotrox · 23 ноя 2016

Для знакомства с парсингом на Python и таким прекрасным инструментом для этого, как BeautifulSoup, напишем небольшой парсер товаров с Amazon.
В данном примере я буду использовать Python 2.7, для 3.x нужно будет внести некоторые правки.
Из библиотек нам понадобится BeautifulSoup и requests, а также time для задания паузы между обращениями к серверу Amazon, чтоб парсер не забанили. Вместо requests можно использовать urllib2, но это добавит ручной работы.

Для примера будем парсить категорию мониторов:

Скрытый контент. Для просмотра Вы должны быть зарегистрированным участником.
Нажмите, чтобы раскрыть...

Основной контент здесь находится в блоке #mainResults. Контейнер отдельного товара имеет класс s-result-item.
На странице категории нас будут интересовать только ссылки на отдельные товары, а информацию о товарах будем брать со страниц товаров.

1. Импортируем необходимые библиотеки, прописываем заголовок с User-agent, чтоб выдать себя за браузер и отправляем GET запрос к Amazon с помощью Requests:

Спойлер

python:

import requests
from bs4 import BeautifulSoup

headers = {'User-agent': 'Mozilla/5.0'}
url = 'https://www.amazon.com/Monitors-Computers-Accessories/b/ref=sd_allcat_monitors?ie=UTF8&node=1292115011'

r = requests.get(url, headers=headers)

Чтоб увидеть полученную страницу, можно далее дописать это:

python:

print(r.text)

2. Теперь надо создать экземпляр BeautifulSoup и передать в него содержимое полученной страницы.

Спойлер

python:

soup = BeautifulSoup(r.text, 'lxml')

В данном примере конструктор принимает два параметра (а вообще есть и другие): первый - это html код для парсинга, второй - тип парсера, который следует использовать.
Тут следует уточнить, что BeautifulSoup сам не является парсером - это библиотека, которая служит обёрткой для парсера, упрощая работу с ним и расширяя его возможности.
BeautifulSoup поддерживает работу с несколькими разными парсерами:
html.parser - встроенный в Python пасер
lxml - Python биндинг популярнойи и очень быстрой С библиотеки
html5lib - библиотека для парсинга html5

Подробнее об особенностях этих парсеров и их установке можно прочитать в доках BeautifulSoup здесь, а о разнице непосредственно в работе с html - здесь.

3. Теперь соберём со страницы ссылки на товары.

Спойлер

Ссылки на товар имеют класс s-access-detail-page (именно этот класс позволяет отличить ссылку на товар от других) и находятся они внутри блока товара с классом s-result-item.
Выбрать все ссылки можно таким образом:

python:

product_links = soup.select('.s-result-item .s-access-detail-page')

Думаю, многие обратят внимание на сходство этого кода с jQuery.

Однако, нас интересуют не теги ссылок целиком, а только сами ссылки на страницы товаров, поэтому немного изменим эту строку:

python:

product_links = (tag.get('href') for tag in soup.select('.s-result-item .s-access-detail-page'))

Здесь мы обходим в цикле полученный список тегов а и достаём из каждого ссылку на страницу товара.

Обратите внимание на круглые скобки вокруг цикла. Если заменить их на квадратные, мы сразу получим список (нумерованный массив) со ссылками. В круглых же скобках мы получаем не готовый результат работы цикла, а генератор, который будет возвращать нам последовательно под одной ссылке в момент обращения к нему. Таким образом мы не будем тратить ресурсы на извлечение ссылок до момента, когда каждая из них не понадобится.

Для простоты понимания, можно рассматривать содержимое переменной product_links просто как список ссылок, который можно в дальнейшем подставить в цикл для обработки.

4. Получив список ссылок на товары можно начать обход страниц товаров и получение информации о каждом товаре.

Спойлер

Для начала посмотрим страницу товара и определимся, какие селекторы нам понадобятся для извлечения необходимой информации.
Для получения чистой ссылки на страницу товара, которую в последующем можно будет использовать для повторного парсинга (например, для обновления цены) используем rel="canonical".
Название товара возьмём из h1.
Цену возьмём из блока #priceblock_ourprice.
Основное изображение товара - это тег img с id равным landingImage. И следует обратить внимание, что большое изображение находится не в атрибуте src, а в атрибуте data-old-hires.

Для улучшения общей читабельности обернём код извлечения данных со страницы товара в функцию, которая будет получать на вход ссылку и возвращать словарь (именованный массив) с информацией о товаре, который находится по этой ссылке:

python:

def get_product_info(url):
data = dict()
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'lxml')
data['link'] = soup.find(rel='canonical').get('href')
data['name'] = soup.find('h1').text.strip()
data['price'] = soup.find(id='priceblock_ourprice').text if soup.find(id='priceblock_ourprice') else None
data['img_main'] = soup.find(id='landingImage').get('data-old-hires')

return data

.strip() при парсинге названия нужен, чтоб удалить пробелы и символы перевода строки, которые обнаружились вокруг названия у товаров на Amazon.
Обратите внимание на парсинг цены: у некоторых товаров цена недоступна до момента добавления товара в корзину, поэтому обработка просиходит таким образом, иначе возникнет ошибка, которая остановит парсинг.

Теперь достаточно обойти циклом генератор со ссылками на страницы товаров, подставляя каждую из ссылок в эту функцию.

python:

products_data = []
for link in product_links:
print('Parse ' + link)
products_data.append(get_product_info(link))
time.sleep(1)

pprint(products_data)

Здесь мы сначала создаём пустой список, а затем в цикле заполняем его данными о каждом товаре, обходя ссылки на страницы товаров. После каждой итерации происходит пауза на одну секунду.
Общее время парсинга может занять до двух минут, так что наберитесь терпения.
В начало каждой итерации я добавил вывод информации о том, какая ссылка будет обрабатываться в этой итерации, чтоб можно было видеть процесс и в случае ошибок, узнать на какой из страниц они возникли.

Также обратите внимание, что вместо print для вывода результата работы парсера я использую pprint - эта функция выведет информацию в более читабельном форматированном виде. Чтоб её использовать, надо сначала её импортировать:

python:

from pprint import pprint

После работы парсера вы должны увидеть нечто подобное:

Спойлер

Полный код из этой статьи выглядит так:

Спойлер

python:

import requests, time
from bs4 import BeautifulSoup
from pprint import pprint

headers = {'User-agent': 'Mozilla/5.0'}
url = 'https://www.amazon.com/Monitors-Computers-Accessories/b/?node=1292115011'

r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'lxml')

product_links = (tag.get('href') for tag in soup.select('.s-result-item .s-access-detail-page'))

def get_product_info(url):
data = dict()
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'lxml')
data['link'] = soup.find(rel='canonical').get('href')
data['name'] = soup.find('h1').text.strip()
data['price'] = soup.find(id='priceblock_ourprice').text if soup.find(id='priceblock_ourprice') else None
data['img_main'] = soup.find(id='landingImage').get('data-old-hires')

return data

products_data = []
for link in product_links:
print('Parse ' + link)
products_data.append(get_product_info(link))
time.sleep(1)

pprint(products_data)

Skladchina · 25 фев 2019

Ожидаются ли еще такие же занимательные примеры? Очень понравилось. У Python 3.x трудности со всеми кодировками, кроме UTF-8, лучше и правда 2.х.

Dotrox · 25 фев 2019

Skladchina сказал(а): ↑

Ожидаются ли еще такие же занимательные примеры?
Нажмите, чтобы раскрыть...

Спрос слишком маленький.

Skladchina сказал(а): ↑

У Python 3.x трудности со всеми кодировками, кроме UTF-8, лучше и правда 2.х.
Нажмите, чтобы раскрыть...

Не припомню необходимости в кодировках отличных от UTF-8, так что на счёт трудностей ничего не скажу, но с UTF-8 в тройке стало как раз лучше.

А двойку уже поздно использовать, у неё поддержка заканчивается 1 января 2020.
Туториалу этому то уже больше двух лет, тогда в двойке ещё был смысл. Если не ошибаюсь, BeautifulSoup тогда из коробки ещё даже не поддерживал тройку, нужно было самостоятельно пропускать через 2to3.

Deen_don · 22 май 2019

Выдает только Parse и Link без цены и названия

Dotrox · 22 май 2019

Deen_don сказал(а): ↑

Выдает только Parse и Link без цены и названия
Нажмите, чтобы раскрыть...

Вероятно, там вёрстка изменилась, почти 3 года прошло. Для названия попробуйте так:
python:
	    data['name'] = soup.find(id='productTitle').text.strip()
	

LoneRevenger · 29 сен 2019

Dotrox сказал(а): ↑
Вероятно, там вёрстка изменилась, почти 3 года прошло. Для названия попробуйте так:
python:
	    data['name'] = soup.find(id='productTitle').text.strip()
	
Нажмите, чтобы раскрыть...
Здравствуйте! Поробовал переименовать, к сожалению, безрезультатно. Выдаёт только Parse с сылкой на товар. Проверил код страницы, вроде, элементы правильно указаны, но не могу понять почему не работает корректно.
Будьте добры, объясните как исправить и сделать так чтоб данные выводились в .txt файл. Ещё не могу понять как получить эту ссылку
https://www.amazon.com/Monitors-Computers-Accessories/b/?node=1292115011, т.к. на Amozon везде они такие https://www.amazon.com/b/ref=s9_acs...d2-28c3-4a64-91af-254d7a033ada&pf_rd_i=541966

Dotrox · 30 сен 2019

LoneRevenger сказал(а): ↑

Ещё не могу понять как получить эту ссылку
https://www.amazon.com/Monitors-Computers-Accessories/b/?node=1292115011, т.к. на Amozon везде они такие https://www.amazon.com/b/ref=s9_acs...d2-28c3-4a64-91af-254d7a033ada&pf_rd_i=541966
Нажмите, чтобы раскрыть...

Не уверен, где я её достал тогда, но сейчас её можно найти в хлебных крошках на странице товара из категории.
Вообще, формат ссылок не принципиален, главное, чтоб ссылка была рабочей.

LoneRevenger сказал(а): ↑

Проверил код страницы, вроде, элементы правильно указаны, но не могу понять почему не работает корректно.
Нажмите, чтобы раскрыть...

Для начала проверьте получаете ли вы саму страницу.

После строчки
python:
	    r = requests.get(url, headers=headers)
	
добавьте
python:
	    print(r.text)
	
И посмотрите на код полученной страницы.

LoneRevenger · 30 сен 2019

Dotrox сказал(а): ↑
Не уверен, где я её достал тогда, но сейчас её можно найти в хлебных крошках на странице товара из категории.
Вообще, формат ссылок не принципиален, главное, чтоб ссылка была рабочей.

Для начала проверьте получаете ли вы саму страницу.

После строчки
python:
	    r = requests.get(url, headers=headers)
	
добавьте
python:
	    print(r.text)
	
И посмотрите на код полученной страницы.
Нажмите, чтобы раскрыть...
Ссылка получается рабочей, только если использовать такой тип, что Вы делали, а не как при просмотре сайта.
На счет проверки, то я пробовал, да, страница получается, но отдельно вытащить элементы с неё я не могу

Всё, работает, не получалось по собственной глупости

--- Добавлено, 30 сен 2019 ---

LoneRevenger сказал(а): ↑

Ссылка получается рабочей, только если использовать такой тип, что Вы делали, а не как при просмотре сайта.
На счет проверки, то я пробовал, да, страница получается, но отдельно вытащить элементы с неё я не могу

Всё, работает, не получалось по собственной глупости
Нажмите, чтобы раскрыть...

Вышла ошибка, теперь оно сново не работает. Использую изначальный код, вот что выдаёт

[]

Process finished with exit code 0

--- Добавлено, 30 сен 2019 ---

LoneRevenger сказал(а): ↑

Ссылка получается рабочей, только если использовать такой тип, что Вы делали, а не как при просмотре сайта.
На счет проверки, то я пробовал, да, страница получается, но отдельно вытащить элементы с неё я не могу

Всё, работает, не получалось по собственной глупости

--- Добавлено, 30 сен 2019 ---

Вышла ошибка, теперь оно сново не работает. Использую изначальный код, вот что выдаёт

[]

Process finished with exit code 0
Нажмите, чтобы раскрыть...

Исправил

Dotrox · 1 окт 2019

LoneRevenger сказал(а): ↑

Всё, работает, не получалось по собственной глупости
Нажмите, чтобы раскрыть...

А в чём была проблема?

Floki · 8 мар 2021

Dotrox, не подскажешь в чём проблема может быть: хочу спарсить тайтл со страницы (юзаю 3-й пайтон), и вместо тайтла выводит "Adding to Cart...", та и я посмотрел на остальные запросы и вместо любого текста Adding to Cart... или что-то подобное(
На всякий случай мой код:

Код:

import requests
from bs4 import BeautifulSoup

URL = 'https://www.amazon.com/dp/B08RJ3XS6Y/'
HEADERS = {
        'authority': 'www.amazon.com',
        'dnt': '1',
        'upgrade-insecure-requests': '1',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,'
                  'image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'sec-fetch-site': 'none',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-dest': 'document',
        'accept-language': 'en-GB,en-US;q=0.9,en;q=0.8',
    }
def get_html(url, params = None):
    r = requests.get(url, headers=HEADERS, params = params)
    return r

def parse():
    html = get_html(URL)
    if html.status_code == 200:
        get_contant(html.text)
    else:
        print('Error')

def get_contant(html):
    soup = BeautifulSoup(html, 'html.parser')
    #item = soup.find_all('h1', class_='a-section a-spacing-none')
    data = dict()
    data['Title'] = soup.find('h1').text.strip()
    print(data['Title'])

parse()

Deniurg · 2 апр 2021

Floki, как насчет изменить селектор на data['Title'] = soup.find(id="productTitle").text.strip() либо если нужно содержимое тега TITLE, то: data['Title'] = soup.title.string.strip()

Dr.Dream · 24 май 2022

LoneRevenger сказал(а): ↑

Вышла ошибка, теперь оно сново не работает. Использую изначальный код, вот что выдаёт

[]

Process finished with exit code 0
Нажмите, чтобы раскрыть...

Доброй ночи! Подскажите решение этой проблемы. Как решилась?

Thomas Bergersen · 26 май 2022

Доброй ночи! Подскажите решение этой проблемы. Как решилась?

pidorpidor · 24 авг 2022

амазон защиту от парсинга ввел, теперь вы не сможете обычным реквестом запарсить.

Войти или зарегистрироваться

Простой парсер товаров с Amazon с помощью BeautifulSoup

Dotrox Команда форума

Skladchina

Dotrox Команда форума

Deen_don

Dotrox Команда форума

LoneRevenger

Dotrox Команда форума

LoneRevenger

Dotrox Команда форума

Floki

Deniurg

Dr.Dream

Thomas Bergersen

pidorpidor