Здравствуйте. Цель: хочу спарсить чужой и свой сайт. Получить цены на товары и вывести в виде таблицы. Проблема: товары одинаковые, но названия товаров немного разносные (кто как уже подписал) Вопрос: как соотнести по названию или url или фото товаров в таблицу соответствия. Что бы спарсили пару сайтов прогнали по таблице и вывели на экран в табличку с ценами. Пример: Ударная дрель Bosch GSB 19-2 RE Professional Дрель ударная Bosch GSB 19-2 RE Professional Дрель ударная электрическая Bosch, GSB 19-2 RE Professional БЗП Понятно, что товар один и тот же, но называются по разному. Заранее благодарен!
Самое простое, что приходит в голову: удаляем из названия не латинские символы, знаки пунктуации и пробелы, приводим оставшуюся строку к нижнему регистру и сравниваем. Но это при условии, что кириллическая часть названия не содержит ничего уникально определяющего текущий товар. То есть, если есть, например, "пила Дружба" - уже не прокатит.
Она тут абсолютно непригодна! Если есть, например, "Дрель ударная Bosch GSB 19-2" и "Дрель ударная Bosch GSB 18-2" - это выйдет один товар (разница в один символ), а вот "Дрель ударная Bosch GSB 19-2" и "Ударная дрель Bosch GSB 19-2" - будут разными товарами, ибо больше символов отличается. Плюс эта функция работает побайтно, так что с юникодом нормально работать не сможет.
Ну, в данном случае это не важно Можно и конвертнуть в нужную кодировку Но вот вопрос, в том какие коэффициенты использовать similar_text() Ударная дрель Bosch GSB 19-2 RE Professional Дрель ударная Bosch GSB 19-2 RE Professional Попробуйте, расскажете