Думаю что каждый хоть раз слышал раз слово прокси, но большинство даже не задумывалось что это такае и зачем они. Для начала рассмотрим их основные виды прокси или proxy серверов, потомучто их довольно много. Ну а общее предназначение всех прокси – скрыть свой реальное пребывание в интернете или на сайте, то есть сменить ip адрес.
Первый вид: HTTP proxy
Самый популярный вид прокси сервера, работает по протоколу HTTP. В свою очередь подразделяются по анонимности:
- прозрачные (transparent) – эти proxy не анонимные. Они во-первых дают знать, что используется proxy-сервер, а во-вторых “выдают” IP-адрес своего клиента. Они кэшируют информацию и / или обеспечивают выход в Internet нескольких компьютеров через одно соединение.
- анонимные - они показывают, что используется ПРОКСИ, однако не выдают IP-адрес пользователя.
- искажающие - среднее между элитными и анонимными проксями.
- реально анонимные (элитные) – не показывают реальный ip адрес и они даже не сообщают о том, что используется proxy сервер. То есть web-сервер “считает”, что он работает непосредственно с клиентом – а клиентом для него является proxy. Такой вид прокси самый востребованный и естественно идеально подходит для скрывания своего настоящего ip адреса.
Списки прокси серверов легко можно найти на соответствующих сайтах, достаточно воспользоваться яндексом или гуглом. Так же сбор списков можно автоматизировать, для эгото существует достаточное количество софта., который заодно их проверяет на работоспособность.
Второй вид: HTTPS proxy
Они делают тоже самое что обычные http прокси и плюс к этому поддерживают шифрование по протоколу SSL. Такие прокси редкость и в паблике обычно их нет. Их используют для работы с сайтами которые работают с по протоколу HTTPS – это различные платежные системы, почта у гугла и т д.
Третий вид: SOCKS proxy
Данный вид прокси умеет работать по следующим протоколам: (версия SOCKS4(a) – только TCP/IP, SOCKS5 – TCP/IP + UDP + авторизация + удаленный DNS-запрос).
Использование прокси для парсинга сайтов:
реализация на php с помощью CURL
$curl = curl_init();
curl_setopt($curl, CURLOPT_COOKIEFILE, ‘cook.txt’);
curl_setopt($curl, CURLOPT_COOKIEJAR, ‘cook.txt’);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_HEADER, true);
curl_setopt($curl, CURLOPT_REFERER, ‘http://www.google.ru/’);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_USERAGENT, ‘Opera 9′);
сurl_setopt ($curl, CURLOPT_PROXY, $proxy );
$response = curl_exec($curl);
curl_close($curl);