Por favor, tenha paciência comigo, pois sou bastante novo no Python e no github em geral.
Tenho usado solicitações para extrair dados da Play Store. Preciso fazer uma grande quantidade de solicitações (cerca de 20k). Ele funciona muito bem para cerca de 3000-4000 solicitações, mas fica travado depois disso (erro de SSL). Não estou familiarizado com SSL e solicitações, então não sei o que causa isso.
Erro:
(SSLError Traceback (most recent call last)
<ipython-input-23-1da544640d89> in <module>()
53 time.sleep(0.1)
54
---> 55 r = requests.get('https://play.google.com' + link + '&hl=en')
56 link_tree = html.fromstring(r.content)
57 description = link_tree.xpath('//div[@jsname="C4s9Ed"]/text()') + link_tree.xpath('//div[@jsname="C4s9Ed"]/p/text()')
C:\Users\Nathan\AppData\Local\Enthought\Canopy\User\lib\site-packages\requests\api.pyc in get(url, params, **kwargs)
65
66 kwargs.setdefault('allow_redirects', True)
---> 67 return request('get', url, params=params, **kwargs)
68
69
C:\Users\Nathan\AppData\Local\Enthought\Canopy\User\lib\site-packages\requests\api.pyc in request(method, url, **kwargs)
51 # cases, and look like a memory leak in others.
52 with sessions.Session() as session:
---> 53 return session.request(method=method, url=url, **kwargs)
54
55
C:\Users\Nathan\AppData\Local\Enthought\Canopy\User\lib\site-packages\requests\sessions.pyc in request(self, method, url, params, data, headers, cookies, files, auth, timeout, allow_redirects, proxies, hooks, stream, verify, cert, json)
466 }
467 send_kwargs.update(settings)
--> 468 resp = self.send(prep, **send_kwargs)
469
470 return resp
C:\Users\Nathan\AppData\Local\Enthought\Canopy\User\lib\site-packages\requests\sessions.pyc in send(self, request, **kwargs)
574
575 # Send the request
--> 576 r = adapter.send(request, **kwargs)
577
578 # Total elapsed time of the request (approximately)
C:\Users\Nathan\AppData\Local\Enthought\Canopy\User\lib\site-packages\requests\adapters.pyc in send(self, request, stream, timeout, verify, cert, proxies)
445 except (_SSLError, _HTTPError) as e:
446 if isinstance(e, _SSLError):
--> 447 raise SSLError(e, request=request)
448 elif isinstance(e, ReadTimeoutError):
449 raise ReadTimeout(e, request=request)
SSLError: EOF occurred in violation of protocol (_ssl.c:590) )
The-efi, neste github, parecia ter o mesmo problema neste tópico: https://github.com/kennethreitz/requests/issues/3006 (veja abaixo, ele não era o OP) mas não consegui encontrar o tópico que ele abriu para mais assistência. Eu uso o Python 2.7. também.
Já estou preso nisso há um bom tempo e não consigo encontrar nenhuma resposta aqui nem no StackOverflow (a resposta provavelmente estava bem debaixo do meu nariz, mas tive problemas para entendê-los por causa da minha falta de conhecimento em SSL e solicitações) .
Agradecemos antecipadamente por sua ajuda e desculpe se algo não estiver claro - por favor, me avise.
Quando você diz que empacou, é só que a exceção é disparada? Ou as solicitações de acompanhamento não funcionam? Eu pergunto porque erros transitórios de rede _são_ ocorrem, e se você está fazendo um grande número de solicitações da web, você deve considerar a implementação de algum tipo de lógica de repetição em face deles.
A exceção é acionada. As solicitações de acompanhamento parecem funcionar, mas ainda não tentei implementar a nova tentativa. Eu estava com medo de estar sendo contra as regras de fazer muitas solicitações a um servidor ou algo assim, eu acho.
Definitivamente vou tentar isso e atualizar este tópico. Obrigado!
Bem, pelo que vale a pena, porque você está usando requests.*
você está se colocando em maior risco de sobrecarregar os recursos de rede entre você e o servidor. Você deve tentar usar uma sessão .
Para qualquer pessoa com este problema:
Eu consertei seguindo as sugestões de
import requests
sess = requests.Session()
adapter = requests.adapters.HTTPAdapter(max_retries = 20)
sess.mount('http://', adapter)
Então, onde eu estava usando requests.get()
antes, usei sess.get()
.
Esperançosamente isso ajuda, e obrigado por sua ajuda @Lukasa !
Recebi exatamente a mesma mensagem de erro, o problema era que não tinha o ndg-httpsclient instalado
@variable Instalei ndg-httpsclient mas o mesmo erro: urllib.error.URLError :
Comentários muito úteis
Recebi exatamente a mesma mensagem de erro, o problema era que não tinha o ndg-httpsclient instalado
https://github.com/kennethreitz/requests/issues/3605