El siguiente enlace extraerá todas las URL para una página web determinada.
#!/usr/bin/env python3 # Python Versión: 3.4.2 # BS4 Versión: 4.3.2-2 de Urllib.Solicitar la importación de Urlopen de BS4 Import BeautifulSoup HTML = Urlopen ("http: // gnu.org ") # Inserte su URL para extraer BSOBJ = Beautifulsoup (html.leer()); para enlace en bsobj.find_all ('a'):: imprimir(enlace.Get ('href'))
Guarde el script anterior en un archivo, por ejemplo,. extracto.py
y hazlo ejecutable:
$ chmod +x extracto-url.py
Ejecute el guión:
ps ./extracto-url.py