首頁什麼是代理IP? Python通過HTTP代理爬取網頁文章

Python通過HTTP代理爬取網頁文章

Pandada 文章於 4个月前發佈

4.70

這里有一個 Python 腳本示例，使用 requests 庫通過帶有賬號密碼驗證的 HTTP 代理爬取指定網頁的文章內容。首先，請確保已安裝 requests 庫，如果沒有安裝，可以通過運行 pip install requests 來安裝。

Python 腳本示例


        import requests
        from bs4 import BeautifulSoup
        
        # 代理服務器的地址和端口
        proxy_host = 'proxy_ip'
        proxy_port = 'proxy_port'
        
        # 代理賬號和密碼
        proxy_user = 'username'
        proxy_pass = 'password'
        
        proxies = {
            'http': f'http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}',
            'https': f'https://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}',
        }
        
        # 指定要爬取的網頁
        url = 'http://example.com'
        
        try:
            # 使用代理發起請求
            response = requests.get(url, proxies=proxies)
            response.raise_for_status()  # 如果響應狀態碼不是 200，將抛出 HTTPError 異常
        
            # 使用 BeautifulSoup 解析網頁內容
            soup = BeautifulSoup(response.text, 'html.parser')
        
            # 假設文章內容被 article 標簽包圍
            article = soup.find('article')
        
            # 打印文章內容
            if article:
                print(article.text)
            else:
                print("未找到文章內容。")
        
        except requests.exceptions.HTTPError as err:
            print(f"HTTP 錯誤: {err}")
        except Exception as err:
            print(f"發生錯誤: {err}")

這個腳本將連接到通過用戶名和密碼驗證的 HTTP 代理，然後嘗試獲取指定 URL 的內容。它使用了 BeautifulSoup 庫來解析 HTML，並嘗試找到並打印 <article> 標簽內的內容。你需要替換 proxy_ip, proxy_port, username, password, 和 http://example.com 為你實際的代理服務器信息和目標 URL。如果目標網頁中文章內容的 HTML 結構不同，你可能需要根據實際情況調整 BeautifulSoup 的選擇器。

在 CentOS 服務器上設置並運行上述 Python 爬蟲腳本的步驟包括安裝必要的軟件和庫，配置腳本以使用代理，並執行腳本。以下是詳細步驟：

步驟 1: 安裝 Python

首先，確保你的 CentOS 服務器上安裝了 Python。大多數現代 CentOS 系統默認安裝了 Python，但你可以通過以下命令來確認：

python --version

或者（如果是 Python 3）：

python3 --version

如果沒有安裝 Python，你可以通過以下命令安裝：

sudo yum install python3

步驟 2: 安裝 pip

pip 是 Python 的包管理器，用於安裝和管理 Python 包。在 CentOS 上安裝 pip 可以使用以下命令：

sudo yum install python3-pip

步驟 3: 安裝必要的 Python 庫

你需要安裝 requests 和 beautifulsoup4 庫。可以使用 pip 來安裝這些庫：

pip3 install requests beautifulsoup4

步驟 4: 創建腳本

使用你喜歡的文本編輯器（如 nano 或 vim）創建一個新的 Python 腳本文件：

nano my_scraper.py

然後複製並粘貼之前給出的 Python 腳本代碼到這個文件中。別忘了修改代理設置和目標 URL 為你自己的數據。

步驟 5: 運行腳本

保存文件並退出編輯器，然後在命令行中運行腳本：

python3 my_scraper.py

這將執行腳本，通過指定的 HTTP 代理來請求網頁，並打印出網頁中的文章內容。

注意事項

確保防火牆和代理設置允許你的服務器通過指定的端口訪問外部網絡。

根據你的需要調整 Python 腳本中的代理認證和網頁內容提取部分。

如果你是在一個虛擬環境中工作，確保在該環境中安裝所需的庫。

按照這些步驟，你應該能夠在 CentOS 服務器上設置並運行 Python 爬蟲腳本。