如何利用Java爬取網站數據？

發布時間：

2022-11-29
版權所有：

云和教育
分享：

1.Jsoup介紹

– 官網文檔：https://jsoup.org

– Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數據。

2. Jsoup快速入門

– 獲取網頁標題

　　String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1";
　　Document document = Jsoup.connect(url).get();
　　String title = document.select("title").text();
　　System.out.println(title);
　　```

– 運行效果：手機 – 商品搜索 – 京東

3. 網站數據分析

3.1 分析網站的訪問地址

– 以京東商城為例，商品分頁列表的url地址，需要帶如下幾個參數，因此，在發送http請求時，需要攜帶正確的參數。

– URL：https://search.jd.com/Search?keyword=手機&wq=手機&page=1

3.2 分析網站的頁面結構

– 通過瀏覽器的開發者工具，可以分析出頁面中我們需要的html結構。

<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />

– 可以看出，我們需要的商品數據，封裝在一個id=J_goodsList的div標簽中，我們可以方便的通過DOM解析出這塊數據。

4. 實戰實現過程

– 獲取第1頁的商品基本數據

public static void main(String[] args) throws Exception {
    //第1頁地址
    String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1";
    //發送http請求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下，獲取所有帶有data-sku屬性的li標簽
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //獲取商品sku
                String sku = li.attr("data-sku");
                //獲取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //獲取商品圖片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
               
                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}

– 效果預覽

– 改造為分頁獲取

public static void main(String[] args) throws Exception {
    //第N頁地址
    String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=" + i;
    //發送http請求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下，獲取所有帶有data-sku屬性的li標簽
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //獲取商品sku
                String sku = li.attr("data-sku");
                //獲取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //獲取商品圖片地址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");

                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}

上一篇什么是形參和實參？在Javascript中怎么用？
下一篇 Java培訓：什么是sMybatisPlus數據安全？

国产色诱美女免费视频|欧美精彩狠狠色丁香婷婷|91黑人|日本黄色小视频|欧美一级黄色视频在这里免费观看

如何利用Java爬取網站數據？

最新開班信息

課程咨詢

云和熱門培訓課程

推薦閱讀