16.6 C
Taipei
星期一, 15 4 月, 2024

黃煒盛:用 GPT-4 寫網路爬蟲程式?似乎還是有點早|天地人學堂

GPT-4.0 可以回答大部分的程式和設計問題,只要不是太複雜。ChatGPT使用一種稱為"詠唱"(PROMPT)的方式進行聊天,可以更詳細地描述你所需的東西。在下面的範例中,使用ChatGPT 4.0來翻譯我們簡單的網路爬蟲撰寫方式。

黃 煒盛
黃 煒盛https://www.tiandiren.tw/product/c1443dac
黃煒盛|嘉南藥理大學 智慧健康產業技術研發與人才培育中心 助理教授 業師經歷第一科技技術股份有限公司技術長、社團法人台灣產學研合作發展策進會秘書長等實務,專注於數位影像分析、影像分析、人工智慧深度學習與物聯網。在策進會、工業局等各單位教授人工智慧、機器學習應用實務、Python網路爬蟲與資料分析、邊緣運算影像辨識實務等課程。具豐富實務與教學經歷。

網路爬蟲是一種自動化程式,它可以自動地在網際網路上搜尋並收集網頁的資料。這些資料可以是文字、影像、影片、聲音等等,而且可以從各種網站中獲取。網路爬蟲通常是由程式設計師開發,並使用一些程式語言如Python、JavaScript等。網路爬蟲會應用在各種不同領域,如商業、科學研究、新聞採集、大數據分析等等。

而ChatGPT是一個人工智能對話模型,在2022年底公布時,是基於大型語言模型GPT-3.5訓練的。初學者可以將其視為一個可以回答問題、提供建議和進行對話的機器人。目前,ChatGPT已經升級到了GPT-4.0,相比於3.5版,它具有更快、更大的回應速度和更大的模型。在實際應用中,它可以涵蓋更廣泛、更大的範圍。此外,GPT-4.0比GPT-3.5更聰明,可以更快地回答更多的問題,並且在程式編寫方面也更快。在測試中,它可以回答大部分的程式和設計問題,只要不是太複雜。ChatGPT使用一種稱為”詠唱”(PROMPT)的方式進行聊天,可以更詳細地描述你所需的東西。在下面的範例中,使用ChatGPT 4.0來翻譯我們簡單的網路爬蟲撰寫方式。

上面是我們的詠唱指令。下面是CahtGPT 4.0 的回答。

基本上匯入函式庫的部分沒有問題,而且也針對各個指令進行說明。

下載文件,進行文件解釋也沒有問題。同時把資料餵給BS4。

這邊是教導抓取的方式,因為我們沒有設定到哪裡爬蟲,抓取什麼資料?所以它自己舉了一個例子。

整個流程大致上沒有問題,它解釋方式是一個步驟一個步驟進行說明,最後整合成一個完整的程式碼。對於初學者來說非常方便。


 

我們進一步來做進階數值的爬取,假設我們要爬取奇摩股市的開盤指數,如下圖。

我們詠唱下面的指令。

可以獲得以下的程式碼。
我們把它丟到Jupyter Notebook中執行看看。

會執行錯誤。直接是找不到物件。
我們透過網頁解析,直接使用Chrome網頁分析器,複製selector,可以僅修改一行文字,就獲得我們要的答案。如下面的圖。

 


結語:
Chatgpt可以解決我們大部分的問題,但是關鍵部分,還是要靠自己的領域知識(Domain Knowledge)來化解。

提供ChatGPT AI應用指南學習 – ChatGPT 與 Python 社群網路輿情分析實戰班

ChatGPT 社群分析相關新聞
AI應用技術擴散飛快,你知道目前市場上已經有哪些應用實務?
– 最新突破!OpenAI推ChatGPT官方外掛:能連網更新、訂餐廳>>>瞭解更多 〔註1〕
– 玉山銀行開始運用ChatGPT協助KYC開戶調查,未來Chatbot客服也要用?>>>瞭解更多 〔註2〕


資料來源
〔註1〕聯合新聞網
〔註2〕iThome