北美Tech職場日記:打工仔也想升職

北美Tech職場日記:打工仔也想升職

打工仔也想學 AI

打工仔也想學 AI:LLM 的養成之路

009:從亂吃資料的嬰兒,到懂事的大人

楓葉國小K's avatar
楓葉國小K
Nov 20, 2025
∙ Paid

上次我們聊過 Prompting,也就是怎麼跟模型說話,讓它聽得懂我們的意圖。

這次不妨反過來想,既然我們天天和它聊天,叫它做東做西,是不是也該稍微了解一下它是怎樣長大的?

畢竟,就像公司不會隨便聘請一個神秘員工一樣,合作前最少要先看看履歷表吧?

a young boy running through a sprinkle of water
Photo by MI PHAM on Unsplash

👶🏻第一階段:預訓練 (Pre-Training)

如果把 LLM 的誕生比喻為養小孩,那預訓練就是亂吃資料的嬰兒期。

模型在這階段還不會回答問題,也不會聊天,它只會一件事:

猜下一個字是什麼

為了讓它學會玩這個猜字遊戲,研究團隊會從網絡世界中搜羅海量資料:網站內容、電子書、維基百科、論壇、GitHub 程式碼…

只要是有字的,都是它的食物。

不過,吃之前要先「洗菜」,研究人員會先清理資料,去除重複、低質量、甚至有毒的內容,然後把文字切成一個個小單位 (token),模型才開始它吃資料的日子。

這階段沒有人類老師教導,它自己從文字裡摸索規律,所以也被稱為 Unsupervised Learning 或 Self-Supervised Learning。

經過這段填鴨式教育,它變成了一個語言藝術家:

  1. 給上聯,對下聯

  2. 給句子開頭,補完句子

但如果這時候問它:

把句子翻譯成法文:我愛機器學習

它可能會一本正經地答:

這是一個語言處理範疇常見的問題

聽起來有理,卻完全沒答題。因為這時候的它還只是個會模仿的孩子,還未懂說話中的指示。

This post is for paid subscribers

Already a paid subscriber? Sign in
© 2026 楓葉國小K · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture