GPT-4的奧秘:一切數據標記化
2023-03-23 09:08:00 來源:法治日報·法治周末
■如何應對GPT-4帶來的挑戰 專題
智道
欄目主持人:於興中
■主持人說
還沒等到人們從聊天機器人ChatGPT引起的興奮里清醒過來,人工智能公司OpenAI在3月14日又發布了GPT-4。該公司表示,這是OpenAI在擴大深度學習方面的最新里程碑。GPT-4是一個大型的多模態模型(接受圖像和文本輸入,輸出文本)。GPT-4雖然在許多現實世界的場景中能力不如人類,但它具有在各種專業和學術基準上表現出人類水平的性能。
GPT-4包含了很大的突破,它能創造類似人類創作的文本,并從幾乎任何提示中生成圖像和計算機代碼,這種能力實在讓人們感到震驚。研究人員說,這些能力有可能改變科學。然而,人們基本上還不知道,且無法獲得該技術、其基礎代碼或關于如何訓練它的信息。這使它對研究的作用大大降低。與此同時,其他公司也發布了各自的類似產品,比如Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,等等。
作為對GPT-4的語言能力的證明,OpenAI公司說,GPT-4通過了美國某些州的律師資格考試,而且成績不錯。相比ChatGPT,它已經有大幅度的提升。GPT-4到底能夠達到什么樣的水平,能夠作出什么事來,對此人們的看法可能不太一樣。它僅僅是一個大型多模態的語言模型,只能限于語言上的解決,還是它作為生成性人工智能的工具是一種有可能改變世界的革命性突破?
對于新技術的出現,我們應該采取一種科技現實主義的態度,認真理解我們面對的到底是一種什么樣的事物,以及它給我們帶來了什么樣的挑戰。從法律角度深入討論如何應對GPT-4帶來的挑戰,包括其對現有法律制度和法律職業的沖擊、是否會創造出新的法律關系、如何監管、如何在合法應用它的背景下保護知識產權和創新、如何將其用于法律研究以及它對法學教育有何影響等,是必要的明智之舉。智道欄目本期發表的5篇文章分別從不同的角度對這些重要的法律與科技的問題進行了探討。此舉不是為GPT-4張目,而在于理解它的可能影響。
視覺中國供圖
如何應對GPT-4帶來的挑戰①
GPT-4的奧秘:一切數據標記化
□ 王延川
3月15日,OpenAI發布GPT-4,全球矚目。除了性能提升之外,GPT-4還增添了一項新功能,識別圖像。這個新功能表示GPT-4已經實現圖像和文字同時處理的多模態能力,有專家預測,未來會出現文字、圖像、音頻和視頻等所有數據統一處理的新變革。長期以來,計算機難以處理圖像、音頻、視頻等非結構化的數據,如何挖掘這些海量數據背后的價值成為企業關注的方向,GPT-4無疑在這條探索之路上已經邁出重要的一步。
不光是性能提升和圖像識別,GPT-4的整個訓練和運行其實都有一項技術作為支持,這個技術就是數據標記(Token)化。
數據標記化最早是用來保護敏感信息免受未經授權的訪問、盜竊或誤用,從而增強數據的安全性和隱私的技術。它通過用非敏感標記替換敏感數據來實現這一點,因為非敏感標記可以保持原始數據的格式和結構,卻不會透露其內容。然而,在訓練基于GPT-4體系結構的語言模型時,標記化并不涉及保護敏感信息,而是將訓練文本分解成更小的單元,這個更小的單元就是標記(Token)。為什么要將訓練文本分解為Token呢?
ChatGPT由一個特殊的神經網絡架構訓練而成,該架構被稱為“Transformer”,“Transformer”網絡的特點是,它可以從輸入的文本中學習語言的規律和模式,并用這些規律和模式來預測文本序列中的下一個單詞。具體而言,ChatGPT根據先前單詞的上下文預測語句序列中的下一個單詞,比如,對前n個單詞接入后預測第n+1個單詞,之后把n+1個單詞也接入,再預測第n+2個單詞,最后整個語句得以形成,有人將這種語句形成的方式叫“單字接龍”。這個被預測的單詞或者字符就是Token,也叫標記參數。
在訓練ChatGPT的過程中,其基本的素材就是Token。Token的原理如下:用戶的問題輸入,無論是文字還是圖像,首先會被轉化為一個向量,然后以Token的形式輸入到ChatGPT的神經網絡中。該網絡對輸入進行一系列的計算和轉換后,生成Token,并形成相應的輸出向量,輸出向量被轉化成文本,用以回答用戶的提問。所以,Token就是用戶輸入和GPT接收之間的一種介質。
Token實質上是一種矩陣,而文本是維空間中的一個向量。Token和向量之間需要轉換,以便于Transfomer識別。這個轉換是由驅動GPT的自注意力機制實現的。
在像GPT這樣的模型中,標記化定義了模型生成文本的粒度。標記化按照模型訓練所需將文本分解為不同大小的Token,如單詞、子詞或字母。
其一,單詞標記化。在這種方法中,文本數據被分解成單獨的單詞(Token)。例如,“ChatGPT是一個人工智能模型”這句話將被標記化為“ChatGPT”“is”“an”“AI”“Model”。單詞級標記化很簡單,但可能會導致較大的詞匯量,并可能難以處理罕見或詞匯表外的單詞。
其二,子詞標記化。為了解決單詞級標記化的局限,模型可以將罕見或詞匯表外的詞拆分成更小、更頻繁的子詞(Token),這些子詞可以組合成單詞。這提高了該模型即使在面對陌生單詞時也能產生有意義的反應的能力。例如,“ChatGPT是一個人工智能模型”這句話可以標記為“chat”“G”“pt”“is”“an”“AI”“mod”“el”。子詞級標記化有助于處理生詞和減少詞匯量。
其三,字母標記化。在這種方法中,文本數據被分解成單個字符或字母(Token)。例如,子“ChatGPT是一個人工智能模型”將被標記為“C”“h”“a”“t”“G”“P”“T”“i”“s”“a”“n”“A”“I”“m”“o”“d”“e”“l”。
雖然這種方法可以處理任何輸入文本,但它可能需要更多的計算資源,并且在捕獲高級語言模式方面效率較低。在ChatGPT生成語句的過程中,如果標記化是基于單詞的,則模型將預測下一個單詞;如果是基于字母的,則模型將預測下一個字母。
將文本分解成標記的優勢在于:較小的標記使模型能夠專注于單個語言元素及其它們之間的關系,從而促進更好地理解和學習。像“hi”或“the”這樣的常見單詞最終會成為一個標記。但如果有一個更不常見的詞如“Incomplete(意為不完整)”,就需要把它分解成“In(不)”和“complete(完整)”兩個字詞,這樣的操作會讓語言模型更容易、更有效地進行理解。當然,如果要將“In”和“complete”再細分,又會讓整個操作變得非常低效。
通過使用較小的標記,模型可以學習單詞之間的關系,而不必一次性處理和學習整個句子或段落,從而減少了計算成本。將文本分解為更小標記使模型可以學習語言的結構和模式,如語法、句法和語義,而通過檢查標記序列,模型可以理解單詞和短語如何在各種上下文中構造和使用。
因為數據標記化支持GPT的語言模型,它將輸入文本轉換為模型可以處理的格式,從而使得模型能更有效地理解和處理數據文本。具體而言,數據標記化可以統一處理不同類型的數據,如文字、圖像、音頻和視頻等,方法是將各種不同的數據類型轉換為統一格式,該格式可以輸入到模型中進行訓練和處理。這種轉換使得模型能夠更好地理解和處理輸入的數據,同時處理文字、圖像、音頻和視頻。
了解ChatGPT模型訓練如何對文字進行標記后,它又是如何對圖像、音頻和視頻進行標記的呢?圖像數據可以被分割成較小的、固定大小的塊,然后將這些塊線性嵌入到一個平面向量中,并作為Token處理。至于音頻數據,則可以通過對其進行轉換并標記化,然后將其劃分為更小的段或幀。這些段或幀可以被視為Token并由模型進行處理。視頻數據可以通過將其劃分為更小的片段來標記化,通?;趲蚨碳糨?。然后可以處理每個片段并將其表示為Token,從而使模型能夠了解不同片段之間的關系。
總之,在ChatGPT的訓練和語句生成過程中,數據標記化發揮了關鍵作用。它一方面可以簡化表示、促進高效計算、支持更好的語言結構和上下文學習,并更有效地處理詞匯表外的單詞,另一方面可以將文字、圖像、音頻和視頻統一轉換為模型可以識別的格式,極大提高了ChatGPT模型的語言理解能力和回應功能,從這個角度而言,ChatGPT的奧秘就是“將一切數據Token化”。
(作者系西北工業大學馬克思主義學院教授)