生成式人工智能數據與城市應用場景

隨著ChatGPT這類生成式人工智能的面世,標誌著人工智能的運用從以往判別式人工智能應用,向具有類似人類創造性思維,能創建新內容的生成式人工智能應用邁進。而GhatGPT只不過是其中一類自然語言處理的生成式人工智能大模型。當去年11月推出的ChatGPT,是使用了第三代半的生成式預訓練變換模型(GPT-3.5)。踏入2023年的3月,更厲害的第四代(即GPT-4M)亦推出了。當然,隨著GPT的更新迭代,當中神經網絡運算模型的規模也成正比變得更大,並擁有更多的參數。例如2018年第一代的GPT發佈時,參數量只有1.17億;不到一年後的GPT-2,參數量翻了十多倍達15億。2020年5月推出的GPT-3,參數量再次驚人地遞增,達到1750億!據說GPT-4是高達100萬億。根據最近天才黑客喬治霍茲的訪問,透露GPT-4是由8個混合專家模型組成,每個專家模型都有2200億個參數;另有消息透露,GPT-4比GPT-3的規模大超過10倍,參數量達到1.8萬億。無論真實答案如何,可見模型在每次迭代都會帶來數量級增長的規模,當中同樣亦需要更大量的算力應付更複雜的運算。這些模型與其他深度學習一樣,都需要通過大量的數據進行預訓練;等於人類的大腦一樣,需要以大量的信息來訓練,才能獲得邏輯思考能力。在GPT-2時期,當時只需要40GB的訓練數據;但到了GPT-3,已需要40TB(即40,000GB)的訓練數據。至於數據訓練週期,據透露以GPT-4為例,整個訓練需要利用25,000個A100 GPU,訓練期接近100天。 這類以大模型為基礎的新一代人工智能最大價值,其實並非如ChatGPT那樣幫我們創建文本、圖像,而是使用到不同的行業內。例如在最近發佈的<<深圳市加快推動人工智能高質量發展高水平應用行動方案(2023-2024)>>當中,深圳市政府已編列了第一批26個「城市+AI」應用場景清單,在不同的公共服務、城市治理,甚至智慧醫療中、智能製造當中,充分利用新一代人工智能賦予的能力提高服務的質量與效率。當然要利用好人工智能,高質量的公共數據、行業數據是非常關鍵的要素。怎樣建立高質量、多模態的的公共數據集,在隱私、數據安全的技術加持下,推動與行業數據與企業數據的融通使用。從而建立城市級的人工智能生態環境,加速城市服務、行業服務的升級;最終惠及經濟發展、並為居民提供高質量的生活和公共行政服務。深圳市可說在這方面作為全國先鋒,全方位大膽創新的推動新一代人工智能應用。估計明年發佈的第二版,陸續會有更多城市應用場景被納入到名單內。