NDark's Knowledge Pool: OpenAI：紐約時報僱用駭客攻擊我

作者: jackliao1990 (j) 看板: Tech_Job
標題: [新聞] OpenAI：紐約時報僱用駭客攻擊我
時間: Wed Feb 28 15:10:56 2024

https://www.qbitai.com/2024/02/124120.html

夢晨發自凹非寺

堂堂AI巨頭，怎麼就被一家報紙僱用駭客攻擊了？

《紐約時報》訴OpenAI侵犯版權索賠數十億美元案最新進展：

在最新提交的法庭文件中，OpenAI聲稱《紐約時報》花錢找駭

客攻擊ChatGPT，人為製造
侵權結果。

使用欺騙性手段進行數萬次嘗試，才得到高度異常結果。

這項訴訟要是輸了，對OpenAI來說可能是毀滅性打擊。

數十億美元罰款都是小事了，根據法律界的分析，連ChatGPT都可能被迫全部擦除，重頭
開始訓練。

大家都知道，美國法律要遵守先前判例的原則。

在過去幾十年的科技公司vs版權方的案子中，法院可不總是站在科技公司這邊。

這次OpenAI主張《紐約時報》僱用駭客，真的非常關鍵了。
紐約時報如何攻擊ChatGPT

去年12月，《紐約時報》起訴OpenAI和他的微軟爸爸，表示ChatGPT和Copilot都未經許可
利用其內容訓練。

當時，《紐約時報》展示了足足 100個GPT-4一字不落背出真實報道段落的例子。

這樣一來，ChatGPT就可以算是報紙的競爭品。

OpenAI這邊，辯稱這是一個漏洞，並承諾已經在修復。

具體來說，當AI產生與訓練資料非常相似的樣本時，可能發生「資料回流」（
regurgitation of training data），類似於人類聽到上句就會條件反射般的接下句，誰
也攔不住。

他們認為《紐約時報》利用這個漏洞，使用特殊的提示詞要求ChatGPT輸出特定文章的開
頭，並繼續要求輸出下一句話。

OpenAI預計需要反覆嘗試上萬次才能產生這些整篇的文章，而且還不是按順序的，而是
「分散和無序的引用」。

正常人不可能這麼使用ChatGPT，也不會把它當成《紐約時報》的替代品。

OpenAI指責《紐約時報》故意誤導法庭，「使用省略號來掩蓋」ChatGPT吐出報道片段的
順序，造成了「ChatGPT產生了文章的連續和不間斷片段的錯誤印象」。

而《紐約時報》從來沒有披露過他們產生這些證據的具體提示詞，以及是否修改了系統提
示詞等等細節，就挺心虛的。

至於提示詞攻擊算不算駭客行為，有網友表示怎麼不算，如果認可提示詞工程真的算一種
工程，那提示詞攻擊就算攻擊。

現在OpenAI主要從兩個地方反擊：

一是主張這種提示詞攻擊公然違反了OpenAI的產品使用條款。

二是主張網路上公開內容是可以合理使用的。

這就要抱緊谷歌大腿了，20年前谷歌整了個大活，掃描數百萬本圖書放到搜尋引擎上，被
一堆出版商和作家協會給告了。

官司反反覆復打了10多年，最後谷歌艱難的贏了，被判這些數據是合理使用。

當時裁決認為用戶只能看到圖書的簡短片段，永遠無法從受版權保護的書籍中恢復較長的
段落。

谷歌製作書籍的數位副本以提供搜尋功能是一種變革性的使用，它透過提供有關原告
書籍的資訊來增加公眾知識，而不向公眾提供書籍的實質替代品。

不光OpenAI，同樣面臨版權訴訟的Stability AI等AI影像生成公司，都在堅持他們做的事
與Google當年一樣：

都是「學習訓練資料中關於作品的訊息，但不複製作品本身的創意表達」。

然鵝還有一個有爭議的地方，AIGC產品確實會產生創意的作品，與接受訓練的作品直接競
爭。

所以這一批AI公司面臨的危機，比Google當年面臨危機還要大一些。
再不賣數據就太晚了

實際上，像《紐約時報》這樣和AI鬧得不愉快的內容公司是少數。

更多網路公司都在爭先恐後出售自己的數據，反正這些AI公司又不是沒錢。

Sora視頻，就被找出明顯有OpenAI合作夥伴 Shutterstock 素材的影子。

上週，「美國貼吧」 Reddit 剛跟Google簽了協議，6千萬美元一年，讓Google可以即時
取得論壇資料用於AI訓練。

OpenAI這邊肯定早就用上了，畢竟山姆奧特曼本人就和Reddit公司關係匪淺，而且早年比
GPT-1還早的原型研究，就是在Reddit數據上訓練聊天機器人。

現在 Tumblr 和 WordPress 也趕緊跟進，把用戶資料賣給OpenAI和Midjourney。

雖然他們的用戶聽到這個消息都挺不高興的，但是沒辦法，當初註冊帳號的時候可是必須
同意使用條款，其中把數據歸屬早就安排明白了。

當然AI公司買過來這些數據也不是直接塞AI嘴裡就好使的，學術界現在也研究如何有效率
地運用。

剛剛還有語言模型訓練的資料選擇綜述出爐，提出用於比較和對比不同的資料選擇方法
的框架，也倡議：

加速資料選擇研究，如開發直接評估資料品質的指標，減少對昂貴模型訓練的依賴。
更好地理解資料分佈的特性，以便更精確地選擇資料。
將計算時間從模型訓練轉移到資料處理。

隨著AI生成的內容在網路上鋪開，後面再訓練大模型的都繞不開使用AI生成的數據了，就
說多少家大模型「承認」過自己是OpenAI訓練的了吧。

同樣中文資料也繞不開文心一言，GoogleGemini都鬧過笑話（已修復）。

坐擁大量人類古法手打數據的網路公司，再不抓緊賣，AI就能自給自足了。

參考連結：
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf
[2]https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/
[3]https://arxiv.org/abs/2402.16827

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.38.34.166 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1709104259.A.B29.html
[1;31m噓 [33mjustdoit [m [33m: 現在是扯到AI,就可以貼來tech_job嗎? [m 02/28 15:57

NDark's Knowledge Pool

2024年6月21日星期五

OpenAI：紐約時報僱用駭客攻擊我

沒有留言:

張貼留言

2024年6月21日 星期五

OpenAI：紐約時報僱用駭客攻擊我

沒有留言:

張貼留言

2024年6月21日星期五