快轉到主要內容

講講Reddit的自動中文翻譯功能,Google搜尋遍地都是翻譯後的貼文

· 民國114年乙巳年
·
切換繁體/簡體
分類 人文藝術 隨筆
標籤 Reddit Google Search
目錄

PSA:2025年,美國最大的社群論壇網站Reddit開啟了貼文自動翻譯功能,透過AI翻譯後的英文內容,幾乎能夠以假亂真,以為是台灣用戶在上面發文。

該死的巴別塔計畫
#

FYI:過去,Reddit大部分貼文的語言都是英文的,只有非常少部份中文社區。根據我有限的見識,除了理中客聚集地r/China_irl、支黑俱樂部r/KanagawaWave、平安喜樂r/AsiaTripper這類社區之外,幾乎都是英文的內容。

現在自動翻譯開起來之後,隨便google一個在台灣很冷門的題目,就很容易找到翻譯後的Reddit文章。然後,要搜尋Reddit上的真正中文社區就很困難了。

142f2596-8e8e-4e4d-974f-5089f5931daa.webp

Reddit手機APP很久以前就有自動翻譯功能,不過僅限使用者手動開啟才會啟用。

2024年,Reddit將使用者資料賣給AI公司訓練之後,疑似獲得了更加強大的語言模型助陣,讓他們能夠產出更好的翻譯文本,行文非常接地氣。

現在Reddit親自下場擾民:各sub的post會自動翻譯為各國語言,並出現在Google搜尋結果。有人在r/ModSupport詢問,基本上證實了自動翻譯機制的存在。

但是!Reddit站內搜尋到的文章依然都是保持英文的結果。

這搞得好像Reddit上的中文貼文多起來的假象。

下圖的貼文全部都是自動翻譯過的內容,原始語言都是英文喔!

1a586680-6e55-44ba-9ba9-27e9bd58d765.webp

Reddit甚至連sub說明都會一起翻譯!

我個人覺得這真的很惱人,以前這是內容農場網站在幹的事情。有些英語或西語新聞網站會機器翻譯為中文,污染搜尋結果。每次搜尋Linux資料,除了CSDN的低品質內容之外,就是這些邊角料讓人糟心。

我到Reddit就是要看英文資料的,現在一不小心就會跑出其他語言翻譯後的內容。可能是英文翻譯為中文,或是中文翻譯為日文!

Reddit站方現在很明顯是故意讓Google bot索引這些翻譯後的文章的。陌生的使用者一不小心就會誤解原始貼文的語言,然後直接回覆。例如下圖的例子:

5e9aab23-1296-46f2-ba27-856c1c42a52d.webp

翻譯後的貼文,上方只有一小個「See Original Post」的按鈕,非常容易誤導人呀!我不想看到這種虛假的鄉民語言!

我覺得Reddit啟用AI翻譯之後的好處,大概就是終於實裝了中文界面。Reddit公司長久以來似乎都沒有關注歐美市場以外的用戶,現在起碼國際化一些了。

在Google搜尋過濾翻譯後的Reddit貼文
#

Reddit翻譯機制是在貼文網址結尾加上?tl=語言代碼。在造訪特定sub的時候也有效,例如https://www.reddit.com/r/changemyview/?tl=zh-hant

所以應該可以寫個網頁規則過濾掉。譬如搜尋時候關鍵字加上"-tl="過濾。

使用uBlock Origin或者uBlacklist擴充功能,加入以下過濾規則:

/.*reddit\.com.*\?tl=[a-z]{1,3}/

參考: How to stop auto-translated Reddit results on Google ?

這樣搜尋的時候,翻譯後的貼文就不會出現了。

但是,真香
#

雖然一開始我很反對Reddit這種作法,可是後來幾個月後,真香。在Google搜尋結果看到中文翻譯的貼文不會那麼反感了。

Reddit後來改版了按鈕,顯示更大的「Translations active Show original」,讓人知道這是翻譯後的貼文。

ff6e8b89-1ab0-4316-b5de-c3071d83918e.webp
先說,技術類的文章還是不準確,用詞會誤導人。

不過如果是一般閒話家常的話題,翻譯成中文就很有殺傷力了!

Reddit可以提供許多中文圈缺乏的歐美在地情報,不用經過「XX翻譯家」轉傳二手資訊。

37684781-c0c3-4a5e-b5b2-f07738eaf474.webp

既然語言不再是問題,台灣那些以翻譯Reddit爆文維生的meme粉專(會在盜來的圖片上加上xxx翻譯的)可以收一收了。人們透過自動翻譯就能接觸到Reddit上的第一手訊息,不必依賴翻譯人士的篩選,多一層神秘濾鏡。

然後在語言模型加持下,他們說話的語氣就跟台灣鄉民一模一樣!感覺很親切。它把英語sub變成好像是台灣PTT鄉民在講話一樣自然,連「靠北」「母湯」都會出現,難以想像他們到底蒐羅了多少語料庫。

目前最大的問題是,Reddit的自動翻譯搞不清楚台灣繁體中文和香港繁體中文的差別,導致常常會出現書面語與粵語夾雜的情況。

9a319c1e-e4b1-4ae1-b8e9-7c244a0cea49.webp

搜尋繁體結果彈出粵語,看上去更惱人了。

我覺得各sub的Mod應該要可以選擇是否開啟自動翻譯的。例如r/China_irl和r/KanagawaWave應該將這個功能關閉了,免得一些政治不正確反人類的用語被超管注意到吧www

相關文章


此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。

(留言板載入中)這是Giscus留言板,需要Github帳號才能留言。支援Markdown語法,若要上傳圖片請善用外部圖床。您的留言會在Github Discussions向所有人公開。

Click here to edit your comments.

(留言板載入中)這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用外部圖床網站。