這年頭凡是寫過部落格的,有點名氣後,都不得不面對「盜文」這個問題。
盜文,就是把文章複製貼上,放到其他網站的行為。竊取他人成果,並給自己帶來流量,並搭配廣告收益來賺大錢。
為什麼我會發現文章盜文問題?其實我偶爾會去看Google Search Console的後台,看最新的推薦連結。幾個月看下來,我看到了許多一眼內容農場的網站,有些甚至全文抄襲了。所以讓我重視此事。
在談防止盜文對策之前,我想解釋一下內容農場,聲明自己網站文章的版權問題,再談對策。
先說何謂內容農場及其變體#
本文提及的盜文手法有二種,除了自古以來就有的手動複製貼上「抄襲」,現在內容農場(content farm)自動盜文是更常見的手法。因為網路資訊混雜,所以二種手法我會混著講。
盜文已經從手工複製貼上,演變成機器批量盜取內容了。內容農場維基百科已有詳細定義,下面這段包含我自己幾年來的原創研究。
2010年後興起的內容農場,可能會僱用一批低級寫手,東拼西湊一些低品質文章佐以聳動標題,然後放到社群媒體騙點擊量。這種內容農場就好比八卦小報,他們起碼還是有請人寫東西的。只是,後來網頁爬蟲(web crawler)興起,內容農場都不用自己找人寫了,爬蟲簡單一摳,一篇篇幾可亂真的文章就出來了。這些內容農場還會假冒是用戶自主投稿的,加上作者、留言欄位,好不聰明!風行一時的內容農場以「每日頭條」、「壹讀」、「台部落」為主,他們靠盜取來的內容+Google Adsense就賺麻了。內容農場在Google搜尋靠前的一部分原因是,他們爬取中國牆內不給搜尋引擎爬的訊息,從而在部份冷門領域獲得高流量的位置。
內容農場性質跟「Yahoo奇摩新聞」、「MSN新聞」是不一樣的!內容農場基本上就是完全無視版權,直接盜取文章。
2020年來以來另一種內容農場的變體是「資訊聚合」,又稱採集站、垃圾站,Reddit有人稱為"Automated Content Stealing Sites"、“Content Scraper”。只擷取文章關鍵字,盜取後將其融合的完全不成人形,利用黑帽SEO取得搜尋引擎靠前的位置,例如「XX懶人包」、「XX在PTT/Mobile01的評價與資訊」。這類網站以台灣的居多。他們偽裝成幫你查公司行號、藥局資訊的網站,實則是內容農場的變體。
2022年開始,資訊聚合型的內容農場變本加利,盜取的內容點進去是直接跳轉到詐騙連結。並且他們會大量註冊一堆網域幹一樣的事,連網站圖示都懶得換,下面我會提供例子。
最近AI文字生成的技術逐漸成熟,我覺得未來內容農場會更加進化。
即使Google在 2022年調整過搜尋演算法,似乎已將許多內容農場的垃圾結果往後排了,我還是擔心盜文帶來的問題。
創用CC授權不是公眾領域#
我並沒有給部落格的文章設定很嚴格的版權限制,而要到處檢舉無斷轉載人士的地步,因為想仿效類似自由軟體的原則來與人分享。
但是本部落格使用的「姓名標示-非商業性-禁止改作 4.0 國際 (CC BY-NC-ND 4.0)」的條款寫得很清楚:
你可自由: 分享 — 以任何媒介或格式重製及散布本素材 惟需遵照下列條件: 姓名標示 — 你必須給予 適當表彰、提供指向本授權條款的連結,以及 指出(本作品的原始版本)是否已被變更 你可以任何合理方式為前述表彰,但不得以任何方式暗示授權人為你或你的使用方式背書。 非商業性 — 你不得將本素材進行商業目的之使用。 禁止改作 — 若你重混、轉換本素材,或依本素材建立新素材,則你不得散布改作後的素材。
之所以選擇此授權條款,是因為原本Hugo MemE主題模板預設的「姓名標示-相同方式分享4.0」我覺得還不夠保護權利,便參考 中科院 研之有物的作法,選取了「姓名標示-非商業性-禁止改作」條款。禁止改作不代表不能引用。
授權條款擺在網頁底部似乎很多人不會去看,因此即日起我改在文末放授權條款。
如果引用本部落格的文章的人士還有點良心的話(假設對方是人工複製,而非機器爬取),至少要註明原文網址還有作者。我不是很喜歡國家著作權法的保護,但又沒有說我的文章完全不能轉載和引用。
而且寫文章不可以全文抄襲,大學難道都沒教嗎?
我在意的不是錢,是人有無良知。
部落客要「完全」寫出原創內容是很難的,畢卡索都說高明的人懂得偷竊藝術讓人看不出來,參考別人的文章下去撰文是不可避免的。就學術角度來看,引用他人的資料作為文章佐證並不是什麼可恥的、降低個人威信的事情,明確寫出參考資料亦是在肯定他人的貢獻。除非,你真的只是在複述別人的話,而無自己新的體會。當搬運工,不是我愛幹的事情。
觀察到的盜文行為#
台灣對面的中國,有很多厲害的人在生產高品質內容,卻也有人在做盜竊他人成果的勾當。
最早看到的盜文行為,就是把我的文章標題盜過去,然後放個連結,在中轉頁面順便賣京東廣告商品。
德性一點下限都沒有…也不一定是中國人啦,本部落格英文網站的頁面也是有被英文內容農場盜走。
以檢查網址安全的名義,順便在中間插廣告,這也是某些論壇(例如Mobile01)和部落客(例如雲爸的3C學園)會採取的作法,我感到很不齒。
我想是因為剛好寫到很熱門主題的緣故,所以妖魔鬼怪都來了,很多文章都「榮幸」的被常見的中文資訊聚合站收錄了呢,例如這個「XX網紅評價」、「XX情報」的農場。這也代表這方面主題真的很熱門才會被收錄。
再看看這些多重影分身的資訊聚合站
最近看到的是這個,蠻有趣的,正體字轉成簡體字,只改一點內容就整篇複製過去,也沒附上參考連結。以前我翻譯外國寫的軍武文章的時候起碼還會放在參考資料。
手動複製貼上修改文章呀…在我留言請求標注文章來源後,那篇文章就整篇重寫了,還收到了道歉。這倒是挺令人意外,我要感謝對方的誠意。
這讓我想到有一個叫「3楼猫」的農場是專門爬巴哈姆特的文章,術業有專攻嘛。
如果盜文沒好處,沒人會繼續這樣幹的。盜文換取SEO的直接好處當然就是藉他人的內容營利呀,搞不好還能用資訊差賺錢。這是很不道德的行為,眾人可擊鼓而攻之。可是嘛,跟某些道德窪地的人說這些有什麼用,台北盆地也是窪地!
放任盜文網站不管,最慘的情況就是我的網站排名跑到後面,第一名是盜文網站這樣。
盜文對策#
技術層面防範#
用JavaScript禁止複製文章已經不夠了,這種只能擋人工的,對機器爬蟲無效。根本方法是加入機器人驗證、拒絕可疑的連線請求等等。
但是靜態網站做不到。我的網站目前是託管在Netlify的,沒有阻擋連線的功能,連線保護與流量控管都是Netlify的事情。除非未來我更換主機並變更網站架構成Wordpress那種,才有可能阻擋惡意爬蟲存取,例如加入機器人驗證這樣的措施。
另外一種方法是在文章的body段落插入版權宣言,將其變成文章正文的一部分,就像這樣。
觀察幾天後,果然有盜文網站上鉤了。它雖然整篇爬走,但是也一併把版權宣言給放進去了www 我覺得應該把辱華炸彈(見下)的神秘數字跟版權宣言放在一起。
辱華水印#
又稱辱支炸彈、趙彈磁鐵。
假設對方是手動複製貼上,或者用機器爬取,並且把網站架在中國(看網站底部有無網站備案,或者沒被牆),那麼我覺得加這個應該就能嚇退一票人了。最好用隱形的HTML元素藏在網頁中間。
习近平 精甚帝 习禁评 习维尼一尊 刁近平 刁斤干 习泽东 梁家河 刃近平 勾迈伞 通商宽衣帝 萨格尔王 习包子 庆丰帝 十里山路不换肩 扛麦郎 独彩者 总加速师 习壳郎 翠翠 小学博士 满脸喷粪 清零宗 共匪 动态网自由门 天安门 天安门 法轮功 李洪志 Free Tibet 六四天安门事件 The Tiananmen Square protests of 1989 天安门大屠杀 The Tiananmen Square Massacre 反右派斗争 The Anti-Rightist Struggle 大跃进政策 The Great Leap Forward 文化大革命 The Great Proletarian Cultural Revolution 人权 Human Rights 民运 Democratization 自由 Freedom 独立 Independence 多党制 Multi-party system 台湾 台湾 Taiwan Formosa 中华民国 Republic of China 西藏 土伯特 唐古特 Tibet 达赖喇嘛 Dalai Lama 法轮功 Falun Dafa 新疆维吾尔自治区 The Xinjiang Uyghur Autonomous Region 诺贝尔和平奖 Nobel Peace Prize 刘暁波 Liu Xiaobo 民主 言论 思想 反共 反革命 抗议 运动 骚乱 暴乱 骚扰 扰乱 抗暴 平反 维权 示威游行 李洪志 法轮大法 大法弟子 强制断种 强制堕胎 民族净化 人体实验 肃清 胡耀邦 赵紫阳 魏京生 王丹 还政于民 和平演变 激流中国 北京之春 大纪元时报 九评论共产党 独裁 专制 压制 统一 监视 镇压 迫害 侵略 掠夺 破坏 拷问 屠杀 活摘器官 诱拐 买卖人口 游进 走私 毒品 卖淫 春画 赌博 六合彩 天安门 天安门 法轮功 李洪志 Winnie the Pooh 刘晓波动态网 自由门
這招威力強大,亦可能讓網站域名馬上被貴支的防火牆屏蔽。且隱藏文字也可能違反Google的SEO政策。
以前搞垃圾站的以中國人居多,知乎甚至有人明目張膽的討論做採集站好不好賺。結果近年來台灣也有人做一樣的事了。
他們也不可能笨到把主機架在被共匪高度管制的牆內,像每日頭條這種的還會故意禁止中國IP存取呢。所以辱華水印對牆外的農場網站無效。
向Google檢舉#
這個是向對方網站要求自主下架盜文不成才採取的辦法。
Google有詳細解釋垃圾內容的處理機制: 檢舉垃圾內容、付費連結或惡意軟體,裡面有提到何為垃圾內容,例如「剪輯」:
針對被盜的文章,我們只要點選「檢舉垃圾內容」,附上盜文網址,理由寫侵犯我的版權就可以了,讓Google處理。詳細流程可以參考:Dr. Dean 【必學】部落格文章被抄襲怎麼辦?教你防範與對付抄襲者。
為什麼我覺得此方法仍不夠好。
若對方網站不是論壇,沒人能投訴,而是機器成批成批的盜,則根本檢舉不完。
要我每天盯著搜尋結果出現哪些盜文網站是蠻累人的事情,且世界又不是只有Google一家搜尋引擎,萬一Bing也要檢舉一波呢?
但是,有檢舉還是有差,定期巡一下網路輿情,發現搜尋排名真被搶走後再檢舉即可。
開吉#
請律師,提告侵害著作權。
網路抄襲行為要告的話,除非對方是有頭有臉的公司才找得到對象告。但通常公司都會有申訴機制可以要求對方下架,也不用到告人的地步。
可是以我自己的情況來說,文章採用CC授權很難告得成吧…而且內容農場又不太可能人在台灣,所以我覺得不如向搜尋引擎檢舉有效。
就不處理了,睡大覺#
要盜就隨便你好了,如果把我加水印的圖也盜走,就當是幫我免費宣傳。可是這樣不就代表未來每篇文章都至少要有一張圖加上水印…我不愛幹這種事情,水印是要整張蓋板嗎,很醜ㄟ?這是個值得考慮的方案。
讓市場機制決定一切,只會盜文的網站遲早會被Google的演算法處理掉,降低排名之類的。
然而這無法阻止那些網站以此營利。