{eyou:include file='banner.htm'/}
內容審核有哪些方式?(淺析內容審核的3大方式)
2026-05-05 04:21:30
7175
[摘要] 天津九安特機電工程有限公司(www.hunqingrc.com)對于資訊類(lèi)產(chǎn)品和內容內產(chǎn)品來(lái)說(shuō),內容審核是必不可少的環(huán)節之一。借助人工智能的發(fā)展,可以讓機器替代一部分審核工作,但由于內容的復雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解

對于資訊類(lèi)產(chǎn)品和內容內(nei)產(chǎn)品來(lái)說(shuō),內容內容審核是審核式淺式必不可少的環(huán)節之一。借助人工智能的有方發(fā)展,可以讓機器替代一部分審核工作,析內但由于內容的容審復雜性,人工審核必不ヽ(′▽?zhuān)?ノ可少,大方而且??還有其他需要考慮的內容點(diǎn)。這篇文章,審核式淺??式作者為我們講解內容審核的有方方式與流程,希望能對你有所幫助。析內

何為內容審核?容審

簡(jiǎn)單來(lái)說(shuō)(shuo)就是:對用戶(hù)在(zai)社ˉ\_(ツ)_/ˉ交平臺上上傳、發(fā)布或共享的大方內容(文字,圖片,內容音頻,審??核式淺式視頻)進(jìn)(′?`)行審查。有方

其主要目的是對低質(zhì)庸俗的內容進(jìn)行?過(guò)濾篩選,從而生產(chǎn)高質(zhì)量的內容、防止降低用戶(hù)體驗、保持良好的內容調性。

而在這個(gè)過(guò)程中,平臺會(huì )對于內容有一個(gè)專(zhuān)ヽ(′▽?zhuān)?ノ業(yè)的標準作為參考,這個(gè)時(shí)候有一個(gè)很大的問(wèn)題就是人工篩選效率低,而且成本大。

所以很多內容平臺采用了算法進(jìn)行過(guò)濾,通過(guò)人工和算法的有效結合來(lái)提升效率。

“先發(fā)后審”:即用戶(hù)先發(fā)表UGC內容,再經(jīng)過(guò)審核;“先審后發(fā)”:即用??戶(hù)提交UGC內容后,先經(jīng)過(guò)審核,審核通過(guò)后才能發(fā)表上線(xiàn)。

“先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:

“先發(fā)后審”:適用于對發(fā)表內容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽(tīng)歌等場(chǎng)景下的用戶(hù)評論,此時(shí)用戶(hù)發(fā)表評論更多出于即興,因此從用戶(hù)(′?ω?`)的角度考慮,希望自己發(fā)表的評論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂(lè )評論?!跋葘徍蟀l(fā)”:適用于在社區、論壇、新聞平臺等場(chǎng)??景下發(fā)表文章、觀(guān)點(diǎn)、討論等,此時(shí)對于平臺方來(lái)說(shuō)需要對內容(rong)負責、并構建權威性(′?`*),因此通???常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。一、審核方式(′▽?zhuān)?

不管是什么內容的審核,都應該包含以下四個(gè)基礎模塊:機器審核、人工審核、用(╬ ò﹏ó)戶(hù)投訴審核( ?° ?? ?°)、結果復審。

1.ヾ(′▽?zhuān)?? 機器審核

是按照制定好的規則或機器學(xué)習算法對內容進(jìn)行審核.

通常,成熟的審核系統能??(neng)將95%甚至99%以??上的內容都自動(dòng)審核并做出處理。確定有問(wèn)題的會(huì )被自動(dòng)刪除,難以判斷是否有問(wèn)題的會(huì )被標注,進(jìn)入人工審核程序。

2. 人工審核

雖然用??戶(hù)投訴審核和結果復審大多時(shí)候也是人工審核,但這里所說(shuō)的人工審核,特指審核機器(qi)無(wú)法判別的內容,通常占平臺內容數量的比例不超過(guò)5%.

但對于一些大(da)型的內容平臺,絕對數量已經(jīng)很多了。在內容爆炸的時(shí)代,我們看到許多平臺在全國都有多個(gè)審核中心,每(mei)個(gè)審核中心的員工數量都成千甚至上萬(wàn)。

3. 用戶(hù)投訴審核

是前兩者的彌補,有很多違規內容以前沒(méi)有出現過(guò);所以不在規??則(ze)可(ke)以過(guò)濾的范圍內,或者非常隱蔽,規則難以嚴格過(guò)濾。

用戶(hù)的投訴是發(fā)現新問(wèn)題的重要渠道。通過(guò)知??乎的危機事件,我們更應該重視對投訴的審核,并及時(shí)據此對機(′▽?zhuān)?)器審核做出補充。

4. 結果復審

通常采取抽查方式,比如通過(guò)復審機器刪除的內容,看規則或算法是否過(guò)于嚴格;比如通過(guò)查看人工刪除和通過(guò)的內容,看員工的工作是否按要求執行;比如通過(guò)內容的整體巡查,看是否存在新的問(wèn)題未被注意到。

二、審核(°ロ°) !流程

具體流程,以下圖為例??:

先過(guò)機器審核,機器審核 通過(guò) 或 不通過(guò);對機器審核不通過(guò)的,再進(jìn)行人工復審;對(′_`)機器審核通過(guò)的,再進(jìn)行人工抽樣審核。三、審核??的四個(gè)維度(???)

這里一??般都是對四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶(hù)發(fā)布次數限制,重復內容過(guò)濾(°ロ°) !和白/黑名單??用戶(hù)。

1. 關(guān)鍵詞審核

詞語(yǔ)過(guò)濾的環(huán)節,關(guān)鍵詞主要分為(′ω`)三類(lèi):

1)禁止關(guān)鍵詞

只要匹配到這個(gè)詞,內容就被自動(dòng)刪除或禁止提交。通常只有極少數詞會(huì )被(bei)納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣??告??的專(zhuān)屬關(guān)鍵詞。

2)審核關(guān)鍵詞

這是最常見(jiàn)的關(guān)鍵詞種類(lèi),只要匹配ヽ(′ー`)ノ到就會(huì )自動(dòng)進(jìn)??入后臺進(jìn)行審核,文章中的關(guān)鍵詞會(huì )被高亮并羅列出來(lái),有助于審核人員快速判(°□°)斷。審核關(guān)鍵詞也應該盡量是專(zhuān)屬關(guān)鍵詞,以防止太多內容被攔截到后臺。

3)替換關(guān)鍵詞

在許多平臺,??我們會(huì )在文中看到莫名的號或字母縮寫(xiě)*,這可能不是文章作者寫(xiě)的,而(er)是這個(gè)詞被系統自動(dòng)替換。平臺不希望出現這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語(yǔ)類(lèi)詞語(yǔ),都有可能被自動(dòng)替換。

當然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺。否則用戶(hù)用(yong)很簡(jiǎn)單的方式就可以避過(guò)關(guān)鍵詞過(guò)濾,比如在關(guān)鍵詞內加一個(gè)空格,系統就難以匹配到。

所以,一般后臺都會(huì )支持限定符{ x} 以限??定相鄰兩字符間可忽略的文字,x 是忽略的字節??數。在Discuz!網(wǎng)站后臺有明確說(shuō)明,如 “a{ 1}s{ 2}s”(不(bu)含引號) 可以過(guò)濾 “ass” 也可過(guò)濾 “axsxs” 和 “axsxxs” 等等。

對于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當于 2 個(gè)字節;若使用ヽ(′▽?zhuān)?ノ UTF-8 版本,每個(gè)中文字符相當于 3 個(gè)字節。

另外,關(guān)鍵詞還可以支持正則表達式,來(lái)匹配ヽ(′?`)ノ具有一定模式的關(guān)鍵詞。比如”/1\d{ 10}([^\d]+|$)/”(不包括引號)用來(lái)匹配手機號碼。正則表達式的內容過(guò)多,大家有興趣可以搜索學(xué)習一下。

2. 用戶(hù)發(fā)布次數限制

主要限(xian)制(???)(zhi)一名用戶(hù)無(wú)限制地發(fā)送評論。

對這種情況可以設置同一用戶(hù)一分鐘內最多發(fā)送一條評論;一小時(shí)內最多發(fā)送10條評論,一天最多發(fā)送三十條評論??,評論次數如果超出時(shí)則彈出toast“發(fā)言太多(duo)累了吧,請休息下”的提示。

其實(shí)這個(gè)限制上線(xiàn)后,ヽ(′▽?zhuān)?ノ發(fā)現發(fā)廣告的人會(huì )不斷注冊新號來(lái)規避這個(gè)問(wèn)題,后續可以考慮再加上。新用戶(hù)需注冊多長(cháng)時(shí)間才可發(fā)??布評論,或需綁定手機號才可以發(fā)布評論這些嚴格的條件。

3. 重復內容過(guò)濾

這種一般都(′;д;`)是對于發(fā)廣告的。

對比時(shí)去掉除漢字外的任何符號,如(ru)“抖丶音”、“快aabb手”,對比時(shí)用“抖音”“快手”;將評論與同一用戶(hù)上條評論作對比,10個(gè)漢字以上的若與其中一條重復率達70%(20,60%;30,50%)則彈出toast“請不要??發(fā)布(′?`*)重復內容”;同時(shí)將評論僅與評論庫最近發(fā)布50條的評論作對比,20個(gè)漢字以上的??若與其中一條重復率達80%則機審失?。?0,70%??;50,60%);

在對比重復內容時(shí)一定(ding)要去掉一些無(wú)關(guān)的符號。因為很多小廣告喜歡加空格,逗號這些。他們也通常備用好幾條文案,可以將評論庫的拿出來(lái)對比;這樣也可以規避他們換號,換文案的問(wèn)題。

4. 白名單用戶(hù),黑名單用戶(hù)

白名單用戶(hù)、黑名單用戶(hù)需要有個(gè)可編輯的后臺,可隨時(shí)增減;若同一用戶(hù)一天內機審失敗的評論超過(guò)10,則自動(dòng)列入黑名單。

白名單的用戶(hù)不受發(fā)布次數限制,但內容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內發(fā)布的評論超過(guò)10條機審失??敗,也自動(dòng)列入黑名單。列在黑名單的用戶(hù)??發(fā)布評論時(shí),彈出toast“您暫時(shí)無(wú)法發(fā)布評ヽ(′ー`)ノ論”或機審直接失敗。

最后補充下,其實(shí)沒(méi)ˉ\_(ツ)_/ˉ有對IP進(jìn)行限制是因為在公共區域的wifi好像I(°ロ°) !P是一樣的,盡管非常希望處理掉垃圾評論這一問(wèn)題,但我還是希望在不影響到普通用戶(hù)的前提下。

以上基本是一個(gè)內容審核都需要了??解的點(diǎn)了。


推薦閱讀

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费 札达县| 铜山县| 南投县| 特克斯县| 平凉市| 天全县| 蛟河市| 仪陇县| 四子王旗| 北海市| 民丰县| 西丰县| 平顶山市| 商南县| 鹿泉市| 杨浦区| 郁南县| 班玛县| 文化| 鄂托克前旗| 耿马| 依兰县| 吉林市| 翼城县| 伊春市| 高平市| 紫云| 天祝| 荣成市| 武宁县| 东乌珠穆沁旗| 如皋市| 综艺| 章丘市| 丹东市| 岐山县| 海口市| 闽侯县| 务川| 赣州市| 罗平县| http://444 http://444 http://444 http://444 http://444 http://444