Vissza a Journal-hoz
communityhu

Moderacio: AI-first, emberi vegszo

Spam + policy + tone classifier sub-500ms, auto-allow >0.85, auto-flag <0.6, human-queue kozotte. Cel: 92% auto, 8% human, 0 false-allow.

A moderacios architektura az egyik legnehezebb resze egy B2B community-platformnak. Egyreszt nem akarunk minden posztot manualisan atnezni (nem skalazodik). Masreszt nem akarunk LLM-ot egyedul donteni hagyni egy szerzodeses ugyfel-csatornan. A kompromisszum, amit kialakitottunk: AI-first, emberi vegszo.

Pre-publish a moderacios pipeline

Mielott egy posz vagy komment public-ka valik, harom classifier fut rajta:

  1. Spam classifier (~sub-100ms). Egy konnyu sulyu fastText-modell mukodik a egyertelmu spam-mintakon: linkek ismeretlen domainekre, repetitiv content, copy-paste detection mas threadekrol.

  2. Policy-violation classifier (~sub-200ms). Egy nehezebb fine-tuned transformer, amelyik a community-szabalyzatra van betanitva: bantalmazo nyelv, kompetitor-vendor-rolt iratlan kommentek, customer-data-leak (telefonszam, email, IBAN-pattern matching).

  3. Tone check (~200ms). Egy zero-shot classifier amelyik a poszt hangulatat ellenrzi: szelsosegesen erzelmi, sertodott, paszivagresszviv stilus. Nem mindig blokkolas; gyakran csak a poszternek visszajelez ("biztosan publish-olod ezt az atomatikus tone-emelo nelkul?").

A harom classifier paralelben fut a publish-button-press utan. A teljes idleness <500ms, igy a UX szempontjabol latensnel kep nem latszik.

A confidence-thresholdek

Klasszifikator-output egy 0-1 kozotti confidence-score. A dontes-mintak:

  • >0.85 confidence: auto-allow (a poszt azonnal publish-olodik), de a log-fileban kategorizalva (a kesobbi human-audit-hez).
  • <0.6 confidence: auto-flag (a poszt elrejtve marad, csak a poszter latja "under review" jelolessel), automatikus human-queue.
  • 0.6-0.85 kozott: human-queue, de a poszt kozben ideiglenesen publish-olodik. Ha a human-moderator 4 oran belul reject-ol, a posztot eltavolitjuk; ha approve-ol, semmi tovabb nem tortenik.

Az utolso minta ("publish-while-reviewing") szandekos: a 0.6-0.85 zona valoszinusege alacsony hogy szabalysertest jelol, es a 4 ora valoszinusen kevesbe romboltato mint az osszes ilyen poszt 4-oras visszatartasa.

Az elso honap celszama

A launch utan elso honapban a celunk:

  • 92% auto-decisions. A posztok 92%-anak nem kell human-decision (mindkat oldalra: auto-allow >0.85 + auto-flag <0.6).
  • 8% human-queue. A maradek 8% mas a 0.6-0.85 zonaban van, ahol a human-moderator dontheti el.
  • 0 false-allow. Egy policy-violation poszt sem mehet at auto-allow-on. Ez a legfontosabb metrika; egy elszalad incident jobban arttalmazhat egy 80-fos design-partner kapcsolatunknak, mint amennyi munkat sparolunk a auto-decisions-on.

Ha a false-allow-szam novekszik (akar 1 esetre), azonnal csokkentjuk az auto-allow-thresholdot 0.85-rol 0.9-re, es kovetkez0 retraining-ig minden 0.85-0.9 zonaba esot human-queue-ra kuldunk.

Az egy dolog, amit nem hisszuk az AI-ra

Jogi vagy szabalyozasi referenciak mindig human-review. Ha egy poszt vagy KB-cikk hivatkozik egy jogszabalyra (NAV-szabaly, GDPR, ESPD/EUSPI palyazati eljaras), az automatikusan human-review-ba megy, fuggetlenul a confidence-tol.

Ket ok: (a) a jogi szovegek pontossaga kritikus, es egy LLM hallucinacio (kitalalt paragrafus-szam, valodi de revoked szabaly idezese) az olvaso szamara legitim referenciakent erkezik. (b) a tenant-szerzodesben kiadott jogi disclaimerek megnehezitik a vendor-felelosseget, ha hibas jogi tanacs megy ki egy mi-platformunkrol, fuggetlenul attol hogy a poszter peer-user volt.

Ezert a poszt-textben egy egyszerul keyword-detector keresi a NAV §, GDPR cikk, Tvr., Korm. r., Tt., stb. mintakat, es ha talal, a poszt egyenesen a human-queue-ba megy, fuggetlenul a tobbi classifier-tol.

A post-publish moderacios reteg

Az auto-allow-on athaladt posztok sem teljesen visszahatatlanok. Egy peer-felhasznalo barmikor jelentheti a posztot egy "Report"-gombbal (rendszertelen viselkedes, off-topic, esetleg policy-violation amit a classifier kihagyott). A report-bejovetelek egy kulon report-queue-ba mennek, es 24 oran belul human-review-ra kerulnek.

Fontos: a report nem hide-olja azonnal a posztot. A B2B audience-en a report-funkciot lehet "velemeny-killer"-kent visszafele hasznalni ("nem ertek vele egyet, hat reportolom"), igy a default behavior nem a poszt-elrejtes. Csak ha a human-moderator confirm-olja a violation-t, akkor torlodik vagy editaldik a poszt.

A report-trail audit-log-ba megy: ki, mikor, mit jelentett, es mi lett a kimenet. Ez nem hashed - a vendor-szemszogbol az osszes report-tortenet egy adat-trail amit egy potencialis vita-eseten elo lehet veni.

A modeling-budget es a costs

A harom classifier futasi koltsege nem trivialis nagyobb volume-nal. Egy ~10,000 napi poszt-szamu tenant-csoport-on a heti tritetszek koltsege kb. €40-50 a self-hosted classifier-infrastrukturan (egy small GPU node, ami a Netorigo platform-on mar amugy is fut a chat-agent miatt). Egy external moderation-szolgaltatas (pl. Hive Moderation) ugyanezt €400-500-bol adta volna - 10x.