Hvordan fjerne dugehulling fra klassifiseringsprosessen - Brutalk

Hvordan fjerne dugehulling fra klassifiseringsprosessen - Brutalk

Hvis det er en enkelt oppgave som best representerer NLP-problemer (Natural Language Processing), er det dokumentklassifisering. Generasjoner av NLP-teknikker ble først testet på dette problemet, inkludert enkle algoritmer (f.eks. Bayes-klassifiserere og K-nærmeste nabo), maskinlæring, nevrale nettverk og nylige avanserte dyplæringsmodeller. I dag er det fortsatt et testfelt for de fleste AI-forslag. I et nøtteskall består dokumentklassifiseringsproblemet (eller kategorisering) av å tilordne en eller flere "etiketter" til dokumenter, avhengig av innholdet (eller annen informasjon). Disse etikettene tilhører et forhåndsdefinert sett med kategorier, vist som en liste eller en treformet struktur (kjent som en taksonomi), eller generelt et klassifiseringsskjema. Etikettene kan deles inn i et hvilket som helst antall kategorier, inkludert: Emne Dokumenttype Sjanger Industri Geografisk informasjon Følelser Å tilordne etiketter til dokumenter tjener mange formål. Vanlige bruksområder inkluderer: Rute innkommende dokumenter, fra enkle spamfiltre til komplekse dokumentarbeidsflyter; Lagring av rik informasjon i dokumenter, slik at den blir tilgjengelig for søke- og analysemotorer; Utnytte identifisert informasjon og gjenbruk eller videreselge den som kunnskap; Identifisere språk, kilde eller sjanger til et dokument; Vurdering av lesbarhet og følelse; Triaging artikler for å identifisere relevante. Kunsten om kunnskapsmodellering Et grunnleggende, men lite kjent aspekt av taksonomier, er at de nesten alltid er vilkårlige. Det som kan synes å være en standardisert liste over kategorier, vil sannsynligvis variere fra en organisasjon til en annen basert på deres prioriteringer og synspunkt. Klassifiseringsordninger er således drevet av forretningsformål. Utfordringen med kategorier er at de ofte er inkonsekvente, overlapper hverandre eller ikke dekker et helt inngangsområde. Dette fører til dokumenter som tilhører et hvilket som helst antall kategorier. Som sådan trenger ikke ordninger å være homogene. Snarere kan du velge bestemte kategorier for emner og andre for dokumenttype når de stemmer overens med dine forretningsformål. Det er mange måter å løse dette problemet på. For enkle saker med noen veldefinerte og forskjellige kategorier, trenger du bare merkede dokumenter som er tilgjengelige for bruk som et treningssett. Det betyr flere eksempler som du allerede kjenner til det forventede resultatet (dvs. forhåndsmerkede dokumenter som er opprettet manuelt eller fra historiske data). Noen ganger er det lett å få tak i dem; mindre i andre tilfeller, ofte på grunn av kostnader. Når du har flere kategorier (eller når de overlapper betydelig), er mer volum og høyere kvalitetsdata avgjørende for treningssettet. Også når kategoritreet er veldig dypt (dvs. det er mange avhengigheter eller små nyanser blant kategorier), må eksemplene dine være enda mer presise. Dette kan bli et stort problem når du kommer til et punkt der du ikke kan samle nok detaljer i opplæringssettet til å dekke alle formuleringene og sakene - enten fordi de ikke eksisterer eller er for dyre å skaffe. Læring fra kunnskap I stedet for Data Brutalk-teknologi bruker proprietære komponenter som implementerer en overvåket læringsstrategi med tilpassede maskinlæringsalgoritmer. All modellopplæringen utføres av sterk NLU-analyse som i hovedsak løser funksjonsingeniørproblemet. Dette betyr at vi ikke bare mater modellteksten, men heller forståelsen fra eksperten. Kjernen. Derfra utnytter læringsalgoritmen sin kunnskap for å generalisere modellen. På den måten gjør den modellen kraftigere, slik at den effektivt kan forstå verdien i usynlige dokumenter, i motsetning til en standard læringsalgoritme. For eksempel kunne vi forstå en kategori som kan relateres til staten New York når mange byer og byer i New York er nevnt i opplæringssettet. Deretter kunne vi vellykket identifisere dokumenter om Hudson River, til tross for at det ikke ble nevnt noe i de merkede dataene. Ved første øyekast fungerer dette som de fleste andre modeller. Du starter med et merket dokumentsett, trener systemet, tester det og bruker det. Hovedforskjellen her er at denne modellen ikke er bygget i en svart boks der modellen ikke kan lese og må trenes kontinuerlig. Denne modellen skriver sine egne generelle kognitive regler, akkurat som et menneske ville gjort med våre utviklingsverktøy. Dette skaper en fullstendig forklarbar AI-arbeidsflyt, ettersom resultatene er representative for menneskelig analyse og kvalitetskontroll. Som et resultat kan vi raskt og automatisk trene, teste og potensielt bringe systemer til produksjon med en hurtigutviklingsmodell - alt mens vi grundig tester og foredler reglene manuelt for optimal kvalitet. Det beste fra begge verdener Vi kan omskole oss som alle andre statistiske modeller, men alternativet for manuell innstilling tilbyr enestående kvalitetskontroll - omtrent som en symbolsk metode. Dette gjør at vi kan løse feil og forbedre kvaliteten uten å stole på tilgjengeligheten av treningssett. På den annen side utnytter statistiske modeller en CPU for trening og tåler en lang, kompleks og usikker finjusteringsprosess. Symbolske metoder tar tid foran seg for å samle kunnskap og etablere koderegler, men de gir kraftigere og mer effektiv innstilling. Hele systemet er fullt integrert i den kognitive prosjektets livssyklus i expert.ai-plattformen, hvor du kan utføre felles testing og utvikling, regresjonskontroller, forbedringer og utvidelser. Brutalk-plattformen er en enkel gevinst for de fleste komplekse AI-problemer. Vi kan sette i gang en klassifikator som en statistisk modell, samtidig som vi opprettholder den overlegne kvaliteten på symbolske modeller. Dette har gjort det mulig for Brutalk å implementere utallige NLU-baserte dokumentklassifiseringsmodeller for organisasjoner over hele verden. Er du klar til å bygge din egen?

Du kan også være interessert