Hvordan Google BERT vs. Smith algoritmer arbejder sammen - Semalt oversigt




Google frigiver for nylig en researchpapir om deres nye NLP-algoritme SMITH. Dette papir oplyste mange SEO-fagfolk om de ændringer, der ville berettige til stigninger eller fald i SERP-rangordningen. Ikke desto mindre er vores bekymring her, hvordan sammenligner denne nye SMITH-algoritme sig med BERT?

I papiret offentliggjort af Google hævdede de, at SMITH overgår BERT i forståelse af lange søgeforespørgsler og lange dokumenter. Hvad der gør SMITH så interessant, er at den kan forstå passager i et dokument svarende til hvad BERT gør med ord og sætninger. Denne forbedrede funktion i SMITH gør det let at forstå længere dokumenter.

Men inden vi går videre, skal vi informere dig om, at SMITH ikke lige nu lever i Googles algoritmer. Men hvis vores spekulationer er rigtige, vil den blive lanceret sammen med passageindeksering, eller den går forud for den. Hvis du virkelig er interesseret i at lære at rangere på SEP, vil maskinindlæring uundgåeligt gå side om side til denne interesse.

Så tilbage til emnet, Er BERT ved at blive udskiftet? Vil de fleste dokumenter på nettet ikke være enorme, robuste og derfor længere fungere bedre med SMITH?

Lad os hoppe ind i det videre og se, hvad vi har konkluderet. SMITH kan udføre både arbejdet med at læse robuste og tynde dokumenter. Tænk på det som en Bazooka. Det kan forårsage store skader, da det også kan åbne døre.

Til at begynde med, hvorfor BERT eller SMITH?

Det virkelige spørgsmål her er, hvorfor en søgemaskine kræver naturlig læringsbehandling for at give søgeresultater. Svaret er simpelt. Søgemaskiner kræver NLP i deres overgang fra søgemaskineforståelsesstrenge eller nøgleord til ting eller websider.

Hvor Google ikke har en idé, hvad der ellers kan være på siden bortset fra nøgleordene, eller om indholdet, der bliver indekseret, endda giver mening i forhold til søgeforespørgslen. Takket være NLP kan Google forstå sammenhængen med de tegn, der er skrevet i sin søgeforespørgsel.
Takket være NLP kan Google skelne en brugers intentioner, når de siger "flodbredden" og "bankkontoen." Det kan også forstå udsagn som "Caroline mødtes med sine venner til en drink, drinks, pint, ale, brygge" som unaturlige.

Som eksperter i SEO må vi sige, at forståelse af søgeforespørgsel er kommet langt. Bedst tro på, at det tidligere var for svært at finde de rigtige artikler på internettet.

Forståelse af BERT

BERT fungerer i øjeblikket som den bedste NLP-model, vi har til mange, hvis ikke de fleste, applikationer, især når det gælder forståelse af komplekse sprogstrukturer. Mange betragter den første Bidirectianal-karakter som det største spring fremad i denne algoritme. I stedet for at have en algoritme, der læser fra venstre mod højre, kan BERT også forstå ordene i forhold til deres sammenhæng. På denne måde ville det ikke give resultater for de enkelte ord, der er sat i forespørgslen, men indeksere websider baseret på den samlede betydning af ord i søgeforespørgslen.

Her er et eksempel for at lette din forståelse:

En lastbil har lys.

Hvis du fortolker dette udsagn fra venstre mod højre, når du når ordet "lys", ville du klassificere lastbilen som noget med lys. Det skyldes, at lastbilen kom foran lyset i erklæringen.

Men hvis vi vil klassificere ting på lastbiler, kan vi udelade "lys", fordi vi ikke støder på det før "lastbil".

Det er svært at overveje udsagnet i en retning alene.

Derudover har BERT også en anden hemmelig fordel ved at være så bemærkelsesværdig, og det giver mulighed for effektiv behandling af sprog med lavere ressourceomkostninger sammenlignet med de tidligere modeller. Det er faktisk en vigtig faktor at overveje, når man vil anvende det på hele internettet.

Anvendelsen af ​​tokens er endnu en udvikling, der har ledsaget BERT. Der er 30.000 tokens i BERT, og hver af disse repræsenterer et almindeligt ord med nogle par ekstra tokens til tegn og fragmenter, hvis et ord eksisterer uden for 30.000.

Gennem sin evne til at behandle tokens og transformere forstod BERT indholdet, hvilket også gav det muligheden for at forstå sætninger tilstrækkeligt.

Så hvis vi siger, "den unge dame gik til bredden. Hun sad senere på flodbredden og så floden strømme".

BERT tildeler forskellige sætninger forskellige sætninger, fordi de henviser til to forskellige ting.

Forståelse af SMITH

Derefter kommer SMITH, en algoritme med bedre ressourcer og tal til brug for behandling af større dokumenter. BERT bruger cirka 256 tokens pr. Dokument, og når det overstiger denne tærskel, bliver beregningsomkostningerne for høje til optimal funktion. I modsætning hertil kan SMITH håndtere op til 2.248 tokens pr. Dokument. Det er cirka 8 gange antallet af token BERT bruger.

For at forstå, hvorfor beregningsomkostningerne stiger i en enkelt NLP-model, skal vi først overveje, hvad der kræves for at forstå en sætning og et afsnit. Når man beskæftiger sig med en sætning, er der kun et generelt begreb at forstå. Der er færre ord, der relaterer til hinanden, derfor færre forbindelser mellem ord og de ideer, de har i hukommelsen.

Ved at lave sætninger i afsnit multipliceres forbindelsen mellem disse ord meget. Processer 8X teksten vil kræve mange flere gange i hastighed og hukommelsesoptimeringskapacitet ved hjælp af den samme model. Det er her, SMITH gør hele forskellen ved grundlæggende batching og gør en masse offline behandling. Interessant nok afhænger SMITH stadig af, at BERT fungerer korrekt.

Her er en beskrivelse af, hvordan SMITH tager et dokument i centrum:
  1. Det bryder først dokumentet i grupperingsstørrelser, der er lettere at administrere.
  2. Derefter behandles hver sætningsblok individuelt.
  3. En transformer lærer derefter en kontekstuel repræsentation af hver blok, hvorefter den gør dem til en dokumentrepræsentation.

Hvordan fungerer SMITH?

For at træne SMITH-modellen lærer vi af BERT på to måder:

For at træne BERT tages et ord ud af en sætning, og alternative muligheder vil blive leveret

BERT, som er bedre uddannet, er den, der vil være mere succesrig med at vælge den rigtige mulighed blandt de tilgængelige alternativer. For eksempel, hvis BERT får sætningen:

Den glade brune ------ sprang over stakit hegnet.
  • Valgmulighed en - tomater.
  • Mulighed to - hund.
Jo bedre trænet BERT er, jo bedre er chancerne for at vælge den rigtige mulighed, som er mulighed to.

Denne træningsmetode anvendes også i SMITH.

SMITH er uddannet til store dokumenter

Jo bedre trænet SMITH er, jo bedre er dens chancer for at genkende udeladte sætninger. Det er den samme idé med BERT, men en anden applikation. Denne del er især interessant, fordi den maler en verden med Google-genereret indhold samlet sammen til indhegnede resultatsider for søgemaskiner. Selvfølgelig kan brugerne forlade det, men det gør de ikke, fordi Google kan samle kort og langformet indhold fra alle de bedste kilder på sin resultatside.

Hvis du er i tvivl om, at dette sker, skal du vide, at det allerede er begyndt at ske, og selvom de endnu ikke har mestret det, er det en start.

Er SMITH bedre end BERT?

Med alt hvad du har læst, er det helt naturligt at antage, at SMITH er bedre, og i mange opgaver er det virkelig bedre. Men overvej hvordan du bruger internettet et øjeblik; hvilke spørgsmål indtaster du regelmæssigt i søgeforespørgsler?
  • "Hvad er vejrudsigten for i dag?"
  • "Kørselsvejledning til en restaurant".
Besvarelse af sådanne søgeforespørgsler kræver normalt kort indhold, ofte med begrænsede og ukomplicerede data. SMITH er mere involveret i forståelse af længere og mere komplekse dokumenter og lange og komplekse søgeforespørgsler.

Dette vil omfatte sammenlægning af flere dokumenter og emner for at skabe deres svar. Det bestemmer, hvordan indhold kan opdeles, så Google kan vide den rigtige ting at vise. Det hjælper Google med at forstå, hvordan indholdssiderne er relateret til hinanden, og det giver en skala, hvor links kan blive værdsat blandt andre fordele.

Når det er sagt, slutter vi med at sige, at både BERT og SMITH er vigtige, og de tjener begge deres unikke formål.

Konklusion

Mens SMITH er bazookaen, har vi brug for den til at tegne et klart billede af, hvordan ting samlet er. I ressourcer koster det mere, fordi det gør et større job, men det koster langt mindre end BERT, når man udfører det samme job.

BERT hjælper SMITH med at hjælpe sin forståelse af korte forespørgsler og små indholdsstykker. Dette er dog indtil Google udvikler en anden NLP-algoritme, der vil erstatte begge dele, og så bevæger vi os og indhenter endnu et fremskridt inden for SEO.

Interesseret i SEO? Tjek vores andre artikler om Semalt blog.

mass gmail