Kako Google BERT vs. Smith algoritmi rade zajedno - pregled Semalta




Google je nedavno objavio istraživački rad o njihovom novom NLP algoritmu SMITH. Ovaj je rad upozorio mnoge SEO stručnjake na promjene koje bi trebale povećati ili smanjiti SERP rang. Ipak, naša je briga ovdje kako se ovaj novi SMITH algoritam uspoređuje s BERT-om?

U radu koji je objavio Google tvrdili su da SMITH nadmašuje BERT u razumijevanju dugih upita za pretraživanje i dokumenata. Ono što SMITH čini toliko zanimljivim jest da može razumjeti odlomke u dokumentu slično onome što BERT čini riječima i rečenicama. Ova poboljšana značajka SMITH-a omogućuje mu lakše razumijevanje duljih dokumenata.

Ali prije nego što nastavimo dalje, moramo vas obavijestiti da SMITH od sada ne živi u Googleovim algoritmima. Ali ako su naša nagađanja točna, pokrenut će se zajedno s indeksiranjem prolaza ili će im prethoditi. Ako ste istinski zainteresirani za učenje kako se rangirati na SEP-u, strojno učenje neizbježno će ići usporedo s tim zanimanjem.

Vratimo se na temu: Hoće li BERT biti zamijenjen? Neće li većina dokumenata na webu koji su ogromni, robusni i stoga dulje izvoditi bolje sa SMITH-om?

Krenimo u daljnje i pogledajte što smo zaključili. SMITH može raditi i posao čitanja čvrstih i tankih dokumenata. Zamislite to kao Bazuku. Može nanijeti veliku štetu jer također može otvoriti vrata.

Za početak, zašto BERT ili SMITH?

Pravo je pitanje ovdje zašto će tražilica zahtijevati Obradu prirodnog učenja za pružanje rezultata pretraživanja. Odgovor je jednostavan. Tražilice zahtijevaju NLP u svom prijelazu s tragova koji razumiju nizove ili ključne riječi na stvari ili web stranice.

Tamo gdje Google nema ideju, što još može biti na stranici osim ključnih riječi ili ima li indeksiranje sadržaja smisla u odnosu na upit za pretraživanje. Zahvaljujući NLP-u, Google može razumjeti kontekst znakova upisanih u njegov upit za pretraživanje.
Zahvaljujući NLP-u, Google može razlikovati namjere korisnika kada kažu "riječna obala" i "bankovni račun". Također može shvatiti neprirodne izjave poput "Caroline se sastala sa svojim prijateljima na piću, piću, pivu, pivu, pivu ..."

Kao stručnjaci za SEO, moramo reći da je razumijevanje upita za pretragu jako napredovalo. Najbolji vjeruju da je u prošlosti bilo pretjerano teško pronaći prave članke na internetu.

Razumijevanje BERT-a

BERT trenutno funkcionira kao najbolji NLP model koji imamo za mnoge, ako ne i većinu aplikacija, posebno kada je riječ o razumijevanju složenih jezičnih struktura. Mnogi prvi dvosmjerni lik smatraju najvećim skokom naprijed u ovom algoritmu. Umjesto da ima algoritam koji čita s lijeva na desno, BERT također može razumjeti riječi u odnosu na njihov kontekst. Na taj način to ne bi dalo rezultate za pojedinačne riječi stavljene u upit, već indeksiralo web stranice na temelju zajedničkog značenja riječi u upitu za pretraživanje.

Evo primjera koji će vam olakšati razumijevanje:

KAMION IMA SVJETLOST.

Ako biste tu izjavu tumačili s lijeva na desno, kad biste dosegnuli riječ "svjetlo", klasificirali biste kamion kao nešto sa svjetlom. To je zato što je kamion došao prije svjetla u izjavi.

Ali ako želimo klasificirati stvari na kamionima, možda ćemo izostaviti "svjetlo" jer na njega ne nailazimo prije "kamiona".

Teško je razmatrati izjavu samo u jednom smjeru.

Uz to, BERT ima još jednu tajnu prednost što je tako izvanredan i omogućava učinkovitu obradu jezika uz niže troškove resursa u odnosu na prethodne modele. To je doista važan čimbenik koji treba uzeti u obzir kada se želi primijeniti na cijelu mrežu.

Primjena žetona još je jedna evolucija koja je popratila BERT. U BERT-u postoji 30.000 tokena, a svaki od njih predstavlja zajedničku riječ s nekoliko dodatnih znakova za znakove i fragmente u slučaju da riječ postoji izvan 30.000.

Kroz sposobnost obrade tokena i transformatora, BERT je razumio sadržaj, što mu je također omogućilo adekvatno razumijevanje rečenica.

Dakle, ako kažemo, "mlada dama je otišla do obale. Kasnije je sjedila na obali i gledala kako rijeka teče".

BERT će tim rečenicama dodijeliti različite vrijednosti jer se odnose na dvije različite stvari.

Razumijevanje SMITA

Zatim dolazi SMITH, algoritam s boljim resursima i brojevima za obradu većih dokumenata. BERT koristi oko 256 tokena po dokumentu, a kada premaši ovaj prag, računski troškovi postaju previsoki za optimalnu funkciju. Suprotno tome, SMITH može obraditi do 2.248 tokena po dokumentu. To je otprilike 8X broj tokena koji BERT koristi.

Da bismo razumjeli zašto troškovi računanja rastu u jednom NLP modelu, prvo moramo razmotriti što je potrebno da bismo razumjeli rečenicu i odlomak. Kad se radi o rečenici, postoji samo jedan opći koncept koji treba razumjeti. Manje je riječi koje se međusobno odnose, a time i manje veza između riječi i ideja koje imaju u sjećanju.

Izrađujući rečenice u odlomke, veza između ovih riječi uvelike se umnožava. Obrađuje 8X tekst potreban će mnogo više puta u brzini i kapacitetu optimizacije memorije koristeći isti model. Tu SMITH čini sve razlike u osnovi grupirajući i radeći puno izvanmrežne obrade. Zanimljivo je da SMITH i dalje ovisi o BERT-u kako bi ispravno funkcionirao.

Evo opisa kako SMITH u osnovi uzima dokument:
  1. Prvo razbija dokument na grupiranje veličina kojima je lakše upravljati.
  2. Zatim obrađuje svaki blok rečenica pojedinačno.
  3. Tada transformator uči kontekstualni prikaz svakog bloka, nakon čega ih pretvara u prikaz dokumenta.

Kako SMITH djeluje?

Da bismo trenirali SMITH model, učimo od BERT-a na dva načina:

Da bi se trenirao BERT, riječ se uklanja iz rečenice i pružit će se alternativne mogućnosti

BERT, koji je bolje obučen, bit će uspješniji u odabiru prave opcije od ponuđenih alternativa. Na primjer, ako BERT dobije rečenicu:

Sretni smeđi ------ preskočio je ogradu.
  • Opcija prva - rajčica.
  • Druga mogućnost - pas.
Što je BERT bolje obučen, to su veće šanse da odabere pravu opciju, a to je druga opcija.

Ova metoda treninga također se primjenjuje u SMITH-u.

SMITH je obučen za velike dokumente

Što je SMITH bolje obučen, to su veće šanse za prepoznavanje izostavljenih rečenica. Ista je ideja s BERT-om, ali drugačija aplikacija. Ovaj je dio posebno zanimljiv jer oslikava svijet sa sadržajima koje generira Google, a koji su složeni u zidane stranice rezultata pretraživanja. Korisnici naravno mogu otići, ali neće jer Google na svojoj stranici rezultata može sastaviti kratki i dugotrajni sadržaj iz svih najboljih izvora.

Ako sumnjate da se ovo dogodilo, trebali biste znati da se to već počelo događati, i iako to još nisu svladali, to je početak.

Je li SMITH bolji od BERT-a?

Uz sve što ste pročitali, posve je prirodno pretpostaviti da je SMITH bolji, a u mnogim zadacima uistinu je bolji. Ali razmislite kako na trenutak koristite internet; koja pitanja redovito unosite u upite za pretraživanje?
  • "Kakva je vremenska prognoza za danas?"
  • "Upute do restorana".
Odgovaranje na takve upite za pretraživanje obično zahtijeva kratak sadržaj, često s ograničenim i nekompliciranim podacima. SMITH je više uključen u razumijevanje duljih i složenijih dokumenata te dugih i složenih upita za pretraživanje.

To će uključivati ​​sastavljanje nekoliko dokumenata i tema radi stvaranja njihovih odgovora. Određuje kako se sadržaj može raščlaniti, omogućavajući Googleu da zna pravu stvar za prikaz. Pomoći će Googleu da razumije kako su stranice sadržaja povezane međusobno, a pruža i ljestvicu na kojoj se veze mogu vrednovati među ostalim pogodnostima.

Kad to kažemo, zaključujemo rekavši da su i BERT i SMITH važni i oboje služe svojoj jedinstvenoj svrsi.

Zaključak

Iako je SMITH bazuka, on nam treba da bismo stvorili jasnu sliku kako stvari kolektivno stoje. U resursima to košta više jer radi veći posao, ali košta puno manje od BERT-a kada radite taj isti posao.

BERT pomaže SMITH-u da lakše razumije svoje kratke upite i male dijelove sadržaja. To je, međutim, sve dok Google ne razvije drugi NLP algoritam koji će zamijeniti oboje, a onda ćemo krenuti i sustići još jedan napredak u SEO-u.

Zanima vas SEO? Pogledajte naše ostale članke na Semalt blog.