SEO The LSG Way: Verdien uw kennis

Bron

Ik hou van deze scène uit Jurassic Park

Mensen herinneren zich deze scène altijd voor de lijn van kunnen / moeten, maar ik denk dat dit Malcolms holistisch uitstekende spraak echt minimaliseert. Deze scène is met name een geweldige analogie voor Machine Learning/AI-technologie op dit moment. Ik ga hier niet te veel in op het stuk over ethiek, want Jamie Indigo heeft daar al een paar geweldige stukken over geschreven, en gevestigde academici en auteurs zoals Dr. Safiya Noble en Ruha Benjamin kunnen het beste omgaan met de demontage van de ethiek van zoektechnologie.

Ik ben hier om te praten over hoe we hier bij LSG onze kennis verdienen en wat die kennis is.

“Ik zal je het probleem vertellen met de wetenschappelijke kracht die je hier gebruikt; er was geen discipline voor nodig om het te bereiken. Je las wat anderen hadden gedaan en je zette de volgende stap.”

Voorbeeld van het repareren van GPT-3

Ik heb het gevoel dat dit scenario dat wordt beschreven in de schermafbeelding (slecht geschreven GPT-3-inhoud waarvoor menselijke tussenkomst nodig is) een goed voorbeeld is van de mentaliteit die wordt beschreven in het Jurassic Park-citaat. Deze mentaliteit heerst momenteel in de SEO-industrie . De wildgroei aan programmatische bladen en collab-notebooks en codebibliotheken die mensen kunnen gebruiken zonder ze te begrijpen, behoeft geen verdere uitleg om tot stand te komen. Een eenvoudige blik op de SERP's zal een groot aantal NLP- en voorspellingstools laten zien die worden vrijgegeven terwijl ze gemakkelijk toegankelijk en te gebruiken zijn zonder enig begrip van de onderliggende wiskunde en methoden. $SEMR heeft zojuist hun eigen tool voor het maken van zoekwoorden geïmplementeerd, waardoor een complex proces volledig is afgevlakt zonder dat hun eindgebruikers enig begrip hebben van wat er gaande is (maar hierover een andere dag). Deze wiskunde en methoden zijn absoluut cruciaal om deze technologieën op verantwoorde wijze in te zetten. Laten we NLP als een diepe duik gebruiken, want ik denk dat we op dit gebied onze kennis hebben verdiend.

"Je hebt de kennis niet voor jezelf verdiend, dus je neemt er geen verantwoordelijkheid voor."

De verantwoordelijkheid is hier niet ethisch, maar resultaatgericht. Als u ML/NLP gebruikt, hoe kunt u er dan zeker van zijn dat het wordt gebruikt voor het succes van de klant? Er is een oud adagium dat gegevens vermengt " Garbage In, Garbage Out " dat gaat over het illustreren van hoe belangrijk initiële gegevens zijn:

XKCD-strip over GIGO

https://xkcd.com/1838/

Het roeren hier maakt dit komisch gewoon echt. Het is wat veel mensen doen als ze de wiskunde en methoden van hun machine learning niet begrijpen en het 'de gegevens aanpassen' noemen.

Dit kan ook worden geëxtrapoleerd van datawetenschap naar algemene logica, bijvoorbeeld de premisse van een argument. Als u bijvoorbeeld een prognosemodel probeert te gebruiken om een verkeerstoename te voorspellen, zou u kunnen aannemen dat "het verkeer is gestegen, dus onze voorspellingen zijn waarschijnlijk waar", maar u kunt dat letterlijk niet begrijpen zonder precies te begrijpen wat het model doet . Als je niet weet wat het model doet, kun je het niet falsificeren of andere methoden van empirisch bewijs/weerlegging toepassen.

HUH?

Precies, dus laten we een voorbeeld gebruiken. Onlangs sprak Rachel Anderson over hoe we probeerden de inhoud van een groot aantal pagina's op grote schaal te begrijpen met behulp van verschillende clusteralgoritmen. Het oorspronkelijke doel van het gebruik van de clusteralgoritmen was om inhoud van een pagina te schrapen, al deze vergelijkbare inhoud over het hele paginatype op een domein te verzamelen en dit vervolgens voor concurrenten te doen. Vervolgens zouden we de inhoud clusteren en kijken hoe deze is gegroepeerd om de belangrijke dingen waar mensen het op de pagina over hadden beter te begrijpen. Nou dit ging helemaal niet.

We hebben verschillende clusteringsmethoden doorlopen om te zien of we de output konden krijgen waarnaar we op zoek waren. Natuurlijk hebben we ze laten uitvoeren , maar ze werkten niet. We hebben DBSCAN, NMF-LDA, Gaussian Mixture Modelling en KMeans-clustering geprobeerd. Deze dingen doen allemaal functioneel hetzelfde, clusterinhoud. Maar de feitelijke manier van clusteren is anders.

Grafiekgrafieken van verschillende clusteringmethoden

https://scikit-learn.org/stable/modules/clustering.html

We hebben de scikit-learn-bibliotheek gebruikt voor al onze clustering-experimenten en je kunt hier in hun kennisbank zien hoe verschillende clusteringalgoritmen dezelfde inhoud op verschillende manieren groeperen. In feite breken ze zelfs enkele potentiële usecases en schaalbaarheid af;

Tabel met use-cases voor verschillende algoritmische clustermethoden

https://scikit-learn.org/stable/modules/clustering.html

Niet al deze manieren zullen waarschijnlijk leiden tot positieve zoekresultaten, en dat is wat het betekent om te werken als je aan SEO doet. Het bleek dat we deze clusteringmethoden niet echt konden gebruiken om te krijgen wat we wilden. We besloten naar BERT te verhuizen om een aantal van deze problemen op te lossen en min of meer dit leidde ertoe dat Jess Peck bij het team kwam en eigenaar werd van onze ML-stack, zodat ze parallel met onze andere technische projecten konden worden ontwikkeld.

Maar ik dwaal af. We hebben al deze clusteringmethoden gebouwd, we wisten wat wel en niet werkte, was het allemaal een verspilling?

Hell nee, Daan!

Een van de dingen die me opviel tijdens mijn testen, was dat KMeans-clustering ongelooflijk goed werkt met veel beknopte brokken gegevens. Welnu, in SEO werken we met trefwoorden, dat zijn veel beknopte brokken gegevens. Dus na wat experimenten met het toepassen van de clustermethode op zoekwoorddatasets, realiseerden we ons dat we iets op het spoor waren. Ik zal je niet vervelen over hoe we het KMeans-clusteringsproces dat we nu gebruiken volledig hebben geautomatiseerd, maar ik begrijp de manieren waarop verschillende clustering-wiskunde en -processen werkten, zodat we opgedane kennis kunnen gebruiken om een mislukking in succes om te zetten. Het eerste succes is het snel ad-hoc clusteren/classificeren van zoekwoorden. Het duurt ongeveer 1 uur om een paar honderdduizend trefwoorden te clusteren, en kleinere hoeveelheden dan honderdduizenden zijn razendsnel.

Gebruiker draait Kmeans clusterer traag via bot

Geen van deze bedrijven zijn klanten, ze hebben ze alleen gebruikt om te testen, maar als een van jullie de gegevens wil zien, alleen HMU🙂

We hebben onlangs ons eigen dashboardsysteem opnieuw ontwikkeld met behulp van GDS, zodat het kan worden gebaseerd op onze meer gecompliceerde gecontroleerde trefwoordclassificatie OF het gebruik van KMeans-clustering om trefwoordcategorieën te ontwikkelen. Dit geeft ons de mogelijkheid om de zoekwoorden van klanten te categoriseren, zelfs met een kleiner budget. Hier zijn Heckler en ik aan het testen met onze slackbot Jarvis om klantgegevens te clusteren in BigQuery en de uitvoer vervolgens in een klantspecifieke tabel te dumpen.

Gebruikers die kmeans classifier testten, wezen op klantgegevens in Google Big Query, via slackbot.

Dit geeft ons een extra product dat we kunnen verkopen en bieden meer geavanceerde segmenteringsmethoden aan bedrijven die normaal gesproken de waarde niet zouden inzien van dure big data-projecten. Dit kan alleen door de kennis te vergaren, door de ins en outs van specifieke methoden en processen te begrijpen om deze optimaal te kunnen gebruiken. Dit is de reden waarom we de afgelopen maand bij BERT zijn geweest, en we gaan er nog meer tijd aan besteden. Mensen kunnen dingen inzetten die BERT-modellen raken, maar voor ons gaat het om een specifieke functie van de wiskunde en processen rond BERT die het bijzonder aantrekkelijk maken.

"Hoe is dit een andere verantwoordelijkheid van SEO's"

Bedankt, willekeurige internetvreemdeling, dat is het niet. Het probleem is dat dit in de eerste plaats ooit de verantwoordelijkheid van een SEO is. Iemand die code schrijft en tools bouwt om problemen op te lossen, wordt een ingenieur genoemd, iemand die websites rangschikt is een SEO. De Verhandeling vergeet dit belangrijke ding vaak. Dit onderscheid is een essentieel organiserend principe dat ik hier bij LSG op de taart heb gebakken en doet denken aan een voortdurend debat dat ik had met Hamlet Batista. Het gaat een beetje als volgt;

"Moeten we SEO's in staat stellen deze problemen op te lossen met python en code enz.? Is dit een goede besteding van hun tijd, versus ingenieurs die het sneller/beter/goedkoper kunnen doen?”

Ik denk dat het versterken van SEO's geweldig is! Ik denk echter niet dat het erg empowerend is om SEO's een groot aantal verantwoordelijkheden te geven die het beste door verschillende MKB-bedrijven kunnen worden afgehandeld. Daarom hebben we een TechOps-team dat bestaat uit 4 ingenieurs in een bedrijf van 25 personen. Ik geloof gewoon niet dat het de verantwoordelijkheid van een SEO is om te leren coderen, om erachter te komen welke clusteringmethoden beter zijn en waarom, of om te leren hoe ze op grote schaal kunnen worden ingezet en toegankelijk gemaakt. Als dat zo is, krijgen ze het voor elkaar (yay) terwijl ze op de schouders van reuzen staan en onverdiende kennis gebruiken die ze niet begrijpen (boe). De haast om dingen het snelst gedaan te krijgen en tegelijkertijd gebruik te maken van door anderen verworven kennis (staand op de schouders van reuzen) laat mensen achter. En daar nemen SEO's ook geen verantwoordelijkheid voor.

Je team achterlaten

Een ding dat vaak verloren gaat in deze discussie is dat wanneer informatie in bepaalde individuen of teams wordt geblokkeerd, het voordeel van die kennis niet algemeen toegankelijk is.

Ik ga niemand hier bellen, maar voordat ik onze TechOps-structuur uitbouwde, deed ik een heleboel "ga uit het gebouw"-onderzoek om met andere mensen bij andere organisaties te praten om te zien wat wel of niet werkte aan hun organisatieprincipes. Wat ik hoorde, paste eigenlijk in twee emmers:

  1. Specifieke SEO's leren hoe ze geavanceerde interdisciplinaire vaardigheden kunnen ontwikkelen (codering, gegevensanalyse, enz.) en de kennis en het nut van deze kennis worden niet gevoeld door de meeste SEO's en klanten.
  2. De informatie wordt opgesloten in een team, bijvoorbeeld Analytics of Dev/ENG-team, en wordt vervolgens verkocht als een add-on, wat betekent dat genoemde kennis en bruikbaarheid niet worden gevoeld door de meeste SEO's en klanten.

Dat is het, zo krijgen we dingen gedaan in ons vakgebied. Ik dacht dat dit nogal stom was. Zonder hier al te veel op in te gaan, hebben we een structuur die lijkt op een DevOps-model. We hebben een team dat tools en processen bouwt voor het mkb die gebruikmaakt van SEO, Web Intelligence, Content en Links. Het doel is specifiek om de kennis en bruikbaarheid voor iedereen en al onze klanten toegankelijk te maken. Daarom noemde ik hoe KMeans en eigen kennis ons hielpen om naar dit doel toe te blijven werken.

Ik ga niet in op de Jarvis-statistieken (uiteraard meten we het gebruik), maar het volstaat te zeggen dat het een hardwerkende bot is. Dat komt omdat een team zo sterk is als de zwakste schakel, dus in plaats van SEO's te belasten met extra verantwoordelijkheid, zouden organisaties zich moeten concentreren op het vergaren van kennis op een centrale plek die voor iedereen de beste resultaten kan opleveren.

Het bericht SEO The LSG Way: Verdien je kennis verscheen eerst op Local SEO Guide .