Ik hou van deze scène uit Jurassic Park
Mensen herinneren zich deze scène altijd voor de lijn van kunnen / moeten, maar ik denk dat dit Malcolms holistisch uitstekende spraak echt minimaliseert. Deze scène is met name een geweldige analogie voor Machine Learning/AI-technologie op dit moment. Ik ga hier niet te veel in op het stuk over ethiek, want Jamie Indigo heeft daar al een paar geweldige stukken over geschreven, en gevestigde academici en auteurs zoals Dr. Safiya Noble en Ruha Benjamin kunnen het beste omgaan met de demontage van de ethiek van zoektechnologie.
Ik ben hier om te praten over hoe we hier bij LSG onze kennis verdienen en wat die kennis is.
“Ik zal je het probleem vertellen met de wetenschappelijke kracht die je hier gebruikt; er was geen discipline voor nodig om het te bereiken. Je las wat anderen hadden gedaan en je zette de volgende stap.”
Ik heb het gevoel dat dit scenario dat wordt beschreven in de schermafbeelding (slecht geschreven GPT-3-inhoud waarvoor menselijke tussenkomst nodig is) een goed voorbeeld is van de mentaliteit die wordt beschreven in het Jurassic Park-citaat. Deze mentaliteit heerst momenteel in de SEO-industrie . De wildgroei aan programmatische bladen en collab-notebooks en codebibliotheken die mensen kunnen gebruiken zonder ze te begrijpen, behoeft geen verdere uitleg om tot stand te komen. Een eenvoudige blik op de SERP’s zal een groot aantal NLP- en voorspellingstools laten zien die worden vrijgegeven terwijl ze gemakkelijk toegankelijk en te gebruiken zijn zonder enig begrip van de onderliggende wiskunde en methoden. $SEMR heeft zojuist hun eigen tool voor het maken van zoekwoorden geïmplementeerd, waardoor een complex proces volledig is afgevlakt zonder dat hun eindgebruikers enig begrip hebben van wat er gaande is (maar hierover een andere dag). Deze wiskunde en methoden zijn absoluut cruciaal om deze technologieën op verantwoorde wijze in te zetten. Laten we NLP als een diepe duik gebruiken, want ik denk dat we op dit gebied onze kennis hebben verdiend.
“Je hebt de kennis niet voor jezelf verdiend, dus je neemt er geen verantwoordelijkheid voor.”
De verantwoordelijkheid is hier niet ethisch, maar resultaatgericht. Als u ML/NLP gebruikt, hoe kunt u er dan zeker van zijn dat het wordt gebruikt voor het succes van de klant? Er is een oud adagium dat gegevens vermengt ” Garbage In, Garbage Out ” dat gaat over het illustreren van hoe belangrijk initiële gegevens zijn:

https://xkcd.com/1838/
Het roeren hier maakt dit komisch gewoon echt. Het is wat veel mensen doen als ze de wiskunde en methoden van hun machine learning niet begrijpen en het ‘de gegevens aanpassen’ noemen.
Dit kan ook worden geëxtrapoleerd van datawetenschap naar algemene logica, bijvoorbeeld de premisse van een argument. Als u bijvoorbeeld een prognosemodel probeert te gebruiken om een verkeerstoename te voorspellen, zou u kunnen aannemen dat “het verkeer is gestegen, dus onze voorspellingen zijn waarschijnlijk waar”, maar u kunt dat letterlijk niet begrijpen zonder precies te begrijpen wat het model doet . Als je niet weet wat het model doet, kun je het niet falsificeren of andere methoden van empirisch bewijs/weerlegging toepassen.
HUH?
Precies, dus laten we een voorbeeld gebruiken. Onlangs sprak Rachel Anderson over hoe we probeerden de inhoud van een groot aantal pagina’s op grote schaal te begrijpen met behulp van verschillende clusteralgoritmen. Het oorspronkelijke doel van het gebruik van de clusteralgoritmen was om inhoud van een pagina te schrapen, al deze vergelijkbare inhoud over het hele paginatype op een domein te verzamelen en dit vervolgens voor concurrenten te doen. Vervolgens zouden we de inhoud clusteren en kijken hoe deze is gegroepeerd om de belangrijke dingen waar mensen het op de pagina over hadden beter te begrijpen. Nou dit ging helemaal niet.
We hebben verschillende clusteringsmethoden doorlopen om te zien of we de output konden krijgen waarnaar we op zoek waren. Natuurlijk hebben we ze laten uitvoeren , maar ze werkten niet. We hebben DBSCAN, NMF-LDA, Gaussian Mixture Modelling en KMeans-clustering geprobeerd. Deze dingen doen allemaal functioneel hetzelfde, clusterinhoud. Maar de feitelijke manier van clusteren is anders.

https://scikit-learn.org/stable/modules/clustering.html
We hebben de scikit-learn-bibliotheek gebruikt voor al onze clustering-experimenten en je kunt hier in hun kennisbank zien hoe verschillende clusteringalgoritmen dezelfde inhoud op verschillende manieren groeperen. In feite breken ze zelfs enkele potentiële usecases en schaalbaarheid af;

https://scikit-learn.org/stable/modules/clustering.html
Niet al deze manieren zullen waarschijnlijk leiden tot positieve zoekresultaten, en dat is wat het betekent om te werken als je aan SEO doet. Het bleek dat we deze clusteringmethoden niet echt konden gebruiken om te krijgen wat we wilden. We besloten naar BERT te verhuizen om een aantal van deze problemen op te lossen en min of meer dit leidde ertoe dat Jess Peck bij het team kwam en eigenaar werd van onze ML-stack, zodat ze parallel met onze andere technische projecten konden worden ontwikkeld.
Maar ik dwaal af. We hebben al deze clusteringmethoden gebouwd, we wisten wat wel en niet werkte, was het allemaal een verspilling?
Hell nee, Daan!
Een van de dingen die me opviel tijdens mijn testen, was dat KMeans-clustering ongelooflijk goed werkt met veel beknopte brokken gegevens. Welnu, in SEO werken we met trefwoorden, dat zijn veel beknopte brokken gegevens. Dus na wat experimenten met het toepassen van de clustermethode op zoekwoorddatasets, realiseerden we ons dat we iets op het spoor waren. Ik zal je niet vervelen over hoe we het KMeans-clusteringsproces dat we nu gebruiken volledig hebben geautomatiseerd, maar ik begrijp de manieren waarop verschillende clustering-wiskunde en -processen werkten, zodat we opgedane kennis kunnen gebruiken om een mislukking in succes om te zetten. Het eerste succes is het snel ad-hoc clusteren/classificeren van zoekwoorden. Het duurt ongeveer 1 uur om een paar honderdduizend trefwoorden te clusteren, en kleinere hoeveelheden dan honderdduizenden zijn razendsnel.
Geen van deze bedrijven zijn klanten, ze hebben ze alleen gebruikt om te testen, maar als een van jullie de gegevens wil zien, alleen HMU