NLP wordt tegenwoordig op veel gebieden gebruikt, waaronder stemassistenten, automatische tekstvertalingen en tekstfiltering. De drie belangrijkste gebieden zijn: Spraakherkenning, Natuurlijke Taalbegrip [) en Natuurlijke Taalgeneratie.

Contents

Wat is natuurlijke taalverwerking Piet Mondriaan
Natural Language Processing (NLP) is het snijpunt van machine learning en wiskundige taalkunde, gericht op leermethoden voor de analyse en synthese van natuurlijke taal.

Stelpen

Het aantal juiste woordvormen, waarvan de betekenissen vergelijkbaar zijn, maar de spelling verschilt in achtervoegsels, voorvoegsels, uitgangen, enz., is erg groot, wat het maken van woordenboeken en verdere verwerking bemoeilijkt. Stemming stelt je in staat om een ​​woord naar zijn basisvorm te brengen. De essentie van de aanpak is om de basis van een woord te vinden; hiervoor worden de delen achtereenvolgens afgesneden van het einde en het begin van het woord. Clipping-regels voor stemmer worden van tevoren gemaakt, en meestal zijn het reguliere expressies, wat deze aanpak bewerkelijk maakt, omdat nieuw taalkundig onderzoek nodig is bij het verbinden van een andere taal zoals in dit SaaS-project https://doctranslator.com/. Het tweede nadeel van de aanpak is het mogelijke verlies van informatie bij het afsnijden van delen, we kunnen bijvoorbeeld informatie over een woordsoort kwijtraken.

Vectorisering

De meeste wiskundige modellen werken in hoogdimensionale vectorruimten, dus u moet tekst in vectorruimte weergeven. De hoofdbenadering is een woordenlijst: een vector van de woordenboekdimensie wordt gevormd voor het document, zijn eigen dimensie wordt toegewezen aan elk woord, het attribuut van hoe vaak het woord erin voorkomt, wordt geregistreerd voor het document, en we krijg een vector. De meest gebruikelijke methode voor het berekenen van een kenmerk is TF-IDF [4] (TF - term frequency, IDF - inverse document frequency). TF wordt bijvoorbeeld berekend door de woordvoorkomenteller. IDF wordt meestal berekend als de logaritme van het aantal documenten in een corpus gedeeld door het aantal documenten waarin dit woord wordt weergegeven. Dus als een woord in alle documenten in het corpus voorkomt, wordt zo`n woord nergens toegevoegd.

Het voordeel van de zak met woorden is de eenvoudige implementatie, maar bij deze methode gaat wat informatie verloren, bijvoorbeeld de woordvolgorde. Om het verlies van informatie te verminderen, kunt u een zak met N-grammen gebruiken (niet alleen woorden, maar ook zinnen toevoegen), of methoden van vectorrepresentaties van woorden gebruiken, hierdoor kunt u bijvoorbeeld de fout op woorden verminderen met dezelfde spelling, maar verschillende betekenissen.

Deduplicatie

Omdat het aantal vergelijkbare documenten in een groot corpus groot kan zijn, is het noodzakelijk om dubbele documenten te verwijderen. Omdat elk document kan worden weergegeven als een vector, kunnen we hun nabijheid bepalen door een cosinus of een andere metriek te nemen. Het nadeel is dat voor grote corpussen een volledige opsomming van alle documenten onmogelijk zal zijn. Voor optimalisatie kunt u een lokaal gevoelige hash gebruiken die sterk vergelijkbare objecten plaatst.

Semantische analyse

Semantische (semantische) analyse van de tekst - de toewijzing van semantische relaties, de vorming van een semantische representatie. In het algemeen is de semantische representatie een grafiek, een semantisch netwerk, dat de binaire relaties tussen twee knooppunten weerspiegelt - de semantische eenheden van de tekst. De diepte van semantische analyse kan verschillen, en in echte systemen wordt meestal alleen syntactisch-semantische representatie van de tekst of individuele zinnen gebouwd. Semantische analyse wordt gebruikt bij bijvoorbeeld Sentimentanalysetaken om automatisch de positiviteit van reviews te bepalen. Ref.: Wiki