Database Reference
In-Depth Information
cat 'pg
_
config --sharedir'/tsearch
_
data/english.stop
Wir können
a
aus der Liste entfernen oder wir können ein anderes Wörter-
buch wie
simple
verwenden, das String nur bei Nichtwort-Zeichen zerlegt
und in Kleinbuchstaben umwandelt. Vergleichen Sie die beiden folgenden
Vektoren:
SELECT
to
_
tsvector(
'english'
,
'A Hard Day''s Night'
);
to
_
tsvector
----------------------------
'day':3 'hard':2 'night':5
SELECT
to
_
tsvector(
'simple'
,
'A Hard Day''s Night'
);
to
_
tsvector
----------------------------------------
'a':1 'day':3 'hard':2 'night':5 's':4
Mit
simple
können wir jeden Film abrufen, der das Lexem
a
enthält.
Weitere Sprachen
Da Postgres hier eine maschinelle Sprachverarbeitung durchführt, ist es sinn-
voll, dass unterschiedliche Konfigurationen für unterschiedliche Sprachen
genutzt werden. Alle installierten Konfigurationen können Sie sich mit dem
folgenden Befehl ansehen:
book=# \dF
Wörterbücher sind ein Teil dessen, was Postgres zur Generierung der
tsvector
-Lexeme verwendet (zusammen mit Stoppwörtern und anderen To-
kenizing-Regeln wie
Parsern
und
Templates
, auf die wir hier nicht eingehen).
Eine Liste Ihres Systems können Sie sich wie folgt ansehen:
book=# \dFd
Sie können jedes Wörterbuch direkt ausprobieren, im Sie die Funktion
ts
_
lexize()
aufrufen. Hier ermitteln wir die englische Stammform des Worts
Day's
.