Disallow making an empty lexeme via array_to_tsvector().
authorTom Lane <tgl@sss.pgh.pa.us>
Sat, 6 Nov 2021 17:28:53 +0000 (13:28 -0400)
committerTom Lane <tgl@sss.pgh.pa.us>
Sat, 6 Nov 2021 17:28:53 +0000 (13:28 -0400)
commitcbe25dcff73a297adbada9dc1d6cad3df18014e9
tree0693c9ffdbf8bf69c75eef41abd6dce2f7d7c55f
parent1241fcbd7e649414f09f9858ba73e63975dcff64
Disallow making an empty lexeme via array_to_tsvector().

The tsvector data type has always forbidden lexemes to be empty.
However, array_to_tsvector() didn't get that memo, and would
allow an empty-string array element to become an empty lexeme.
This could result in dump/restore failures later, not to mention
whatever semantic issues might be behind the original prohibition.

However, other functions that take a plain text input directly as
a lexeme value do not need a similar restriction, because they only
match the string against existing tsvector entries.  In particular
it'd be a bad idea to make ts_delete() reject empty strings, since
that is the most convenient way to clean up any bad data that might
have gotten into a tsvector column via this bug.

Reflecting on that, let's also remove the prohibition against NULL
array elements in tsvector_delete_arr and tsvector_setweight_by_filter.
It seems more consistent to ignore them, as an empty-string element
would be ignored.

There's a case for back-patching this, since it's clearly a bug fix.
On balance though, it doesn't seem like something to change in a
minor release.

Jean-Christophe Arnu

Discussion: https://postgr.es/m/CAHZmTm1YVndPgUVRoag2WL0w900XcoiivDDj-gTTYBsG25c65A@mail.gmail.com
doc/src/sgml/func.sgml
src/backend/utils/adt/tsvector_op.c
src/test/regress/expected/tstypes.out
src/test/regress/sql/tstypes.sql