Teach estimate_array_length() to use statistics where available.
authorTom Lane <tgl@sss.pgh.pa.us>
Thu, 4 Jan 2024 23:36:19 +0000 (18:36 -0500)
committerTom Lane <tgl@sss.pgh.pa.us>
Thu, 4 Jan 2024 23:36:19 +0000 (18:36 -0500)
commit9391f71523b6e57f1194d9f6543bc7948c16411b
tree3bfb9b155e0b828e1d0c690a276e11757d72d853
parent14dd0f27d7cd56ffae9ecdbe324965073d01a9ff
Teach estimate_array_length() to use statistics where available.

If we have DECHIST statistics about the argument expression, use
the average number of distinct elements as the array length estimate.
(It'd be better to use the average total number of elements, but
that is not currently calculated by compute_array_stats(), and
it's unclear that it'd be worth extra effort to get.)

To do this, we have to change the signature of estimate_array_length
to pass the "root" pointer.  While at it, also change its result
type to "double".  That's probably not really necessary, but it
avoids any risk of overflow of the value extracted from DECHIST.
All existing callers are going to use the result in a "double"
calculation anyway.

Paul Jungwirth, reviewed by Jian He and myself

Discussion: https://postgr.es/m/CA+renyUnM2d+SmrxKpDuAdpiq6FOM=FByvi6aS6yi__qyf6j9A@mail.gmail.com
src/backend/optimizer/path/costsize.c
src/backend/utils/adt/arrayfuncs.c
src/backend/utils/adt/selfuncs.c
src/include/utils/selfuncs.h