src/solaris/native/sun/awt/medialib/mlib_v_ImageConvIndex3_8_16nw.c - toolchain/jdk/jdk9_jdk - Git at Google

 /*
  * Copyright (c) 2000, 2003, Oracle and/or its affiliates. All rights reserved.
  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
  *
  * This code is free software; you can redistribute it and/or modify it
  * under the terms of the GNU General Public License version 2 only, as
  * published by the Free Software Foundation.  Oracle designates this
  * particular file as subject to the "Classpath" exception as provided
  * by Oracle in the LICENSE file that accompanied this code.
  *
  * This code is distributed in the hope that it will be useful, but WITHOUT
  * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
  * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
  * version 2 for more details (a copy is included in the LICENSE file that
  * accompanied this code).
  *
  * You should have received a copy of the GNU General Public License version
  * 2 along with this work; if not, write to the Free Software Foundation,
  * Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
  *
  * Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
  * or visit www.oracle.com if you need additional information or have any
  * questions.
  */


 /*
  * FUNCTION
  *      Internal functions for mlib_ImageConv* on U8 type
  *      and MLIB_EDGE_DST_NO_WRITE mask
  *
  */

 /***************************************************************/

 #include <vis_proto.h>
 #include <mlib_image.h>
 #include <mlib_ImageCheck.h>
 #include <mlib_ImageColormap.h>

 /*
   This defines switches between functions in
   files: mlib_v_ImageConv_8nw.c,
          mlib_v_ImageConvIndex3_8_16nw.c,
          mlib_v_ImageConvIndex4_8_16nw.c,
          mlib_v_ImageConvIndex3_8_16nw.c,
          mlib_v_ImageConvIndex4_8_16nw.c
 */

 #define CONV_INDEX

 #define DTYPE mlib_s16
 #define LTYPE mlib_u8

 /***************************************************************/

 #ifdef CONV_INDEX

 #define CONV_FUNC(KERN)                                         \
   mlib_conv##KERN##_Index3_8_16nw(mlib_image *dst,              \
                                   mlib_image *src,              \
                                   mlib_s32   *kern,             \
                                   mlib_s32   scale,             \
                                   void       *colormap)

 #else

 #define CONV_FUNC(KERN)                         \
   mlib_conv##KERN##_8nw_f(mlib_image *dst,      \
                           mlib_image *src,      \
                           mlib_s32   *kern,     \
                           mlib_s32   scale)

 #endif

 /***************************************************************/

 #ifdef CONV_INDEX

 #define NCHAN  3

 #else

 #define NCHAN  nchan

 #endif

 /***************************************************************/

 #define DEF_VARS                                                \
   DTYPE    *sl, *sp, *dl;                                       \
   mlib_s32 hgt = mlib_ImageGetHeight(src);                      \
   mlib_s32 wid = mlib_ImageGetWidth(src);                       \
   mlib_s32 sll = mlib_ImageGetStride(src) / sizeof(DTYPE);      \
   mlib_s32 dll = mlib_ImageGetStride(dst) / sizeof(DTYPE);      \
   DTYPE    *adr_src = (DTYPE *)mlib_ImageGetData(src);          \
   DTYPE    *adr_dst = (DTYPE *)mlib_ImageGetData(dst);          \
   mlib_s32 ssize, xsize, dsize, esize, emask, buff_ind = 0;     \
   mlib_d64 *pbuff, *dp;                                         \
   mlib_f32 *karr = (mlib_f32 *)kern;                            \
   mlib_s32 gsr_scale = (31 - scale) << 3;                       \
   mlib_d64 drnd = vis_to_double_dup(mlib_round_8[31 - scale]);  \
   mlib_s32 i, j, l

 /***************************************************************/

 #ifdef CONV_INDEX

 #define DEF_EXTRA_VARS                                                  \
   int    offset = mlib_ImageGetLutOffset(colormap);                     \
   LTYPE  **lut_table = (LTYPE**)mlib_ImageGetLutData(colormap);         \
   LTYPE  *ltbl0 = lut_table[0] - offset;                                \
   LTYPE  *ltbl1 = lut_table[1] - offset;                                \
   LTYPE  *ltbl2 = lut_table[2] - offset;                                \
   LTYPE  *ltbl3 = (NCHAN > 3) ? lut_table[3] - offset : ltbl2

 #else

 #define DEF_EXTRA_VARS                          \
   mlib_s32 nchan = mlib_ImageGetChannels(dst)

 #endif

 /***************************************************************/

 #if NCHAN == 3

 #define LOAD_SRC() {                                            \
     mlib_s32 s0 = sp[0], s1 = sp[1], s2 = sp[2], s3 = sp[3];    \
     mlib_s32 s4 = sp[4], s5 = sp[5], s6 = sp[6], s7 = sp[7];    \
     mlib_d64 t0, t1, t2;                                        \
                                                                 \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl2, s7), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl1, s7), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl0, s7), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl2, s6), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl1, s6), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl0, s6), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl2, s5), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl1, s5), t2);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl0, s5), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl2, s4), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl1, s4), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl0, s4), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl2, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl1, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl0, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl2, s2), t1);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl1, s2), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl0, s2), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl2, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl1, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl0, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl2, s0), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl1, s0), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl0, s0), t0);            \
                                                                 \
     buffn[i] = t0;                                              \
     buffn[i + 1] = t1;                                          \
     buffn[i + 2] = t2;                                          \
                                                                 \
     sp += 8;                                                    \
   }

 #else

 #define LOAD_SRC() {                                            \
     mlib_s32 s0 = sp[0], s1 = sp[1], s2 = sp[2], s3 = sp[3];    \
     mlib_s32 s4 = sp[4], s5 = sp[5], s6 = sp[6], s7 = sp[7];    \
     mlib_d64 t0, t1, t2;                                        \
                                                                 \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl3, s5), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl2, s5), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl1, s5), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl0, s5), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl3, s4), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl2, s4), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl1, s4), t2);            \
     t2 = vis_faligndata(vis_ld_u8_i(ltbl0, s4), t2);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl3, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl2, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl1, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl0, s3), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl3, s2), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl2, s2), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl1, s2), t1);            \
     t1 = vis_faligndata(vis_ld_u8_i(ltbl0, s2), t1);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl3, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl2, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl1, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl0, s1), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl3, s0), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl2, s0), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl1, s0), t0);            \
     t0 = vis_faligndata(vis_ld_u8_i(ltbl0, s0), t0);            \
                                                                 \
     buffn[i] = t0;                                              \
     buffn[i + 1] = t1;                                          \
     buffn[i + 2] = t2;                                          \
                                                                 \
     sp += 6;                                                    \
   }

 #endif

 /***************************************************************/

 static mlib_s32 mlib_round_8[16] = { 0x00400040, 0x00200020, 0x00100010, 0x00080008,
                                     0x00040004, 0x00020002, 0x00010001, 0x00000000,
                                     0x00000000, 0x00000000, 0x00000000, 0x00000000,
                                     0x00000000, 0x00000000, 0x00000000, 0x00000000 };

 /***************************************************************/

 void mlib_ImageCopy_na(mlib_u8 *sa, mlib_u8 *da, int size);

 /***************************************************************/

 #define KSIZE  2

 mlib_status CONV_FUNC(2x2)
 {
   mlib_d64 *buffs[2*(KSIZE + 1)];
   mlib_d64 *buff0, *buff1, *buffn, *buffd, *buffe;
   mlib_d64 s00, s01, s10, s11, s0, s1;
   mlib_d64 d0, d1, d00, d01, d10, d11;
   DEF_VARS;
   DEF_EXTRA_VARS;

   sl = adr_src;
   dl = adr_dst;

   ssize = NCHAN*wid;
   dsize = (ssize + 7)/8;
   esize = dsize + 4;
   pbuff = mlib_malloc((KSIZE + 4)*esize*sizeof(mlib_d64));
   if (pbuff == NULL) return MLIB_FAILURE;

   for (i = 0; i < (KSIZE + 1); i++) buffs[i] = pbuff + i*esize;
   for (i = 0; i < (KSIZE + 1); i++) buffs[(KSIZE + 1) + i] = buffs[i];
   buffd = buffs[KSIZE] + esize;
   buffe = buffd + 2*esize;

   wid -= (KSIZE - 1);
   hgt -= (KSIZE - 1);
   xsize = ssize - NCHAN*(KSIZE - 1);
   emask = (0xFF00 >> (xsize & 7)) & 0xFF;

   vis_write_gsr(gsr_scale + 7);

   for (l = 0; l < KSIZE; l++) {
     mlib_d64 *buffn = buffs[l];
     sp = sl + l*sll;

 #ifndef CONV_INDEX
     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);

 #else
 #pragma pipeloop(0)
     for (i = 0; i < dsize; i += 3) {
       LOAD_SRC();
     }
 #endif /* CONV_INDEX */
   }

   for (j = 0; j < hgt; j++) {
     mlib_d64 **buffc = buffs + buff_ind;
     mlib_f32 *pk = karr, k0, k1;
     sp = sl + KSIZE*sll;

     buff0 = buffc[0];
     buff1 = buffc[1];
     buffn = buffc[KSIZE];

 #ifndef CONV_INDEX
     if ((((mlib_addr)(sl      )) & 7) == 0) buff0 = (mlib_d64*)sl;
     if ((((mlib_addr)(sl + sll)) & 7) == 0) buff1 = (mlib_d64*)(sl + sll);
     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);
 #endif

     k0 = pk[1];
     k1 = pk[3];
     vis_write_gsr(gsr_scale + NCHAN);

     s01 = buff0[0];
     s11 = buff1[0];
 #pragma pipeloop(0)
     for (i = 0; i < (xsize + 7)/8; i++) {
       s00 = s01;
       s10 = s11;
       s01 = buff0[i + 1];
       s11 = buff1[i + 1];
       s0  = vis_faligndata(s00, s01);
       s1  = vis_faligndata(s10, s11);

       d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

       d0 = vis_fpadd16(d00, d10);
       d1 = vis_fpadd16(d01, d11);
       buffd[2*i] = d0;
       buffd[2*i + 1] = d1;
     }

     k0 = pk[0];
     k1 = pk[2];
 #ifndef CONV_INDEX
     dp = ((mlib_addr)dl & 7) ? buffe : (mlib_d64*)dl;

 #pragma pipeloop(0)
     for (i = 0; i < xsize/8; i++) {
       s0 = buff0[i];
       s1 = buff1[i];

       d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d00 = vis_fpadd16(d00, d10);
       d0  = vis_fpadd16(d0, drnd);
       d0  = vis_fpadd16(d0, d00);
       d01 = vis_fpadd16(d01, d11);
       d1  = vis_fpadd16(d1, drnd);
       d1  = vis_fpadd16(d1, d01);
       dp[i] = vis_fpack16_pair(d0, d1);
     }

     if (emask) {
       s0 = buff0[i];
       s1 = buff1[i];

       d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d00 = vis_fpadd16(d00, d10);
       d0  = vis_fpadd16(d0, drnd);
       d0  = vis_fpadd16(d0, d00);
       d01 = vis_fpadd16(d01, d11);
       d1  = vis_fpadd16(d1, drnd);
       d1  = vis_fpadd16(d1, d01);

       d0 = vis_fpack16_pair(d0, d1);
       vis_pst_8(d0, dp + i, emask);
     }

     if ((mlib_u8*)dp != dl) mlib_ImageCopy_na((void*)buffe, dl, xsize);

 #else
     vis_write_gsr(gsr_scale + 7);

 #pragma pipeloop(0)
     for (i = 0; i < dsize; i += 3) {
       mlib_d64 d00, d01, d02, d03, d04, d05;
       mlib_d64 d10, d11, d12, d13, d14, d15;
       mlib_d64 d0, d1, d2, d3, d4, d5;
       mlib_d64 s00 = buff0[i];
       mlib_d64 s01 = buff0[i + 1];
       mlib_d64 s02 = buff0[i + 2];
       mlib_d64 s10 = buff1[i];
       mlib_d64 s11 = buff1[i + 1];
       mlib_d64 s12 = buff1[i + 2];

       d00 = vis_fmul8x16au(vis_read_hi(s00), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s00), k0);
       d02 = vis_fmul8x16au(vis_read_hi(s01), k0);
       d03 = vis_fmul8x16au(vis_read_lo(s01), k0);
       d04 = vis_fmul8x16au(vis_read_hi(s02), k0);
       d05 = vis_fmul8x16au(vis_read_lo(s02), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s10), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s10), k1);
       d12 = vis_fmul8x16au(vis_read_hi(s11), k1);
       d13 = vis_fmul8x16au(vis_read_lo(s11), k1);
       d14 = vis_fmul8x16au(vis_read_hi(s12), k1);
       d15 = vis_fmul8x16au(vis_read_lo(s12), k1);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d2 = buffd[2*i + 2];
       d3 = buffd[2*i + 3];
       d4 = buffd[2*i + 4];
       d5 = buffd[2*i + 5];
       d00 = vis_fpadd16(d00, d10);
       d0  = vis_fpadd16(d0, drnd);
       d0  = vis_fpadd16(d0, d00);
       d01 = vis_fpadd16(d01, d11);
       d1  = vis_fpadd16(d1, drnd);
       d1  = vis_fpadd16(d1, d01);
       d02 = vis_fpadd16(d02, d12);
       d2  = vis_fpadd16(d2, drnd);
       d2  = vis_fpadd16(d2, d02);
       d03 = vis_fpadd16(d03, d13);
       d3  = vis_fpadd16(d3, drnd);
       d3  = vis_fpadd16(d3, d03);
       d04 = vis_fpadd16(d04, d14);
       d4  = vis_fpadd16(d4, drnd);
       d4  = vis_fpadd16(d4, d04);
       d05 = vis_fpadd16(d05, d15);
       d5  = vis_fpadd16(d5, drnd);
       d5  = vis_fpadd16(d5, d05);

       buffe[i    ] = vis_fpack16_pair(d0, d1);
       buffe[i + 1] = vis_fpack16_pair(d2, d3);
       buffe[i + 2] = vis_fpack16_pair(d4, d5);

       LOAD_SRC();
     }

     mlib_ImageColorTrue2IndexLine_U8_S16_3((void*)buffe, dl, wid, colormap);
 #endif /* CONV_INDEX */

     sl += sll;
     dl += dll;

     buff_ind++;
     if (buff_ind >= (KSIZE + 1)) buff_ind = 0;
   }

   mlib_free(pbuff);

   return MLIB_SUCCESS;
 }

 /***************************************************************/

 #undef  KSIZE
 #define KSIZE  3

 mlib_status CONV_FUNC(3x3)
 {
   mlib_d64 *buffs[2*(KSIZE + 1)];
   mlib_d64 *buff0, *buff1, *buff2, *buffn, *buffd, *buffe;
   mlib_d64 s00, s01, s10, s11, s20, s21, s0, s1, s2;
   mlib_d64 dd, d0, d1, d00, d01, d10, d11, d20, d21;
   mlib_s32 ik, ik_last, off, doff;
   DEF_VARS;
   DEF_EXTRA_VARS;

   sl = adr_src;
 #ifdef CONV_INDEX
   dl = adr_dst + ((KSIZE - 1)/2)*(dll + 1);
 #else
   dl = adr_dst + ((KSIZE - 1)/2)*(dll + NCHAN);
 #endif

   ssize = NCHAN*wid;
   dsize = (ssize + 7)/8;
   esize = dsize + 4;
   pbuff = mlib_malloc((KSIZE + 4)*esize*sizeof(mlib_d64));
   if (pbuff == NULL) return MLIB_FAILURE;

   for (i = 0; i < (KSIZE + 1); i++) buffs[i] = pbuff + i*esize;
   for (i = 0; i < (KSIZE + 1); i++) buffs[(KSIZE + 1) + i] = buffs[i];
   buffd = buffs[KSIZE] + esize;
   buffe = buffd + 2*esize;

   wid -= (KSIZE - 1);
   hgt -= (KSIZE - 1);
   xsize = ssize - NCHAN*(KSIZE - 1);
   emask = (0xFF00 >> (xsize & 7)) & 0xFF;

   vis_write_gsr(gsr_scale + 7);

   for (l = 0; l < KSIZE; l++) {
     mlib_d64 *buffn = buffs[l];
     sp = sl + l*sll;

 #ifndef CONV_INDEX
     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);
 #else
 #pragma pipeloop(0)
     for (i = 0; i < dsize; i += 3) {
       LOAD_SRC();
     }
 #endif /* CONV_INDEX */
   }

   /* init buffer */
 #pragma pipeloop(0)
   for (i = 0; i < (xsize + 7)/8; i++) {
     buffd[2*i    ] = drnd;
     buffd[2*i + 1] = drnd;
   }

   for (j = 0; j < hgt; j++) {
     mlib_d64 **buffc = buffs + buff_ind, *pbuff0, *pbuff1, *pbuff2;
     mlib_f32 *pk = karr, k0, k1, k2;
     sp = sl + KSIZE*sll;

     pbuff0 = buffc[0];
     pbuff1 = buffc[1];
     pbuff2 = buffc[2];
     buffn  = buffc[KSIZE];

 #ifndef CONV_INDEX
     if ((((mlib_addr)(sl        )) & 7) == 0) pbuff0 = (mlib_d64*)sl;
     if ((((mlib_addr)(sl +   sll)) & 7) == 0) pbuff1 = (mlib_d64*)(sl + sll);
     if ((((mlib_addr)(sl + 2*sll)) & 7) == 0) pbuff2 = (mlib_d64*)(sl + 2*sll);

     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);
 #endif

 #ifdef CONV_INDEX
     ik_last = 0;
 #else
     ik_last = (KSIZE - 1);
 #endif

     for (ik = 0; ik < KSIZE; ik++) {
       k0 = pk[ik];
       k1 = pk[ik + KSIZE];
       k2 = pk[ik + 2*KSIZE];

       off  = ik*NCHAN;
       doff = off/8;
       off &= 7;
       buff0 = pbuff0 + doff;
       buff1 = pbuff1 + doff;
       buff2 = pbuff2 + doff;
       vis_write_gsr(gsr_scale + off);

       if (ik == ik_last) continue;
       /*if (!ik_last) {
         if ((off & 3) || (ik == (KSIZE - 1))) {
           ik_last = ik;
           continue;
         }
       }*/

       if (off == 0) {
 #pragma pipeloop(0)
         for (i = 0; i < (xsize + 7)/8; i++) {
           s0 = buff0[i];
           s1 = buff1[i];
           s2 = buff2[i];

           d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
           d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
           d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
           d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
           d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
           d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

           d0 = buffd[2*i];
           d1 = buffd[2*i + 1];
           d0 = vis_fpadd16(d00, d0);
           d0 = vis_fpadd16(d10, d0);
           d0 = vis_fpadd16(d20, d0);
           d1 = vis_fpadd16(d01, d1);
           d1 = vis_fpadd16(d11, d1);
           d1 = vis_fpadd16(d21, d1);
           buffd[2*i] = d0;
           buffd[2*i + 1] = d1;
         }

       } else if (off == 4) {
         s01 = buff0[0];
         s11 = buff1[0];
         s21 = buff2[0];
 #pragma pipeloop(0)
         for (i = 0; i < (xsize + 7)/8; i++) {
           s00 = s01;
           s10 = s11;
           s20 = s21;
           s01 = buff0[i + 1];
           s11 = buff1[i + 1];
           s21 = buff2[i + 1];

           d00 = vis_fmul8x16au(vis_read_lo(s00), k0);
           d01 = vis_fmul8x16au(vis_read_hi(s01), k0);
           d10 = vis_fmul8x16au(vis_read_lo(s10), k1);
           d11 = vis_fmul8x16au(vis_read_hi(s11), k1);
           d20 = vis_fmul8x16au(vis_read_lo(s20), k2);
           d21 = vis_fmul8x16au(vis_read_hi(s21), k2);

           d0 = buffd[2*i];
           d1 = buffd[2*i + 1];
           d0 = vis_fpadd16(d00, d0);
           d0 = vis_fpadd16(d10, d0);
           d0 = vis_fpadd16(d20, d0);
           d1 = vis_fpadd16(d01, d1);
           d1 = vis_fpadd16(d11, d1);
           d1 = vis_fpadd16(d21, d1);
           buffd[2*i] = d0;
           buffd[2*i + 1] = d1;
         }

       } else {
         s01 = buff0[0];
         s11 = buff1[0];
         s21 = buff2[0];
 #pragma pipeloop(0)
         for (i = 0; i < (xsize + 7)/8; i++) {
           s00 = s01;
           s10 = s11;
           s20 = s21;
           s01 = buff0[i + 1];
           s11 = buff1[i + 1];
           s21 = buff2[i + 1];
           s0  = vis_faligndata(s00, s01);
           s1  = vis_faligndata(s10, s11);
           s2  = vis_faligndata(s20, s21);

           d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
           d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
           d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
           d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
           d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
           d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

           d0 = buffd[2*i];
           d1 = buffd[2*i + 1];
           d0 = vis_fpadd16(d00, d0);
           d0 = vis_fpadd16(d10, d0);
           d0 = vis_fpadd16(d20, d0);
           d1 = vis_fpadd16(d01, d1);
           d1 = vis_fpadd16(d11, d1);
           d1 = vis_fpadd16(d21, d1);
           buffd[2*i] = d0;
           buffd[2*i + 1] = d1;
         }
       }
     }

     k0 = pk[ik_last];
     k1 = pk[ik_last + KSIZE];
     k2 = pk[ik_last + 2*KSIZE];

     off  = ik_last*NCHAN;
     doff = off/8;
     off &= 7;
     buff0 = pbuff0 + doff;
     buff1 = pbuff1 + doff;
     buff2 = pbuff2 + doff;
     vis_write_gsr(gsr_scale + off);

 #ifndef CONV_INDEX
     dp = ((mlib_addr)dl & 7) ? buffe : (mlib_d64*)dl;

     s01 = buff0[0];
     s11 = buff1[0];
     s21 = buff2[0];
 #pragma pipeloop(0)
     for (i = 0; i < xsize/8; i++) {
       s00 = s01;
       s10 = s11;
       s20 = s21;
       s01 = buff0[i + 1];
       s11 = buff1[i + 1];
       s21 = buff2[i + 1];
       s0  = vis_faligndata(s00, s01);
       s1  = vis_faligndata(s10, s11);
       s2  = vis_faligndata(s20, s21);

       d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
       d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
       d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d0 = vis_fpadd16(d0, d00);
       d0 = vis_fpadd16(d0, d10);
       d0 = vis_fpadd16(d0, d20);
       d1 = vis_fpadd16(d1, d01);
       d1 = vis_fpadd16(d1, d11);
       d1 = vis_fpadd16(d1, d21);

       dd = vis_fpack16_pair(d0, d1);
       dp[i] = dd;

       buffd[2*i    ] = drnd;
       buffd[2*i + 1] = drnd;
     }

     if (emask) {
       s00 = s01;
       s10 = s11;
       s20 = s21;
       s01 = buff0[i + 1];
       s11 = buff1[i + 1];
       s21 = buff2[i + 1];
       s0  = vis_faligndata(s00, s01);
       s1  = vis_faligndata(s10, s11);
       s2  = vis_faligndata(s20, s21);

       d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
       d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
       d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d0 = vis_fpadd16(d0, d00);
       d0 = vis_fpadd16(d0, d10);
       d0 = vis_fpadd16(d0, d20);
       d1 = vis_fpadd16(d1, d01);
       d1 = vis_fpadd16(d1, d11);
       d1 = vis_fpadd16(d1, d21);

       dd = vis_fpack16_pair(d0, d1);
       vis_pst_8(dd, dp + i, emask);

       buffd[2*i    ] = drnd;
       buffd[2*i + 1] = drnd;
     }

     if ((mlib_u8*)dp != dl) mlib_ImageCopy_na((void*)buffe, dl, xsize);

 #else
     vis_write_gsr(gsr_scale + 7);

 #pragma pipeloop(0)
     for (i = 0; i < dsize; i += 3) {
       mlib_d64 d00, d01, d02, d03, d04, d05;
       mlib_d64 d10, d11, d12, d13, d14, d15;
       mlib_d64 d20, d21, d22, d23, d24, d25;
       mlib_d64 d0, d1, d2, d3, d4, d5;
       mlib_d64 s00 = buff0[i];
       mlib_d64 s01 = buff0[i + 1];
       mlib_d64 s02 = buff0[i + 2];
       mlib_d64 s10 = buff1[i];
       mlib_d64 s11 = buff1[i + 1];
       mlib_d64 s12 = buff1[i + 2];
       mlib_d64 s20 = buff2[i];
       mlib_d64 s21 = buff2[i + 1];
       mlib_d64 s22 = buff2[i + 2];

       d00 = vis_fmul8x16au(vis_read_hi(s00), k0);
       d01 = vis_fmul8x16au(vis_read_lo(s00), k0);
       d02 = vis_fmul8x16au(vis_read_hi(s01), k0);
       d03 = vis_fmul8x16au(vis_read_lo(s01), k0);
       d04 = vis_fmul8x16au(vis_read_hi(s02), k0);
       d05 = vis_fmul8x16au(vis_read_lo(s02), k0);
       d10 = vis_fmul8x16au(vis_read_hi(s10), k1);
       d11 = vis_fmul8x16au(vis_read_lo(s10), k1);
       d12 = vis_fmul8x16au(vis_read_hi(s11), k1);
       d13 = vis_fmul8x16au(vis_read_lo(s11), k1);
       d14 = vis_fmul8x16au(vis_read_hi(s12), k1);
       d15 = vis_fmul8x16au(vis_read_lo(s12), k1);
       d20 = vis_fmul8x16au(vis_read_hi(s20), k2);
       d21 = vis_fmul8x16au(vis_read_lo(s20), k2);
       d22 = vis_fmul8x16au(vis_read_hi(s21), k2);
       d23 = vis_fmul8x16au(vis_read_lo(s21), k2);
       d24 = vis_fmul8x16au(vis_read_hi(s22), k2);
       d25 = vis_fmul8x16au(vis_read_lo(s22), k2);

       d0 = buffd[2*i];
       d1 = buffd[2*i + 1];
       d2 = buffd[2*i + 2];
       d3 = buffd[2*i + 3];
       d4 = buffd[2*i + 4];
       d5 = buffd[2*i + 5];
       d0 = vis_fpadd16(d0, d00);
       d0 = vis_fpadd16(d0, d10);
       d0 = vis_fpadd16(d0, d20);
       d1 = vis_fpadd16(d1, d01);
       d1 = vis_fpadd16(d1, d11);
       d1 = vis_fpadd16(d1, d21);
       d2 = vis_fpadd16(d2, d02);
       d2 = vis_fpadd16(d2, d12);
       d2 = vis_fpadd16(d2, d22);
       d3 = vis_fpadd16(d3, d03);
       d3 = vis_fpadd16(d3, d13);
       d3 = vis_fpadd16(d3, d23);
       d4 = vis_fpadd16(d4, d04);
       d4 = vis_fpadd16(d4, d14);
       d4 = vis_fpadd16(d4, d24);
       d5 = vis_fpadd16(d5, d05);
       d5 = vis_fpadd16(d5, d15);
       d5 = vis_fpadd16(d5, d25);

       buffe[i    ] = vis_fpack16_pair(d0, d1);
       buffe[i + 1] = vis_fpack16_pair(d2, d3);
       buffe[i + 2] = vis_fpack16_pair(d4, d5);

       buffd[2*i    ] = drnd;
       buffd[2*i + 1] = drnd;
       buffd[2*i + 2] = drnd;
       buffd[2*i + 3] = drnd;
       buffd[2*i + 4] = drnd;
       buffd[2*i + 5] = drnd;

       LOAD_SRC();
     }

     mlib_ImageColorTrue2IndexLine_U8_S16_3((void*)buffe, dl, wid, colormap);
 #endif /* CONV_INDEX */

     sl += sll;
     dl += dll;

     buff_ind++;
     if (buff_ind >= (KSIZE + 1)) buff_ind = 0;
   }

   mlib_free(pbuff);

   return MLIB_SUCCESS;
 }

 /***************************************************************/

 #undef  KSIZE
 #define MAX_N   11

 #ifdef CONV_INDEX

 mlib_status mlib_convMxN_Index3_8_16nw(mlib_image *dst,
                                        mlib_image *src,
                                        mlib_s32   m,
                                        mlib_s32   n,
                                        mlib_s32   dm,
                                        mlib_s32   dn,
                                        mlib_s32   *kern,
                                        mlib_s32   scale,
                                        void       *colormap)

 #else

 mlib_status mlib_convMxN_8nw_f(mlib_image *dst,
                                mlib_image *src,
                                mlib_s32   m,
                                mlib_s32   n,
                                mlib_s32   dm,
                                mlib_s32   dn,
                                mlib_s32   *kern,
                                mlib_s32   scale)

 #endif
 {
   mlib_d64 *buffs_local[3*(MAX_N + 1)], **buffs = buffs_local, **buff;
   mlib_d64 *buff0, *buff1, *buff2, *buff3, *buffn, *buffd, *buffe;
   mlib_d64 s00, s01, s10, s11, s20, s21, s30, s31, s0, s1, s2, s3;
   mlib_d64 d00, d01, d10, d11, d20, d21, d30, d31;
   mlib_d64 dd, d0, d1;
   mlib_s32 ik, jk, ik_last, jk_size, coff, off, doff;
   DEF_VARS;
   DEF_EXTRA_VARS;

   if (n > MAX_N) {
     buffs = mlib_malloc(3*(n + 1)*sizeof(mlib_d64*));
     if (buffs == NULL) return MLIB_FAILURE;
   }

   buff = buffs + 2*(n + 1);

   sl = adr_src;
 #ifdef CONV_INDEX
   dl = adr_dst + dn*dll + dm;
 #else
   dl = adr_dst + dn*dll + dm*NCHAN;
 #endif

   ssize = NCHAN*wid;
   dsize = (ssize + 7)/8;
   esize = dsize + 4;
   pbuff = mlib_malloc((n + 4)*esize*sizeof(mlib_d64));
   if (pbuff == NULL) {
     if (buffs != buffs_local) mlib_free(buffs);
     return MLIB_FAILURE;
   }

   for (i = 0; i < (n + 1); i++) buffs[i] = pbuff + i*esize;
   for (i = 0; i < (n + 1); i++) buffs[(n + 1) + i] = buffs[i];
   buffd = buffs[n] + esize;
   buffe = buffd + 2*esize;

   wid -= (m - 1);
   hgt -= (n - 1);
   xsize = ssize - NCHAN*(m - 1);
   emask = (0xFF00 >> (xsize & 7)) & 0xFF;

   vis_write_gsr(gsr_scale + 7);

   for (l = 0; l < n; l++) {
     mlib_d64 *buffn = buffs[l];
     sp = sl + l*sll;

 #ifndef CONV_INDEX
     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);
 #else
 #pragma pipeloop(0)
     for (i = 0; i < dsize; i += 3) {
       LOAD_SRC();
     }
 #endif /* CONV_INDEX */
   }

   /* init buffer */
 #pragma pipeloop(0)
   for (i = 0; i < (xsize + 7)/8; i++) {
     buffd[2*i    ] = drnd;
     buffd[2*i + 1] = drnd;
   }

   for (j = 0; j < hgt; j++) {
     mlib_d64 **buffc = buffs + buff_ind;
     mlib_f32 *pk = karr, k0, k1, k2, k3;
     sp = sl + n*sll;

     for (l = 0; l < n; l++) {
       buff[l] = buffc[l];
     }
     buffn  = buffc[n];

 #ifndef CONV_INDEX
     for (l = 0; l < n; l++) {
       if ((((mlib_addr)(sl + l*sll)) & 7) == 0) buff[l] = (mlib_d64*)(sl + l*sll);
     }
     if ((mlib_addr)sp & 7) mlib_ImageCopy_na((void*)sp, (void*)buffn, ssize);
 #endif

 #ifdef CONV_INDEX
     ik_last = 0;
 #else
     ik_last = (m - 1);
 #endif

     for (jk = 0; jk < n; jk += jk_size) {
       jk_size = n - jk;
 #ifdef CONV_INDEX
       if (jk_size >= 5) jk_size = 3;
       if (jk_size == 4) jk_size = 2;
 #else
       if (jk_size >= 6) jk_size = 4;
       if (jk_size == 5) jk_size = 3;
 #endif
       coff = 0;

       if (jk_size == 2) {

         for (ik = 0; ik < m; ik++, coff += NCHAN) {
           if (!jk && ik == ik_last) continue;

           k0 = pk[ik];
           k1 = pk[ik + m];

           doff  = coff/8;
           buff0 = buff[jk    ] + doff;
           buff1 = buff[jk + 1] + doff;

           off = coff & 7;
           vis_write_gsr(gsr_scale + off);

           s01 = buff0[0];
           s11 = buff1[0];
 #pragma pipeloop(0)
           for (i = 0; i < (xsize + 7)/8; i++) {
             s00 = s01;
             s10 = s11;
             s01 = buff0[i + 1];
             s11 = buff1[i + 1];
             s0  = vis_faligndata(s00, s01);
             s1  = vis_faligndata(s10, s11);

             d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
             d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
             d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
             d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

             d0 = buffd[2*i];
             d1 = buffd[2*i + 1];
             d0 = vis_fpadd16(d00, d0);
             d0 = vis_fpadd16(d10, d0);
             d1 = vis_fpadd16(d01, d1);
             d1 = vis_fpadd16(d11, d1);
             buffd[2*i] = d0;
             buffd[2*i + 1] = d1;
           }

         }

         pk += 2*m;

       } else if (jk_size == 3) {

         for (ik = 0; ik < m; ik++, coff += NCHAN) {
           if (!jk && ik == ik_last) continue;

           k0 = pk[ik];
           k1 = pk[ik + m];
           k2 = pk[ik + 2*m];

           doff  = coff/8;
           buff0 = buff[jk    ] + doff;
           buff1 = buff[jk + 1] + doff;
           buff2 = buff[jk + 2] + doff;

           off = coff & 7;
           vis_write_gsr(gsr_scale + off);

           if (off == 0) {
 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s0 = buff0[i];
               s1 = buff1[i];
               s2 = buff2[i];

               d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
               d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
               d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
               d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
               d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
               d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

               d00 = vis_fpadd16(d00, d10);
               d0  = vis_fpadd16(d20, d0);
               d0  = vis_fpadd16(d00, d0);
               d01 = vis_fpadd16(d01, d11);
               d1  = vis_fpadd16(d21, d1);
               d1  = vis_fpadd16(d01, d1);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }

           } else if (off == 4) {
             s01 = buff0[0];
             s11 = buff1[0];
             s21 = buff2[0];
 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s00 = s01;
               s10 = s11;
               s20 = s21;
               s01 = buff0[i + 1];
               s11 = buff1[i + 1];
               s21 = buff2[i + 1];

               d00 = vis_fmul8x16au(vis_read_lo(s00), k0);
               d01 = vis_fmul8x16au(vis_read_hi(s01), k0);
               d10 = vis_fmul8x16au(vis_read_lo(s10), k1);
               d11 = vis_fmul8x16au(vis_read_hi(s11), k1);
               d20 = vis_fmul8x16au(vis_read_lo(s20), k2);
               d21 = vis_fmul8x16au(vis_read_hi(s21), k2);

               d00 = vis_fpadd16(d00, d10);
               d0  = vis_fpadd16(d20, d0);
               d0  = vis_fpadd16(d00, d0);
               d01 = vis_fpadd16(d01, d11);
               d1  = vis_fpadd16(d21, d1);
               d1  = vis_fpadd16(d01, d1);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }

           } else {
             s01 = buff0[0];
             s11 = buff1[0];
             s21 = buff2[0];
 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s00 = s01;
               s10 = s11;
               s20 = s21;
               s01 = buff0[i + 1];
               s11 = buff1[i + 1];
               s21 = buff2[i + 1];
               s0  = vis_faligndata(s00, s01);
               s1  = vis_faligndata(s10, s11);
               s2  = vis_faligndata(s20, s21);

               d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
               d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
               d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
               d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
               d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
               d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

               d00 = vis_fpadd16(d00, d10);
               d0  = vis_fpadd16(d20, d0);
               d0  = vis_fpadd16(d00, d0);
               d01 = vis_fpadd16(d01, d11);
               d1  = vis_fpadd16(d21, d1);
               d1  = vis_fpadd16(d01, d1);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }
           }
         }

         pk += 3*m;

       } else { /* jk_size == 4 */

         for (ik = 0; ik < m; ik++, coff += NCHAN) {
           if (!jk && ik == ik_last) continue;

           k0 = pk[ik];
           k1 = pk[ik + m];
           k2 = pk[ik + 2*m];
           k3 = pk[ik + 3*m];

           doff  = coff/8;
           buff0 = buff[jk    ] + doff;
           buff1 = buff[jk + 1] + doff;
           buff2 = buff[jk + 2] + doff;
           buff3 = buff[jk + 3] + doff;

           off = coff & 7;
           vis_write_gsr(gsr_scale + off);

           if (off == 0) {

 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s0 = buff0[i];
               s1 = buff1[i];
               s2 = buff2[i];
               s3 = buff3[i];

               d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
               d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
               d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
               d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
               d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
               d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
               d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
               d31 = vis_fmul8x16au(vis_read_lo(s3), k3);

               d00 = vis_fpadd16(d00, d10);
               d20 = vis_fpadd16(d20, d30);
               d0  = vis_fpadd16(d0,  d00);
               d0  = vis_fpadd16(d0,  d20);
               d01 = vis_fpadd16(d01, d11);
               d21 = vis_fpadd16(d21, d31);
               d1  = vis_fpadd16(d1,  d01);
               d1  = vis_fpadd16(d1,  d21);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }

           } else if (off == 4) {

             s01 = buff0[0];
             s11 = buff1[0];
             s21 = buff2[0];
             s31 = buff3[0];
 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s00 = s01;
               s10 = s11;
               s20 = s21;
               s30 = s31;
               s01 = buff0[i + 1];
               s11 = buff1[i + 1];
               s21 = buff2[i + 1];
               s31 = buff3[i + 1];

               d00 = vis_fmul8x16au(vis_read_lo(s00), k0);
               d01 = vis_fmul8x16au(vis_read_hi(s01), k0);
               d10 = vis_fmul8x16au(vis_read_lo(s10), k1);
               d11 = vis_fmul8x16au(vis_read_hi(s11), k1);
               d20 = vis_fmul8x16au(vis_read_lo(s20), k2);
               d21 = vis_fmul8x16au(vis_read_hi(s21), k2);
               d30 = vis_fmul8x16au(vis_read_lo(s30), k3);
               d31 = vis_fmul8x16au(vis_read_hi(s31), k3);

               d00 = vis_fpadd16(d00, d10);
               d20 = vis_fpadd16(d20, d30);
               d0  = vis_fpadd16(d0,  d00);
               d0  = vis_fpadd16(d0,  d20);
               d01 = vis_fpadd16(d01, d11);
               d21 = vis_fpadd16(d21, d31);
               d1  = vis_fpadd16(d1,  d01);
               d1  = vis_fpadd16(d1,  d21);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }

           } else {

             s01 = buff0[0];
             s11 = buff1[0];
             s21 = buff2[0];
             s31 = buff3[0];
 #pragma pipeloop(0)
             for (i = 0; i < (xsize + 7)/8; i++) {
               d0 = buffd[2*i];
               d1 = buffd[2*i + 1];

               s00 = s01;
               s10 = s11;
               s20 = s21;
               s30 = s31;
               s01 = buff0[i + 1];
               s11 = buff1[i + 1];
               s21 = buff2[i + 1];
               s31 = buff3[i + 1];
               s0  = vis_faligndata(s00, s01);
               s1  = vis_faligndata(s10, s11);
               s2  = vis_faligndata(s20, s21);
               s3  = vis_faligndata(s30, s31);

               d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
               d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
               d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
               d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
               d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
               d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
               d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
               d31 = vis_fmul8x16au(vis_read_lo(s3), k3);

               d00 = vis_fpadd16(d00, d10);
               d20 = vis_fpadd16(d20, d30);
               d0  = vis_fpadd16(d0,  d00);
               d0  = vis_fpadd16(d0,  d20);
               d01 = vis_fpadd16(d01, d11);
               d21 = vis_fpadd16(d21, d31);
               d1  = vis_fpadd16(d1,  d01);
               d1  = vis_fpadd16(d1,  d21);
               buffd[2*i] = d0;
               buffd[2*i + 1] = d1;
             }
           }
         }

         pk += 4*m;
       }
     }

     /*****************************************
      *****************************************
      **          Final iteration            **
      *****************************************
      *****************************************/

     jk_size = n;
 #ifdef CONV_INDEX
     if (jk_size >= 5) jk_size = 3;
     if (jk_size == 4) jk_size = 2;
 #else
     if (jk_size >= 6) jk_size = 4;
     if (jk_size == 5) jk_size = 3;
 #endif

     k0 = karr[ik_last];
     k1 = karr[ik_last + m];
     k2 = karr[ik_last + 2*m];
     k3 = karr[ik_last + 3*m];

     off  = ik_last*NCHAN;
     doff = off/8;
     off &= 7;
     buff0 = buff[0] + doff;
     buff1 = buff[1] + doff;
     buff2 = buff[2] + doff;
     buff3 = buff[3] + doff;
     vis_write_gsr(gsr_scale + off);

 #ifndef CONV_INDEX
     if (jk_size == 2) {
       dp = ((mlib_addr)dl & 7) ? buffe : (mlib_d64*)dl;

       s01 = buff0[0];
       s11 = buff1[0];
 #pragma pipeloop(0)
       for (i = 0; i < xsize/8; i++) {
         s00 = s01;
         s10 = s11;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);

         dd = vis_fpack16_pair(d0, d1);
         dp[i] = dd;

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if (emask) {
         s00 = s01;
         s10 = s11;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);

         dd = vis_fpack16_pair(d0, d1);
         vis_pst_8(dd, dp + i, emask);

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if ((mlib_u8*)dp != dl) mlib_ImageCopy_na((void*)buffe, dl, xsize);

     } else if (jk_size == 3) {

       dp = ((mlib_addr)dl & 7) ? buffe : (mlib_d64*)dl;

       s01 = buff0[0];
       s11 = buff1[0];
       s21 = buff2[0];
 #pragma pipeloop(0)
       for (i = 0; i < xsize/8; i++) {
         s00 = s01;
         s10 = s11;
         s20 = s21;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s21 = buff2[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);
         s2  = vis_faligndata(s20, s21);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
         d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
         d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d0 = vis_fpadd16(d0, d20);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d1 = vis_fpadd16(d1, d21);

         dd = vis_fpack16_pair(d0, d1);
         dp[i] = dd;

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if (emask) {
         s00 = s01;
         s10 = s11;
         s20 = s21;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s21 = buff2[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);
         s2  = vis_faligndata(s20, s21);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
         d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
         d21 = vis_fmul8x16au(vis_read_lo(s2), k2);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d0 = vis_fpadd16(d0, d20);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d1 = vis_fpadd16(d1, d21);

         dd = vis_fpack16_pair(d0, d1);
         vis_pst_8(dd, dp + i, emask);

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if ((mlib_u8*)dp != dl) mlib_ImageCopy_na((void*)buffe, dl, xsize);

     } else /* if (jk_size == 4) */ {

       dp = ((mlib_addr)dl & 7) ? buffe : (mlib_d64*)dl;

       s01 = buff0[0];
       s11 = buff1[0];
       s21 = buff2[0];
       s31 = buff3[0];
 #pragma pipeloop(0)
       for (i = 0; i < xsize/8; i++) {
         s00 = s01;
         s10 = s11;
         s20 = s21;
         s30 = s31;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s21 = buff2[i + 1];
         s31 = buff3[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);
         s2  = vis_faligndata(s20, s21);
         s3  = vis_faligndata(s30, s31);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
         d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
         d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
         d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
         d31 = vis_fmul8x16au(vis_read_lo(s3), k3);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d0 = vis_fpadd16(d0, d20);
         d0 = vis_fpadd16(d0, d30);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d1 = vis_fpadd16(d1, d21);
         d1 = vis_fpadd16(d1, d31);

         dd = vis_fpack16_pair(d0, d1);
         dp[i] = dd;

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if (emask) {
         s00 = s01;
         s10 = s11;
         s20 = s21;
         s30 = s31;
         s01 = buff0[i + 1];
         s11 = buff1[i + 1];
         s21 = buff2[i + 1];
         s31 = buff3[i + 1];
         s0  = vis_faligndata(s00, s01);
         s1  = vis_faligndata(s10, s11);
         s2  = vis_faligndata(s20, s21);
         s3  = vis_faligndata(s30, s31);

         d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
         d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
         d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
         d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
         d31 = vis_fmul8x16au(vis_read_lo(s3), k3);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d0 = vis_fpadd16(d0, d20);
         d0 = vis_fpadd16(d0, d30);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d1 = vis_fpadd16(d1, d21);
         d1 = vis_fpadd16(d1, d31);

         dd = vis_fpack16_pair(d0, d1);
         vis_pst_8(dd, dp + i, emask);

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
       }

       if ((mlib_u8*)dp != dl) mlib_ImageCopy_na((void*)buffe, dl, xsize);
     }

 #else /* CONV_INDEX */

     if (jk_size == 2) {
       vis_write_gsr(gsr_scale + 7);

 #pragma pipeloop(0)
       for (i = 0; i < dsize; i += 3) {
         mlib_d64 d00, d01, d02, d03, d04, d05;
         mlib_d64 d10, d11, d12, d13, d14, d15;
         mlib_d64 d0, d1, d2, d3, d4, d5;
         mlib_d64 s00 = buff0[i];
         mlib_d64 s01 = buff0[i + 1];
         mlib_d64 s02 = buff0[i + 2];
         mlib_d64 s10 = buff1[i];
         mlib_d64 s11 = buff1[i + 1];
         mlib_d64 s12 = buff1[i + 2];

         d00 = vis_fmul8x16au(vis_read_hi(s00), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s00), k0);
         d02 = vis_fmul8x16au(vis_read_hi(s01), k0);
         d03 = vis_fmul8x16au(vis_read_lo(s01), k0);
         d04 = vis_fmul8x16au(vis_read_hi(s02), k0);
         d05 = vis_fmul8x16au(vis_read_lo(s02), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s10), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s10), k1);
         d12 = vis_fmul8x16au(vis_read_hi(s11), k1);
         d13 = vis_fmul8x16au(vis_read_lo(s11), k1);
         d14 = vis_fmul8x16au(vis_read_hi(s12), k1);
         d15 = vis_fmul8x16au(vis_read_lo(s12), k1);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d2 = buffd[2*i + 2];
         d3 = buffd[2*i + 3];
         d4 = buffd[2*i + 4];
         d5 = buffd[2*i + 5];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d2 = vis_fpadd16(d2, d02);
         d2 = vis_fpadd16(d2, d12);
         d3 = vis_fpadd16(d3, d03);
         d3 = vis_fpadd16(d3, d13);
         d4 = vis_fpadd16(d4, d04);
         d4 = vis_fpadd16(d4, d14);
         d5 = vis_fpadd16(d5, d05);
         d5 = vis_fpadd16(d5, d15);

         buffe[i    ] = vis_fpack16_pair(d0, d1);
         buffe[i + 1] = vis_fpack16_pair(d2, d3);
         buffe[i + 2] = vis_fpack16_pair(d4, d5);

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
         buffd[2*i + 2] = drnd;
         buffd[2*i + 3] = drnd;
         buffd[2*i + 4] = drnd;
         buffd[2*i + 5] = drnd;

         LOAD_SRC();
       }

     } else /* if (jk_size == 3) */ {
       vis_write_gsr(gsr_scale + 7);

 #pragma pipeloop(0)
       for (i = 0; i < dsize; i += 3) {
         mlib_d64 d00, d01, d02, d03, d04, d05;
         mlib_d64 d10, d11, d12, d13, d14, d15;
         mlib_d64 d20, d21, d22, d23, d24, d25;
         mlib_d64 d0, d1, d2, d3, d4, d5;
         mlib_d64 s00 = buff0[i];
         mlib_d64 s01 = buff0[i + 1];
         mlib_d64 s02 = buff0[i + 2];
         mlib_d64 s10 = buff1[i];
         mlib_d64 s11 = buff1[i + 1];
         mlib_d64 s12 = buff1[i + 2];
         mlib_d64 s20 = buff2[i];
         mlib_d64 s21 = buff2[i + 1];
         mlib_d64 s22 = buff2[i + 2];

         d00 = vis_fmul8x16au(vis_read_hi(s00), k0);
         d01 = vis_fmul8x16au(vis_read_lo(s00), k0);
         d02 = vis_fmul8x16au(vis_read_hi(s01), k0);
         d03 = vis_fmul8x16au(vis_read_lo(s01), k0);
         d04 = vis_fmul8x16au(vis_read_hi(s02), k0);
         d05 = vis_fmul8x16au(vis_read_lo(s02), k0);
         d10 = vis_fmul8x16au(vis_read_hi(s10), k1);
         d11 = vis_fmul8x16au(vis_read_lo(s10), k1);
         d12 = vis_fmul8x16au(vis_read_hi(s11), k1);
         d13 = vis_fmul8x16au(vis_read_lo(s11), k1);
         d14 = vis_fmul8x16au(vis_read_hi(s12), k1);
         d15 = vis_fmul8x16au(vis_read_lo(s12), k1);
         d20 = vis_fmul8x16au(vis_read_hi(s20), k2);
         d21 = vis_fmul8x16au(vis_read_lo(s20), k2);
         d22 = vis_fmul8x16au(vis_read_hi(s21), k2);
         d23 = vis_fmul8x16au(vis_read_lo(s21), k2);
         d24 = vis_fmul8x16au(vis_read_hi(s22), k2);
         d25 = vis_fmul8x16au(vis_read_lo(s22), k2);

         d0 = buffd[2*i];
         d1 = buffd[2*i + 1];
         d2 = buffd[2*i + 2];
         d3 = buffd[2*i + 3];
         d4 = buffd[2*i + 4];
         d5 = buffd[2*i + 5];
         d0 = vis_fpadd16(d0, d00);
         d0 = vis_fpadd16(d0, d10);
         d0 = vis_fpadd16(d0, d20);
         d1 = vis_fpadd16(d1, d01);
         d1 = vis_fpadd16(d1, d11);
         d1 = vis_fpadd16(d1, d21);
         d2 = vis_fpadd16(d2, d02);
         d2 = vis_fpadd16(d2, d12);
         d2 = vis_fpadd16(d2, d22);
         d3 = vis_fpadd16(d3, d03);
         d3 = vis_fpadd16(d3, d13);
         d3 = vis_fpadd16(d3, d23);
         d4 = vis_fpadd16(d4, d04);
         d4 = vis_fpadd16(d4, d14);
         d4 = vis_fpadd16(d4, d24);
         d5 = vis_fpadd16(d5, d05);
         d5 = vis_fpadd16(d5, d15);
         d5 = vis_fpadd16(d5, d25);

         buffe[i    ] = vis_fpack16_pair(d0, d1);
         buffe[i + 1] = vis_fpack16_pair(d2, d3);
         buffe[i + 2] = vis_fpack16_pair(d4, d5);

         buffd[2*i    ] = drnd;
         buffd[2*i + 1] = drnd;
         buffd[2*i + 2] = drnd;
         buffd[2*i + 3] = drnd;
         buffd[2*i + 4] = drnd;
         buffd[2*i + 5] = drnd;

         LOAD_SRC();
       }
     }
 #endif /* CONV_INDEX */

 #ifdef CONV_INDEX
     mlib_ImageColorTrue2IndexLine_U8_S16_3((void*)buffe, dl, wid, colormap);
 #endif /* CONV_INDEX */

     sl += sll;
     dl += dll;

     buff_ind++;
     if (buff_ind >= (n + 1)) buff_ind = 0;
   }

   mlib_free(pbuff);
   if (buffs != buffs_local) mlib_free(buffs);

   return MLIB_SUCCESS;
 }

 /***************************************************************/