src/solaris/native/sun/awt/medialib/mlib_v_ImageChannelExtract_43.c - toolchain/jdk/jdk9_jdk - Git at Google

 /*
  * Copyright (c) 1998, 2003, Oracle and/or its affiliates. All rights reserved.
  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
  *
  * This code is free software; you can redistribute it and/or modify it
  * under the terms of the GNU General Public License version 2 only, as
  * published by the Free Software Foundation.  Oracle designates this
  * particular file as subject to the "Classpath" exception as provided
  * by Oracle in the LICENSE file that accompanied this code.
  *
  * This code is distributed in the hope that it will be useful, but WITHOUT
  * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
  * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
  * version 2 for more details (a copy is included in the LICENSE file that
  * accompanied this code).
  *
  * You should have received a copy of the GNU General Public License version
  * 2 along with this work; if not, write to the Free Software Foundation,
  * Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
  *
  * Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
  * or visit www.oracle.com if you need additional information or have any
  * questions.
  */


 /*
  * FILENAME: mlib_v_ImageChannelExtract_43.c
  *
  * FUNCTIONS
  *      mlib_v_ImageChannelExtract_U8_43R_A8D1X8
  *      mlib_v_ImageChannelExtract_U8_43R_A8D2X8
  *      mlib_v_ImageChannelExtract_U8_43R_D1
  *      mlib_v_ImageChannelExtract_U8_43R
  *      mlib_v_ImageChannelExtract_S16_43R_A8D1X4
  *      mlib_v_ImageChannelExtract_S16_43R_A8D2X4
  *      mlib_v_ImageChannelExtract_S16_43R_D1
  *      mlib_v_ImageChannelExtract_S16_43R
  *      mlib_v_ImageChannelExtract_U8_43L_A8D1X8
  *      mlib_v_ImageChannelExtract_U8_43L_A8D2X8
  *      mlib_v_ImageChannelExtract_U8_43L_D1
  *      mlib_v_ImageChannelExtract_U8_43L
  *      mlib_v_ImageChannelExtract_S16_43L_A8D1X4
  *      mlib_v_ImageChannelExtract_S16_43L_A8D2X4
  *      mlib_v_ImageChannelExtract_S16_43L_D1
  *      mlib_v_ImageChannelExtract_S16_43L
  *
  * SYNOPSIS
  *
  * ARGUMENT
  *      src    pointer to source image data
  *      dst    pointer to destination image data
  *      slb    source image line stride in bytes
  *      dlb    destination image line stride in bytes
  *      dsize image data size in pixels
  *      xsize  image width in pixels
  *      ysize  image height in lines
  *      cmask channel mask
  *
  * DESCRIPTION
  *      extract the right or left 3 channels of a 4-channel image to
  *      a 3-channel image -- VIS version low level functions.
  *
  *      ABGR => BGR   (43R), or  RGBA => RGB  (43L)
  *
  * NOTE
  *      These functions are separated from mlib_v_ImageChannelExtract.c
  *      for loop unrolling and structure clarity.
  */

 #include "vis_proto.h"
 #include "mlib_image.h"
 #include "mlib_v_ImageChannelExtract.h"

 /***************************************************************/
 #define EXTRACT_U8_43R_old          /* shift right */           \
   dd2 = vis_faligndata(sd3, dd2);    /* r7-------------- */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* g7r7------------ */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* b7g7r7---------- */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* r6b7g7r7-------- */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* g6r6b7g7r7------ */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* b6g6r6b7g7r7---- */     \
                                                                 \
   dd2 = vis_faligndata(sd2, dd2);    /* r5b6g6r6b7g7r7-- */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd2 = vis_faligndata(sd2, dd2);    /* g5r5b6g6r6b7g7r7 */     \
                                                                 \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* b5-------------- */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* r4b5------------ */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* g4r4b5---------- */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* b4g4r4b5-------- */     \
                                                                 \
   dd1 = vis_faligndata(sd1, dd1);    /* r3b4g4r4b5------ */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(sd1, dd1);    /* g3r3b4g4r4b5---- */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(sd1, dd1);    /* b3g3r3b4g4r4b5-- */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(sd1, dd1);    /* r2b3g3r3b4g4r4b5 */     \
                                                                 \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd0 = vis_faligndata(sd1, dd0);    /* g2-------------- */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd0 = vis_faligndata(sd1, dd0);    /* b2g2------------ */     \
                                                                 \
   dd0 = vis_faligndata(sd0, dd0);    /* r1b2g2---------- */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);    /* g1r1b2g2-------- */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);    /* b1g1r1b2g2------ */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);    /* r0b1g1r1b2g2---- */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);    /* g0r0b1g1r1b2g2-- */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);           /* b0g0r0b1g1r1b2g2 */

 /***************************************************************/
 #define EXTRACT_U8_43R              /* shift right */           \
   vis_alignaddr((void *)0, 5);                                  \
   dd2 = vis_faligndata(sd3, dd2);    /* b7g7r7---------- */     \
   sda = vis_freg_pair(vis_read_hi(sd3), vis_read_hi(sd3));      \
   dd2 = vis_faligndata(sda, dd2);    /* b6g6r6b7g7r7---- */     \
                                                                 \
   vis_alignaddr((void *)0, 6);                                  \
   dd2 = vis_faligndata(sd2, dd2);    /* g5r5b6g6r6b7g7r7 */     \
                                                                 \
   vis_alignaddr((void *)0, 5);                                  \
   dd1 = vis_faligndata(sd2, dd1);    /* b5g5r5---------- */     \
   sda = vis_freg_pair(vis_read_hi(sd2), vis_read_hi(sd2));      \
   dd1 = vis_faligndata(sda, dd1);    /* b4g4r4b5g5r5---- */     \
   dd1 = vis_faligndata(sd1, dd1);    /* b3g3r3b4g4r4b5g5 */     \
   sda = vis_freg_pair(vis_read_hi(sd1), vis_read_hi(sd1));      \
   vis_alignaddr((void *)0, 7);                                  \
   dd1 = vis_faligndata(sda, dd1);    /* r2b3g3r3b4g4r4b5 */     \
                                                                 \
   vis_alignaddr((void *)0, 5);                                  \
   dd0 = vis_faligndata(sda, dd0);    /* b2g2r2---------- */     \
   dd0 = vis_faligndata(sd0, dd0);    /* b1g1r1b2g2r2---- */     \
   sda = vis_freg_pair(vis_read_hi(sd0), vis_read_hi(sd0));      \
   dd0 = vis_faligndata(sda, dd0);           /* b0g0r0b1g1r1b2g2 */

 /***************************************************************/
 #define LOAD_EXTRACT_U8_43R_STORE                               \
   sd0 = *sp++;          /* --b0g0r0--b1g1r1 */                  \
   sd1 = *sp++;          /* --b2g2r2--b3g3r3 */                  \
   sd2 = *sp++;          /* --b4g4r4--b5g5r5 */                  \
   sd3 = *sp++;          /* --b6g6r6--b7g7r7 */                  \
   EXTRACT_U8_43R;                                               \
   *dp++ = dd0;          /* b0g0r0b1g1r1b2g2 */                  \
   *dp++ = dd1;          /* r2b3g3r3b4g4r4b5 */                  \
   *dp++ = dd2;                              /* g5r5b6g6r6b7g7r7 */

 /***************************************************************/
 #define LOAD_EXTRACT_U8_43R                                     \
   vis_alignaddr((void *)soff, 0);                               \
   s0 = s4;                                                      \
   s1 = sp[1];                                                   \
   s2 = sp[2];                                                   \
   s3 = sp[3];                                                   \
   s4 = sp[4];                                                   \
   sd0 = vis_faligndata(s0, s1);                                 \
   sd1 = vis_faligndata(s1, s2);                                 \
   sd2 = vis_faligndata(s2, s3);                                 \
   sd3 = vis_faligndata(s3, s4);                                 \
   sp += 4;                                                      \
   dd2old = dd2;                                                 \
   EXTRACT_U8_43R

 /***************************************************************/
 /*
  * Both source and destination image data are 1-d vectors and
  * 8-byte aligned. And dsize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_U8_43R_A8D1X8(const mlib_u8 *src,
                                               mlib_u8       *dst,
                                               mlib_s32      dsize)
 {
   mlib_d64 *sp, *dp;
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 sda;
   mlib_s32 i;

   sp = (mlib_d64 *) src;
   dp = (mlib_d64 *) dst;

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 7); *//* only for _old */

 #pragma pipeloop(0)
   for (i = 0; i < dsize / 8; i++) {
     LOAD_EXTRACT_U8_43R_STORE;
   }
 }

 /***************************************************************/
 /*
  * Either source or destination image data are not 1-d vectors, but
  * they are 8-byte aligned. And slb and dlb are multiple of 8.
  * The xsize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_U8_43R_A8D2X8(const mlib_u8 *src,
                                               mlib_s32      slb,
                                               mlib_u8       *dst,
                                               mlib_s32      dlb,
                                               mlib_s32      xsize,
                                               mlib_s32      ysize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 *sl, *dl;                                  /* 8-byte aligned pointer for line */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 sda;
   mlib_s32 i, j;                                      /* indices for x, y */

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 7); *//* only for _old */

   sp = sl = (mlib_d64 *) src;
   dp = dl = (mlib_d64 *) dst;

   /* row loop */
   for (j = 0; j < ysize; j++) {
     /* 8-byte column loop */
 #pragma pipeloop(0)
     for (i = 0; i < xsize / 8; i++) {
       LOAD_EXTRACT_U8_43R_STORE;
     }

     sp = sl = (mlib_d64 *) ((mlib_u8 *) sl + slb);
     dp = dl = (mlib_d64 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/
 /*
  * Either source or destination data are not 8-byte aligned.
  * And dsize is is in pixels.
  */

 void mlib_v_ImageChannelExtract_U8_43R_D1(const mlib_u8 *src,
                                           mlib_u8       *dst,
                                           mlib_s32      dsize)
 {
   mlib_u8 *sa, *da;
   mlib_u8 *dend, *dend2;                              /* end points in dst */
   mlib_d64 *dp;                                       /* 8-byte aligned start points in dst */
   mlib_d64 *sp;                                       /* 8-byte aligned start point in src */
   mlib_d64 s0, s1, s2, s3, s4;                        /* 8-byte source row data */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* 8-byte source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 dd2old;                                    /* the last datum of the last step */
   mlib_d64 sda;
   mlib_s32 soff;                                      /* offset of address in src */
   mlib_s32 doff;                                      /* offset of address in dst */
   mlib_s32 emask;                                     /* edge mask */
   mlib_s32 i, n;

   sa = (void *)src;
   da = dst;

   /* prepare the source address */
   sp = (mlib_d64 *) ((mlib_addr) sa & (~7));
   soff = ((mlib_addr) sa & 7);

   /* prepare the destination addresses */
   dp = (mlib_d64 *) ((mlib_addr) da & (~7));
   dend = da + dsize * 3 - 1;
   dend2 = dend - 23;
   doff = 8 - ((mlib_addr) da & 7);

   /* generate edge mask for the start point */
   emask = vis_edge8(da, dend);

   /* load 32 byte, convert, store 24 bytes */
   s4 = sp[0];                               /* initial value */
   LOAD_EXTRACT_U8_43R;

   if (dsize >= 8) {
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       *dp++ = dd1;
       *dp++ = dd2;
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd0, dd0), dp++, emask);
       *dp++ = vis_faligndata(dd0, dd1);
       *dp++ = vis_faligndata(dd1, dd2);
     }
   }
   else {                                    /* for very small size */
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd0, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(vis_faligndata(dd1, dd2), dp++, emask);
           if ((mlib_addr) dp <= (mlib_addr) dend) {
             emask = vis_edge8(dp, dend);
             vis_pst_8(vis_faligndata(dd2, dd2), dp++, emask);
           }
         }
       }
     }
   }

   /* no edge handling is needed in the loop */
   if (doff == 8) {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_U8_43R;
         *dp++ = dd0;
         *dp++ = dd1;
         *dp++ = dd2;
       }
     }
   }
   else {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_U8_43R;
         vis_alignaddr((void *)doff, 0);
         *dp++ = vis_faligndata(dd2old, dd0);
         *dp++ = vis_faligndata(dd0, dd1);
         *dp++ = vis_faligndata(dd1, dd2);
       }
     }
   }

   if ((mlib_addr) dp <= (mlib_addr) dend) {
     LOAD_EXTRACT_U8_43R;
     emask = vis_edge8(dp, dend);
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd2old, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }
 }

 /***************************************************************/
 void mlib_v_ImageChannelExtract_U8_43R(const mlib_u8 *src,
                                        mlib_s32      slb,
                                        mlib_u8       *dst,
                                        mlib_s32      dlb,
                                        mlib_s32      xsize,
                                        mlib_s32      ysize)
 {
   mlib_u8 *sa, *da;
   mlib_u8 *sl, *dl;
   mlib_s32 j;

   sa = sl = (void *)src;
   da = dl = dst;

   for (j = 0; j < ysize; j++) {
     mlib_v_ImageChannelExtract_U8_43R_D1(sa, da, xsize);
     sa = sl += slb;
     da = dl += dlb;
   }
 }

 /***************************************************************/
 #define EXTRACT_S16_43R_old      /* shift right */              \
                                                                 \
   dd2 = vis_faligndata(sd3, dd2);    /* r3------ */             \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* g3r3---- */             \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(sd3, dd2);    /* b3g3r3-- */             \
                                                                 \
   dd2 = vis_faligndata(sd2, dd2);    /* r2b3g3r3 */             \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* g2------ */             \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(sd2, dd1);    /* b2g2---- */             \
                                                                 \
   dd1 = vis_faligndata(sd1, dd1);    /* r1b2g2-- */             \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(sd1, dd1);    /* g1r1b2g2 */             \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd0 = vis_faligndata(sd1, dd0);    /* b1------ */             \
                                                                 \
   dd0 = vis_faligndata(sd0, dd0);    /* r0b1---- */             \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);    /* g0r0b1-- */             \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(sd0, dd0);           /* b0g0r0b1 */

 /***************************************************************/
 #define EXTRACT_S16_43R        /* shift right */                \
                                                                 \
   vis_alignaddr((void *)0, 2);                                  \
   dd2 = vis_faligndata(sd3, dd2);    /* b3g3r3-- */             \
                                                                 \
   vis_alignaddr((void *)0, 6);                                  \
   dd2 = vis_faligndata(sd2, dd2);    /* r2b3g3r3 */             \
   vis_alignaddr((void *)0, 2);                                  \
   dd1 = vis_faligndata(sd2, dd1);    /* b2g2r2-- */             \
                                                                 \
   vis_alignaddr((void *)0, 4);                                  \
   dd1 = vis_faligndata(sd1, dd1);    /* g1r1b2g2 */             \
   vis_alignaddr((void *)0, 2);                                  \
   dd0 = vis_faligndata(sd1, dd0);    /* b1g1r1-- */             \
   dd0 = vis_faligndata(sd0, dd0);           /* b0g0r0b1 */

 /***************************************************************/
 #define LOAD_EXTRACT_S16_43R_STORE                              \
                                                                 \
   sd0 = *sp++;          /* --b0g0r0 */                          \
   sd1 = *sp++;          /* --b1g1r1 */                          \
   sd2 = *sp++;          /* --b2g2r2 */                          \
   sd3 = *sp++;          /* --b3g3r3 */                          \
                                                                 \
   EXTRACT_S16_43R;                                              \
                                                                 \
   *dp++ = dd0;          /* b0g0r0b1 */                          \
   *dp++ = dd1;          /* g1r1b2g2 */                          \
   *dp++ = dd2;                              /* r2b3g3r3 */

 /***************************************************************/
 #define LOAD_EXTRACT_S16_43R                                    \
                                                                 \
   vis_alignaddr((void *)soff, 0);                               \
   s0 = s4;                                                      \
   s1 = sp[1];                                                   \
   s2 = sp[2];                                                   \
   s3 = sp[3];                                                   \
   s4 = sp[4];                                                   \
   sd0 = vis_faligndata(s0, s1);                                 \
   sd1 = vis_faligndata(s1, s2);                                 \
   sd2 = vis_faligndata(s2, s3);                                 \
   sd3 = vis_faligndata(s3, s4);                                 \
   sp += 4;                                                      \
   dd2old = dd2;                                                 \
   EXTRACT_S16_43R

 /***************************************************************/
 /*
  * Both source and destination image data are 1-d vectors and
  * 8-byte aligned. And size is in 4-pixels.
  */

 void mlib_v_ImageChannelExtract_S16_43R_A8D1X4(const mlib_s16 *src,
                                                mlib_s16       *dst,
                                                mlib_s32       dsize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_s32 i;

   sp = (mlib_d64 *) src;
   dp = (mlib_d64 *) dst;

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 6); *//* only for _old */

 #pragma pipeloop(0)
   for (i = 0; i < dsize / 4; i++) {
     LOAD_EXTRACT_S16_43R_STORE;
   }
 }

 /***************************************************************/
 /*
  * Either source or destination image data are not 1-d vectors, but
  * they are 8-byte aligned. The xsize is multiple of 8.
  * slb and dlb are multiple of 8.
  */

 void mlib_v_ImageChannelExtract_S16_43R_A8D2X4(const mlib_s16 *src,
                                                mlib_s32       slb,
                                                mlib_s16       *dst,
                                                mlib_s32       dlb,
                                                mlib_s32       xsize,
                                                mlib_s32       ysize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 *sl, *dl;                                  /* 8-byte aligned pointer for line */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_s32 i, j;                                      /* indices for x, y */

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 6); *//* only for _old */

   sp = sl = (mlib_d64 *) src;
   dp = dl = (mlib_d64 *) dst;

   /* row loop */
   for (j = 0; j < ysize; j++) {
     /* 4-pixel column loop */
 #pragma pipeloop(0)
     for (i = 0; i < xsize / 4; i++) {
       LOAD_EXTRACT_S16_43R_STORE;
     }

     sp = sl = (mlib_d64 *) ((mlib_u8 *) sl + slb);
     dp = dl = (mlib_d64 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/
 /*
  * Either source or destination data are not 8-byte aligned.
  * And dsize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_S16_43R_D1(const mlib_s16 *src,
                                            mlib_s16       *dst,
                                            mlib_s32       dsize)
 {
   mlib_s16 *sa, *da;                                  /* pointer for pixel */
   mlib_s16 *dend, *dend2;                             /* end points in dst */
   mlib_d64 *dp;                                       /* 8-byte aligned start points in dst */
   mlib_d64 *sp;                                       /* 8-byte aligned start point in src */
   mlib_d64 s0, s1, s2, s3, s4;                        /* 8-byte source row data */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* 8-byte source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 dd2old;                                    /* the last datum of the last step */
   mlib_s32 soff;                                      /* offset of address in src */
   mlib_s32 doff;                                      /* offset of address in dst */
   mlib_s32 emask;                                     /* edge mask */
   mlib_s32 i, n;

   sa = (void *)src;
   da = dst;

   /* prepare the source address */
   sp = (mlib_d64 *) ((mlib_addr) sa & (~7));
   soff = ((mlib_addr) sa & 7);

   /* prepare the destination addresses */
   dp = (mlib_d64 *) ((mlib_addr) da & (~7));
   dend = da + dsize * 3 - 1;
   dend2 = dend - 11;
   doff = 8 - ((mlib_addr) da & 7);

   /* generate edge mask for the start point */
   emask = vis_edge16(da, dend);

   /* load 32 byte, convert, store 24 bytes */
   s4 = sp[0];                               /* initial value */
   LOAD_EXTRACT_S16_43R;

   if (dsize >= 4) {
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       *dp++ = dd1;
       *dp++ = dd2;
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd0, dd0), dp++, emask);
       *dp++ = vis_faligndata(dd0, dd1);
       *dp++ = vis_faligndata(dd1, dd2);
     }
   }
   else {                                    /* for very small size */
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd0, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }

   /* no edge handling is needed in the loop */
   if (doff == 8) {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_S16_43R;
         *dp++ = dd0;
         *dp++ = dd1;
         *dp++ = dd2;
       }
     }
   }
   else {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_S16_43R;
         vis_alignaddr((void *)doff, 0);
         *dp++ = vis_faligndata(dd2old, dd0);
         *dp++ = vis_faligndata(dd0, dd1);
         *dp++ = vis_faligndata(dd1, dd2);
       }
     }
   }

   if ((mlib_addr) dp <= (mlib_addr) dend) {
     LOAD_EXTRACT_S16_43R;
     emask = vis_edge16(dp, dend);
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd2old, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }
 }

 /***************************************************************/
 void mlib_v_ImageChannelExtract_S16_43R(const mlib_s16 *src,
                                         mlib_s32       slb,
                                         mlib_s16       *dst,
                                         mlib_s32       dlb,
                                         mlib_s32       xsize,
                                         mlib_s32       ysize)
 {
   mlib_s16 *sa, *da;
   mlib_s16 *sl, *dl;
   mlib_s32 j;

   sa = sl = (void *)src;
   da = dl = dst;

   for (j = 0; j < ysize; j++) {
     mlib_v_ImageChannelExtract_S16_43R_D1(sa, da, xsize);
     sa = sl = (mlib_s16 *) ((mlib_u8 *) sl + slb);
     da = dl = (mlib_s16 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/
 #define EXTRACT_U8_43L_old      /* shift left */                \
                                                                 \
   dd0 = vis_faligndata(dd0, sd0);    /* --------------r0 */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(dd0, sd0);    /* ------------r0g0 */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(dd0, sd0);    /* ----------r0g0b0 */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(dd0, sd0);    /* --------r0g0b0r1 */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(dd0, sd0);    /* ------r0g0b0r1g1 */     \
   sd0 = vis_faligndata(sd0, sd0);                               \
   dd0 = vis_faligndata(dd0, sd0);    /* ----r0g0b0r1g1b1 */     \
                                                                 \
   dd0 = vis_faligndata(dd0, sd1);    /* --r0g0b0r1g1b1r2 */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd0 = vis_faligndata(dd0, sd1);    /* r0g0b0r1g1b1r2g2 */     \
                                                                 \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(dd1, sd1);    /* --------------b2 */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(dd1, sd1);    /* ------------b2r3 */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(dd1, sd1);    /* ----------b2r3g3 */     \
   sd1 = vis_faligndata(sd1, sd1);                               \
   dd1 = vis_faligndata(dd1, sd1);    /* --------b2r3g3b3 */     \
                                                                 \
   dd1 = vis_faligndata(dd1, sd2);    /* ------b2r3g3b3r4 */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(dd1, sd2);    /* ----b2r3g3b3r4g4 */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(dd1, sd2);    /* --b2r3g3b3r4g4b4 */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd1 = vis_faligndata(dd1, sd2);    /* b2r3g3b3r4g4b4r5 */     \
                                                                 \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd2 = vis_faligndata(dd2, sd2);    /* --------------g5 */     \
   sd2 = vis_faligndata(sd2, sd2);                               \
   dd2 = vis_faligndata(dd2, sd2);    /* ------------g5b5 */     \
                                                                 \
   dd2 = vis_faligndata(dd2, sd3);    /* ----------g5b5r6 */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(dd2, sd3);    /* --------g5b5r6g6 */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(dd2, sd3);    /* ------g5b5r6g6b6 */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(dd2, sd3);    /* ----g5b5r6g6b6r7 */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(dd2, sd3);    /* --g5b5r6g6b6r7g7 */     \
   sd3 = vis_faligndata(sd3, sd3);                               \
   dd2 = vis_faligndata(dd2, sd3);           /* g5b5r6g6b6r7g7b7 */

 /***************************************************************/
 #define EXTRACT_U8_43L        /* shift left */                  \
                                                                 \
   vis_alignaddr((void *)0, 3);                                  \
   dd0 = vis_faligndata(dd0, sd0);    /* ----------r0g0b0 */     \
   sda = vis_freg_pair(vis_read_lo(sd0), vis_read_hi(sd0));      \
   dd0 = vis_faligndata(dd0, sda);    /* ----r0g0b0r1g1b1 */     \
                                                                 \
   vis_alignaddr((void *)0, 2);                                  \
   dd0 = vis_faligndata(dd0, sd1);    /* r0g0b0r1g1b1r2g2 */     \
                                                                 \
   vis_alignaddr((void *)0, 3);                                  \
   dd1 = vis_faligndata(dd1, sd1);    /* ----------r2g2b2 */     \
   sda = vis_freg_pair(vis_read_lo(sd1), vis_read_hi(sd1));      \
   dd1 = vis_faligndata(dd1, sda);    /* ----r2g2b2r3g3b3 */     \
   dd1 = vis_faligndata(dd1, sd2);    /* g2b2r3g3b3r4g4b4 */     \
                                                                 \
   sda = vis_freg_pair(vis_read_lo(sd2), vis_read_hi(sd2));      \
   vis_alignaddr((void *)0, 1);                                  \
   dd1 = vis_faligndata(dd1, sda);    /* b2r3g3b3r4g4b4r5 */     \
                                                                 \
   vis_alignaddr((void *)0, 3);                                  \
   dd2 = vis_faligndata(dd2, sda);    /* ----------r5g5b5 */     \
                                                                 \
   dd2 = vis_faligndata(dd2, sd3);    /* ----r5g5b5r6g6b6 */     \
   sda = vis_freg_pair(vis_read_lo(sd3), vis_read_hi(sd3));      \
   dd2 = vis_faligndata(dd2, sda);           /* g5b5r6g6b6r7g7b7 */

 /***************************************************************/
 #define LOAD_EXTRACT_U8_43L_STORE                               \
                                                                 \
   sd0 = *sp++;          /* r0g0b0--r1g1b1-- */                  \
   sd1 = *sp++;          /* r2g2b2--r3g3b3-- */                  \
   sd2 = *sp++;          /* r4g4b4--r5g5b5-- */                  \
   sd3 = *sp++;          /* r6g6b6--r7g7b7-- */                  \
                                                                 \
   EXTRACT_U8_43L;                                               \
                                                                 \
   *dp++ = dd0;          /* r0g0b0r1g1b1r2g2 */                  \
   *dp++ = dd1;          /* b2r3g3b3r4g4b4r5 */                  \
   *dp++ = dd2;                              /* g5b5r6g6b6r7g7b7 */

 /***************************************************************/
 #define LOAD_EXTRACT_U8_43L                                             \
                                                                         \
   vis_alignaddr((void *)soff, 0);                                       \
   s0 = s4;                                                              \
   s1 = sp[1];                                                           \
   s2 = sp[2];                                                           \
   s3 = sp[3];                                                           \
   s4 = sp[4];                                                           \
   sd0 = vis_faligndata(s0, s1);  /* the intermediate is ABGR aligned */ \
   sd1 = vis_faligndata(s1, s2);                                         \
   sd2 = vis_faligndata(s2, s3);                                         \
   sd3 = vis_faligndata(s3, s4);                                         \
   sp += 4;                                                              \
                                                                         \
 /*  vis_alignaddr((void *)0, 1); */    /* for _old only */              \
   dd2old = dd2;                                                         \
   EXTRACT_U8_43L

 /***************************************************************/
 /*
  * Both source and destination image data are 1-d vectors and
  * 8-byte aligned. And dsize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_U8_43L_A8D1X8(const mlib_u8 *src,
                                               mlib_u8       *dst,
                                               mlib_s32      dsize)
 {
   mlib_d64 *sp, *dp;
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 sda;
   mlib_s32 i;

   sp = (mlib_d64 *) src;
   dp = (mlib_d64 *) dst;

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 1); *//* for _old only */

 #pragma pipeloop(0)
   for (i = 0; i < dsize / 8; i++) {
     LOAD_EXTRACT_U8_43L_STORE;
   }
 }

 /***************************************************************/
 /*
  * Either source or destination image data are not 1-d vectors, but
  * they are 8-byte aligned. And slb and dlb are multiple of 8.
  * The xsize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_U8_43L_A8D2X8(const mlib_u8 *src,
                                               mlib_s32      slb,
                                               mlib_u8       *dst,
                                               mlib_s32      dlb,
                                               mlib_s32      xsize,
                                               mlib_s32      ysize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 *sl, *dl;                                  /* 8-byte aligned pointer for line */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 sda;
   mlib_s32 i, j;                                      /* indices for x, y */

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 1); *//* for _old only */

   sp = sl = (mlib_d64 *) src;
   dp = dl = (mlib_d64 *) dst;

   /* row loop */
   for (j = 0; j < ysize; j++) {
     /* 8-byte column loop */
 #pragma pipeloop(0)
     for (i = 0; i < xsize / 8; i++) {
       LOAD_EXTRACT_U8_43L_STORE;
     }

     sp = sl = (mlib_d64 *) ((mlib_u8 *) sl + slb);
     dp = dl = (mlib_d64 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/
 /*
  * Either source or destination data are not 8-byte aligned.
  * And ssize is multiple of 8.
  */

 void mlib_v_ImageChannelExtract_U8_43L_D1(const mlib_u8 *src,
                                           mlib_u8       *dst,
                                           mlib_s32      dsize)
 {
   mlib_u8 *sa, *da;
   mlib_u8 *dend, *dend2;                              /* end points in dst */
   mlib_d64 *dp;                                       /* 8-byte aligned start points in dst */
   mlib_d64 *sp;                                       /* 8-byte aligned start point in src */
   mlib_d64 s0, s1, s2, s3, s4;                        /* 8-byte source row data */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* 8-byte source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 dd2old;                                    /* the last datum of the last step */
   mlib_d64 sda;
   mlib_s32 soff;                                      /* offset of address in src */
   mlib_s32 doff;                                      /* offset of address in dst */
   mlib_s32 emask;                                     /* edge mask */
   mlib_s32 i, n;

   sa = (void *)src;
   da = dst;

   /* prepare the source address */
   sp = (mlib_d64 *) ((mlib_addr) sa & (~7));
   soff = ((mlib_addr) sa & 7);

   /* prepare the destination addresses */
   dp = (mlib_d64 *) ((mlib_addr) da & (~7));
   dend = da + dsize * 3 - 1;
   dend2 = dend - 23;
   doff = 8 - ((mlib_addr) da & 7);

   /* generate edge mask for the start point */
   emask = vis_edge8(da, dend);

   /* load 32 byte, convert, store 24 bytes */
   s4 = sp[0];                               /* initial value */
   LOAD_EXTRACT_U8_43L;

   if (dsize >= 8) {
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       *dp++ = dd1;
       *dp++ = dd2;
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd0, dd0), dp++, emask);
       *dp++ = vis_faligndata(dd0, dd1);
       *dp++ = vis_faligndata(dd1, dd2);
     }
   }
   else {                                    /* for very small size */
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd0, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(vis_faligndata(dd1, dd2), dp++, emask);
           if ((mlib_addr) dp <= (mlib_addr) dend) {
             emask = vis_edge8(dp, dend);
             vis_pst_8(vis_faligndata(dd2, dd2), dp++, emask);
           }
         }
       }
     }
   }

   /* no edge handling is needed in the loop */
   if (doff == 8) {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_U8_43L;
         *dp++ = dd0;
         *dp++ = dd1;
         *dp++ = dd2;
       }
     }
   }
   else {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_U8_43L;
         vis_alignaddr((void *)doff, 0);
         *dp++ = vis_faligndata(dd2old, dd0);
         *dp++ = vis_faligndata(dd0, dd1);
         *dp++ = vis_faligndata(dd1, dd2);
       }
     }
   }

   if ((mlib_addr) dp <= (mlib_addr) dend) {
     LOAD_EXTRACT_U8_43L;
     emask = vis_edge8(dp, dend);
     if (doff == 8) {
       vis_pst_8(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_8(vis_faligndata(dd2old, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge8(dp, dend);
         vis_pst_8(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge8(dp, dend);
           vis_pst_8(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }
 }

 /***************************************************************/
 void mlib_v_ImageChannelExtract_U8_43L(const mlib_u8 *src,
                                        mlib_s32      slb,
                                        mlib_u8       *dst,
                                        mlib_s32      dlb,
                                        mlib_s32      xsize,
                                        mlib_s32      ysize)
 {
   mlib_u8 *sa, *da;
   mlib_u8 *sl, *dl;
   mlib_s32 j;

   sa = sl = (void *)src;
   da = dl = dst;

   for (j = 0; j < ysize; j++) {
     mlib_v_ImageChannelExtract_U8_43L_D1(sa, da, xsize);
     sa = sl += slb;
     da = dl += dlb;
   }
 }

 /***************************************************************/
 #define EXTRACT_S16_43L              /* shift left */           \
   vis_alignaddr((void *)0, 6);                                  \
   dd0 = vis_faligndata(dd0, sd0);    /* --r0g0b0 */             \
   vis_alignaddr((void *)0, 2);                                  \
   dd0 = vis_faligndata(dd0, sd1);    /* r0g0b0r1 */             \
                                                                 \
   vis_alignaddr((void *)0, 6);                                  \
   dd1 = vis_faligndata(dd1, sd1);    /* --r1g1b1 */             \
   vis_alignaddr((void *)0, 4);                                  \
   dd1 = vis_faligndata(dd1, sd2);    /* g1b1r2g2 */             \
                                                                 \
   vis_alignaddr((void *)0, 6);                                  \
   dd2 = vis_faligndata(dd2, sd2);    /* --r2g2b2 */             \
   dd2 = vis_faligndata(dd2, sd3);           /* b2r3g3b3 */

 /***************************************************************/
 #define LOAD_EXTRACT_S16_43L_STORE                              \
                                                                 \
   sd0 = *sp++;          /* r0g0b0-- */                          \
   sd1 = *sp++;          /* r1g1b1-- */                          \
   sd2 = *sp++;          /* r2g2b2-- */                          \
   sd3 = *sp++;          /* r3g3b3-- */                          \
                                                                 \
   EXTRACT_S16_43L;                                              \
                                                                 \
   *dp++ = dd0;          /* r0g0b0r1 */                          \
   *dp++ = dd1;          /* g1b1r2g2 */                          \
   *dp++ = dd2;                              /* b2r3g3b3 */

 /***************************************************************/
 #define LOAD_EXTRACT_S16_43L                                    \
                                                                 \
   vis_alignaddr((void *)soff, 0);                               \
   s0 = s4;                                                      \
   s1 = sp[1];                                                   \
   s2 = sp[2];                                                   \
   s3 = sp[3];                                                   \
   s4 = sp[4];                                                   \
   sd0 = vis_faligndata(s0, s1);                                 \
   sd1 = vis_faligndata(s1, s2);                                 \
   sd2 = vis_faligndata(s2, s3);                                 \
   sd3 = vis_faligndata(s3, s4);                                 \
   sp += 4;                                                      \
   dd2old = dd2;                                                 \
   EXTRACT_S16_43L

 /***************************************************************/
 /*
  * Both source and destination image data are 1-d vectors and
  * 8-byte aligned. And dsize is multiple of 4.
  */

 void mlib_v_ImageChannelExtract_S16_43L_A8D1X4(const mlib_s16 *src,
                                                mlib_s16       *dst,
                                                mlib_s32       dsize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_s32 i;

   sp = (mlib_d64 *) src;
   dp = (mlib_d64 *) dst;

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 2); *//* only for _old */

 #pragma pipeloop(0)
   for (i = 0; i < dsize / 4; i++) {
     LOAD_EXTRACT_S16_43L_STORE;
   }
 }

 /***************************************************************/
 /*
  * Either source or destination image data are not 1-d vectors, but
  * they are 8-byte aligned. The xsize is multiple of 4.
  * And slb and dlb are multiple of 8.
  */

 void mlib_v_ImageChannelExtract_S16_43L_A8D2X4(const mlib_s16 *src,
                                                mlib_s32       slb,
                                                mlib_s16       *dst,
                                                mlib_s32       dlb,
                                                mlib_s32       xsize,
                                                mlib_s32       ysize)
 {
   mlib_d64 *sp, *dp;                                  /* 8-byte aligned pointer for pixel */
   mlib_d64 *sl, *dl;                                  /* 8-byte aligned pointer for line */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_s32 i, j;                                      /* indices for x, y */

   /* set GSR.offset for vis_faligndata()  */
 /* vis_alignaddr((void *)0, 2); *//* only for _old */

   sp = sl = (mlib_d64 *) src;
   dp = dl = (mlib_d64 *) dst;

   /* row loop */
   for (j = 0; j < ysize; j++) {
     /* 4-pixel column loop */
 #pragma pipeloop(0)
     for (i = 0; i < xsize / 4; i++) {
       LOAD_EXTRACT_S16_43L_STORE;
     }

     sp = sl = (mlib_d64 *) ((mlib_u8 *) sl + slb);
     dp = dl = (mlib_d64 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/
 /*
  * Either source or destination data are not 8-byte aligned.
  * And size is is in pixels.
  */

 void mlib_v_ImageChannelExtract_S16_43L_D1(const mlib_s16 *src,
                                            mlib_s16       *dst,
                                            mlib_s32       dsize)
 {
   mlib_s16 *sa, *da;                                  /* pointer for pixel */
   mlib_s16 *dend, *dend2;                             /* end points in dst */
   mlib_d64 *dp;                                       /* 8-byte aligned start points in dst */
   mlib_d64 *sp;                                       /* 8-byte aligned start point in src */
   mlib_d64 s0, s1, s2, s3, s4;                        /* 8-byte source row data */
   mlib_d64 sd0, sd1, sd2, sd3;                        /* 8-byte source data */
   mlib_d64 dd0, dd1, dd2;                             /* dst data */
   mlib_d64 dd2old;                                    /* the last datum of the last step */
   mlib_s32 soff;                                      /* offset of address in src */
   mlib_s32 doff;                                      /* offset of address in dst */
   mlib_s32 emask;                                     /* edge mask */
   mlib_s32 i, n;

   sa = (void *)src;
   da = dst;

   /* prepare the source address */
   sp = (mlib_d64 *) ((mlib_addr) sa & (~7));
   soff = ((mlib_addr) sa & 7);

   /* prepare the destination addresses */
   dp = (mlib_d64 *) ((mlib_addr) da & (~7));
   dend = da + dsize * 3 - 1;
   dend2 = dend - 11;
   doff = 8 - ((mlib_addr) da & 7);

   /* generate edge mask for the start point */
   emask = vis_edge16(da, dend);

   /* load 32 byte, convert, store 24 bytes */
   s4 = sp[0];                               /* initial value */
   LOAD_EXTRACT_S16_43L;

   if (dsize >= 4) {
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       *dp++ = dd1;
       *dp++ = dd2;
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd0, dd0), dp++, emask);
       *dp++ = vis_faligndata(dd0, dd1);
       *dp++ = vis_faligndata(dd1, dd2);
     }
   }
   else {                                    /* for very small size */
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd0, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }

   /* no edge handling is needed in the loop */
   if (doff == 8) {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_S16_43L;
         *dp++ = dd0;
         *dp++ = dd1;
         *dp++ = dd2;
       }
     }
   }
   else {
     if ((mlib_addr) dp <= (mlib_addr) dend2) {
       n = ((mlib_u8 *) dend2 - (mlib_u8 *) dp) / 24 + 1;
 #pragma pipeloop(0)
       for (i = 0; i < n; i++) {
         LOAD_EXTRACT_S16_43L;
         vis_alignaddr((void *)doff, 0);
         *dp++ = vis_faligndata(dd2old, dd0);
         *dp++ = vis_faligndata(dd0, dd1);
         *dp++ = vis_faligndata(dd1, dd2);
       }
     }
   }

   if ((mlib_addr) dp <= (mlib_addr) dend) {
     LOAD_EXTRACT_S16_43L;
     emask = vis_edge16(dp, dend);
     if (doff == 8) {
       vis_pst_16(dd0, dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(dd1, dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(dd2, dp++, emask);
         }
       }
     }
     else {
       vis_alignaddr((void *)doff, 0);
       vis_pst_16(vis_faligndata(dd2old, dd0), dp++, emask);
       if ((mlib_addr) dp <= (mlib_addr) dend) {
         emask = vis_edge16(dp, dend);
         vis_pst_16(vis_faligndata(dd0, dd1), dp++, emask);
         if ((mlib_addr) dp <= (mlib_addr) dend) {
           emask = vis_edge16(dp, dend);
           vis_pst_16(vis_faligndata(dd1, dd2), dp++, emask);
         }
       }
     }
   }
 }

 /***************************************************************/
 void mlib_v_ImageChannelExtract_S16_43L(const mlib_s16 *src,
                                         mlib_s32       slb,
                                         mlib_s16       *dst,
                                         mlib_s32       dlb,
                                         mlib_s32       xsize,
                                         mlib_s32       ysize)
 {
   mlib_s16 *sa, *da;
   mlib_s16 *sl, *dl;
   mlib_s32 j;

   sa = sl = (void *)src;
   da = dl = dst;

   for (j = 0; j < ysize; j++) {
     mlib_v_ImageChannelExtract_S16_43L_D1(sa, da, xsize);
     sa = sl = (mlib_s16 *) ((mlib_u8 *) sl + slb);
     da = dl = (mlib_s16 *) ((mlib_u8 *) dl + dlb);
   }
 }

 /***************************************************************/