src/java.desktop/unix/native/libmlib_image/mlib_v_ImageAffine_NN.c - platform/libcore - Git at Google

 /*
  * Copyright (c) 1998, 2003, Oracle and/or its affiliates. All rights reserved.
  * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
  *
  * This code is free software; you can redistribute it and/or modify it
  * under the terms of the GNU General Public License version 2 only, as
  * published by the Free Software Foundation.  Oracle designates this
  * particular file as subject to the "Classpath" exception as provided
  * by Oracle in the LICENSE file that accompanied this code.
  *
  * This code is distributed in the hope that it will be useful, but WITHOUT
  * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
  * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
  * version 2 for more details (a copy is included in the LICENSE file that
  * accompanied this code).
  *
  * You should have received a copy of the GNU General Public License version
  * 2 along with this work; if not, write to the Free Software Foundation,
  * Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
  *
  * Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
  * or visit www.oracle.com if you need additional information or have any
  * questions.
  */


 /*
  * FUNCTION
  *      mlib_ImageAffine_u8_1ch_nn
  *      mlib_ImageAffine_u8_2ch_nn
  *      mlib_ImageAffine_u8_3ch_nn
  *      mlib_ImageAffine_u8_4ch_nn
  *      mlib_ImageAffine_s16_1ch_nn
  *      mlib_ImageAffine_s16_2ch_nn
  *      mlib_ImageAffine_s16_3ch_nn
  *      mlib_ImageAffine_s16_4ch_nn
  *        - image affine transformation with Nearest Neighbor filtering
  *
  */

 #include "vis_proto.h"
 #include "mlib_image.h"
 #include "mlib_ImageCopy.h"
 #include "mlib_ImageAffine.h"

 #define BUFF_SIZE  256

 /***************************************************************/
 #define sp srcPixelPtr
 #define dp dstPixelPtr

 /***************************************************************/
 #undef  DTYPE
 #define DTYPE mlib_u8

 #define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, ((x) >> MLIB_SHIFT)))

 /***************************************************************/
 mlib_status mlib_ImageAffine_u8_1ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   mlib_s32 i, size;
 #ifndef _NO_LONGLONG
   mlib_s64 Y0, Y1, dYl;
 #endif /* _NO_LONGLONG */

   for (j = yStart; j <= yFinish; j++) {
     mlib_d64 s0, s1;

     CLIP(1);
     size = xRight - xLeft + 1;

     while (((mlib_s32)dp & 3) && (size > 0)) {
       *dp = *(S_PTR(Y) + (X >> MLIB_SHIFT));
       dp++;
       X += dX;
       Y += dY;
       size--;
     }

 #ifdef _NO_LONGLONG
 #pragma pipeloop(0)
     for (i = 0; i <= (size - 4); i += 4) {
       mlib_u8 *sp0, *sp1, *sp2, *sp3;

       sp0 = S_PTR(Y);
       sp1 = S_PTR(Y +   dY);
       sp2 = S_PTR(Y + 2*dY);
       sp3 = S_PTR(Y + 3*dY);

       s0 = vis_fpmerge(LD_U8(sp0, X), LD_U8(sp2, X + 2*dX));
       s1 = vis_fpmerge(LD_U8(sp1, X + dX), LD_U8(sp3, X + 3*dX));
       s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));

       *(mlib_f32*)dp = vis_read_lo(s0);

       dp += 4;
       X += 4*dX;
       Y += 4*dY;
     }

 #else
     Y0 = ((mlib_s64)(Y + dY) << 32) | Y;

     if (dY >= 0) {
       dYl = ((mlib_s64)dY << 33) | (dY << 1);
     } else {
       dYl = -(((mlib_s64)(-dY) << 33) | ((-dY) << 1));
     }

 #pragma pipeloop(0)
     for (i = 0; i <= (size - 4); i += 4) {
       mlib_u8 *sp0, *sp1, *sp2, *sp3;

       Y1 = Y0 + dYl;
       sp0 = S_PTRl(Y0, 16);
       sp1 = S_PTRl(Y0, 48);
       sp2 = S_PTRl(Y1, 16);
       sp3 = S_PTRl(Y1, 48);

       s0 = vis_fpmerge(LD_U8(sp0, X), LD_U8(sp2, X + 2*dX));
       s1 = vis_fpmerge(LD_U8(sp1, X + dX), LD_U8(sp3, X + 3*dX));
       s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));

       *(mlib_f32*)dp = vis_read_lo(s0);

       dp += 4;
       X += 4*dX;
       Y0 += 2*dYl;
     }

     Y = Y0 & ((1u << 31) - 1);
 #endif /* _NO_LONGLONG */

     for (i = 0; i < (size & 3); i++) {
       dp[i] = *(S_PTR(Y) + (X >> MLIB_SHIFT));
       X += dX;
       Y += dY;
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #undef  LD_U8
 #define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, x))

 /***************************************************************/
 #define GET_POINTERS_2CH                                        \
   sp0 = S_PTR(Y) + 2*(X >> MLIB_SHIFT);                         \
   sp1 = S_PTR(Y +   dY) + 2*((X +   dX) >> MLIB_SHIFT);         \
   sp2 = S_PTR(Y + 2*dY) + 2*((X + 2*dX) >> MLIB_SHIFT);         \
   sp3 = S_PTR(Y + 3*dY) + 2*((X + 3*dX) >> MLIB_SHIFT);         \
   X += 4*dX;                                                    \
   Y += 4*dY

 /***************************************************************/
 #define AFFINE_U8_2CH                                           \
   s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp2, 0));               \
   s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp2, 1));               \
   s2 = vis_fpmerge(LD_U8(sp1, 0), LD_U8(sp3, 0));               \
   s3 = vis_fpmerge(LD_U8(sp1, 1), LD_U8(sp3, 1));               \
                                                                 \
   s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s2));           \
   s1 = vis_fpmerge(vis_read_lo(s1), vis_read_lo(s3));           \
   dd = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1))

 /***************************************************************/
 mlib_status mlib_ImageAffine_u8_2ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *dstLineEnd;
   mlib_s32 i, size;

   for (j = yStart; j <= yFinish; j++) {
     mlib_u8  *sp0, *sp1, *sp2, *sp3;
     mlib_d64 *da, s0, s1, s2, s3, dd, d_old;
     mlib_s32 emask;

     CLIP(2);
     dstLineEnd  = (DTYPE*)dstData + 2 * xRight;
     size = xRight - xLeft + 1;
     dstLineEnd++;

     if (((mlib_s32)dp & 7) == 0) {
 #pragma pipeloop(0)
       for (i = 0; i <= (size - 4); i += 4) {
         GET_POINTERS_2CH;
         AFFINE_U8_2CH;
         *(mlib_d64*)dp = dd;
         dp += 8;
       }

       if (i < size) {
         sp0 = sp1 = sp2 = sp3 = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
         if (i + 1 < size) sp1 = S_PTR(Y +   dY) + 2*((X +   dX) >> MLIB_SHIFT);
         if (i + 2 < size) sp2 = S_PTR(Y + 2*dY) + 2*((X + 2*dX) >> MLIB_SHIFT);
         if (i + 3 < size) sp3 = S_PTR(Y + 3*dY) + 2*((X + 3*dX) >> MLIB_SHIFT);

         AFFINE_U8_2CH;
         emask = vis_edge8(dp, dstLineEnd);
         vis_pst_8(dd, dp, emask);
       }

     } else {
       da = vis_alignaddr(dp, 0);
       d_old = vis_faligndata(da[0], da[0]);
       vis_alignaddr((void*)0, (mlib_u8*)da - dp);

 #pragma pipeloop(0)
       for (i = 0; i <= (size - 4); i += 4) {
         GET_POINTERS_2CH;
         AFFINE_U8_2CH;

         *da++ = vis_faligndata(d_old, dd);
         d_old = dd;
       }

       if (i < size) {
         sp0 = sp1 = sp2 = sp3 = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
         if (i + 1 < size) sp1 = S_PTR(Y +   dY) + 2*((X +   dX) >> MLIB_SHIFT);
         if (i + 2 < size) sp2 = S_PTR(Y + 2*dY) + 2*((X + 2*dX) >> MLIB_SHIFT);
         if (i + 3 < size) sp3 = S_PTR(Y + 3*dY) + 2*((X + 3*dX) >> MLIB_SHIFT);

         AFFINE_U8_2CH;
       }

       emask = vis_edge8(da, dstLineEnd);
       vis_pst_8(vis_faligndata(d_old, dd), da++, emask);

       if ((mlib_u8*)da <= dstLineEnd) {
         emask = vis_edge8(da, dstLineEnd);
         vis_pst_8(vis_faligndata(dd, dd), da, emask);
       }
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #undef  LD_U8
 #define LD_U8(sp, x) vis_read_lo(vis_ld_u8(sp + x))

 /***************************************************************/
 mlib_status mlib_ImageAffine_u8_3ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *srcPixelPtr;
   mlib_s32 i, size;

   for (j = yStart; j <= yFinish; j++) {
     mlib_d64 s0, s1, s2, s3, s4, s5;

     CLIP(3);
     size = xRight - xLeft + 1;

     while (((mlib_s32)dp & 3) && (size > 0)) {
       sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
       dp[0] = sp[0];
       dp[1] = sp[1];
       dp[2] = sp[2];
       dp += 3;
       X += dX;
       Y += dY;
       size--;
     }

 #pragma pipeloop(0)
     for (i = 0; i <= (size - 4); i += 4) {
       mlib_u8 *sp0, *sp1, *sp2, *sp3;

       sp0 = S_PTR(Y);
       sp1 = S_PTR(Y +   dY);
       sp2 = S_PTR(Y + 2*dY);
       sp3 = S_PTR(Y + 3*dY);

       sp0 += 3*(X >> MLIB_SHIFT);
       sp1 += 3*((X + dX) >> MLIB_SHIFT);
       sp2 += 3*((X + 2*dX) >> MLIB_SHIFT);
       sp3 += 3*((X + 3*dX) >> MLIB_SHIFT);

       s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp0, 2));
       s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp1, 0));
       s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));
       s2 = vis_fpmerge(LD_U8(sp1, 1), LD_U8(sp2, 0));
       s3 = vis_fpmerge(LD_U8(sp1, 2), LD_U8(sp2, 1));
       s2 = vis_fpmerge(vis_read_lo(s2), vis_read_lo(s3));
       s4 = vis_fpmerge(LD_U8(sp2, 2), LD_U8(sp3, 1));
       s5 = vis_fpmerge(LD_U8(sp3, 0), LD_U8(sp3, 2));
       s4 = vis_fpmerge(vis_read_lo(s4), vis_read_lo(s5));

       ((mlib_f32*)dp)[0] = vis_read_lo(s0);
       ((mlib_f32*)dp)[1] = vis_read_lo(s2);
       ((mlib_f32*)dp)[2] = vis_read_lo(s4);

       dp += 12;
       X += 4*dX;
       Y += 4*dY;
     }

     for (i = 0; i < (size & 3); i++) {
       sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
       dp[0] = sp[0];
       dp[1] = sp[1];
       dp[2] = sp[2];
       dp += 3;
       X += dX;
       Y += dY;
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #undef  LD_U8
 #define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, x))

 /***************************************************************/
 #define AFFINE_U8_4x2                                           \
   sp0 = S_PTR(Y) + 4*(X >> MLIB_SHIFT);                         \
   sp1 = S_PTR(Y + dY) + 4*((X + dX) >> MLIB_SHIFT);             \
                                                                 \
   s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp1, 0));               \
   s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp1, 1));               \
   s2 = vis_fpmerge(LD_U8(sp0, 2), LD_U8(sp1, 2));               \
   s3 = vis_fpmerge(LD_U8(sp0, 3), LD_U8(sp1, 3));               \
                                                                 \
   s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s2));           \
   s1 = vis_fpmerge(vis_read_lo(s1), vis_read_lo(s3));           \
   dd = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));           \
                                                                 \
   X += 2*dX;                                                    \
   Y += 2*dY

 /***************************************************************/
 #define AFFINE_U8_4x1                                           \
   sp0 = S_PTR(Y) + 4*(X >> MLIB_SHIFT);                         \
                                                                 \
   s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp0, 2));               \
   s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp0, 3));               \
   s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));           \
   dd = vis_freg_pair(vis_read_lo(s0), vis_fzeros())

 /***************************************************************/
 mlib_status mlib_ImageAffine_u8_4ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *dstLineEnd;
   mlib_s32 i, size;

   for (j = yStart; j <= yFinish; j++) {
     mlib_u8  *sp0, *sp1;
     mlib_d64 *da, s0, s1, s2, s3, dd, d_old;
     mlib_s32 emask;

     CLIP(4);
     dstLineEnd  = (DTYPE*)dstData + 4 * xRight;
     size = xRight - xLeft + 1;

     if (((mlib_s32)dp & 7) == 0) {
 #pragma pipeloop(0)
       for (i = 0; i <= (size - 2); i += 2) {
         AFFINE_U8_4x2;
         *(mlib_d64*)dp = dd;
         dp += 8;
       }

       if (i < size) {
         AFFINE_U8_4x1;
         *(mlib_f32*)dp = vis_read_hi(dd);
       }

     } else {
       da = vis_alignaddr(dp, 0);
       d_old = vis_faligndata(da[0], da[0]);
       vis_alignaddr((void*)0, (mlib_u8*)da - dp);

 #pragma pipeloop(0)
       for (i = 0; i <= (size - 2); i += 2) {
         AFFINE_U8_4x2;

         *da++ = vis_faligndata(d_old, dd);
         d_old = dd;
       }

       if (i < size) {
         AFFINE_U8_4x1;
       }

       dstLineEnd += 3;
       emask = vis_edge8(da, dstLineEnd);
       vis_pst_8(vis_faligndata(d_old, dd), da++, emask);

       if ((mlib_u8*)da <= dstLineEnd) {
         emask = vis_edge8(da, dstLineEnd);
         vis_pst_8(vis_faligndata(dd, dd), da, emask);
       }
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #undef  DTYPE
 #define DTYPE mlib_u16

 #define SHIFT1(x) (((x) >> (MLIB_SHIFT - 1)) &~ 1)

 /***************************************************************/
 mlib_status mlib_ImageAffine_s16_1ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   mlib_s32 i, size;

   vis_alignaddr((void*)0, 6);

   for (j = yStart; j <= yFinish; j++) {
     mlib_d64 ss;

     CLIP(1);
     size = xRight - xLeft + 1;

     while (((mlib_s32)dp & 7) && (size > 0)) {
       *dp = *(S_PTR(Y) + (X >> MLIB_SHIFT));
       dp++;
       X += dX;
       Y += dY;
       size--;
     }

 #pragma pipeloop(0)
     for (i = 0; i <= (size - 4); i += 4) {
       mlib_u16 *sp0, *sp1, *sp2, *sp3;

       sp0 = S_PTR(Y);
       sp1 = S_PTR(Y +   dY);
       sp2 = S_PTR(Y + 2*dY);
       sp3 = S_PTR(Y + 3*dY);

       ss = vis_faligndata(vis_ld_u16_i(sp3, SHIFT1(X + 3*dX)), ss);
       ss = vis_faligndata(vis_ld_u16_i(sp2, SHIFT1(X + 2*dX)), ss);
       ss = vis_faligndata(vis_ld_u16_i(sp1, SHIFT1(X +   dX)), ss);
       ss = vis_faligndata(vis_ld_u16_i(sp0, SHIFT1(X)), ss);

       *(mlib_d64*)dp = ss;

       dp += 4;
       X += 4*dX;
       Y += 4*dY;
     }

     for (i = 0; i < (size & 3); i++) {
       dp[i] = *(S_PTR(Y) + (X >> MLIB_SHIFT));
       X += dX;
       Y += dY;
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 mlib_status mlib_ImageAffine_s16_2ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *srcPixelPtr;
   DTYPE  *dstLineEnd;

   for (j = yStart; j <= yFinish; j++) {
     CLIP(2);
     dstLineEnd  = (DTYPE*)dstData + 2 * xRight;

 #pragma pipeloop(0)
     for (; dp <= dstLineEnd; dp += 2) {
       sp = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
       dp[0] = sp[0];
       dp[1] = sp[1];

       X += dX;
       Y += dY;
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #undef  LD_U16
 #define LD_U16(sp, x) vis_ld_u16(sp + x)

 /***************************************************************/
 mlib_status mlib_ImageAffine_s16_3ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *srcPixelPtr;
   mlib_s32 i, size;

   vis_alignaddr((void*)0, 6);

   for (j = yStart; j <= yFinish; j++) {
     mlib_d64 s0, s1, s2;

     CLIP(3);
     size = xRight - xLeft + 1;

     while (((mlib_s32)dp & 7) && (size > 0)) {
       sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
       dp[0] = sp[0];
       dp[1] = sp[1];
       dp[2] = sp[2];
       dp += 3;
       X += dX;
       Y += dY;
       size--;
     }

 #pragma pipeloop(0)
     for (i = 0; i <= (size - 4); i += 4) {
       mlib_u16 *sp0, *sp1, *sp2, *sp3;

       sp0 = S_PTR(Y);
       sp1 = S_PTR(Y +   dY);
       sp2 = S_PTR(Y + 2*dY);
       sp3 = S_PTR(Y + 3*dY);

       sp0 += 3*(X >> MLIB_SHIFT);
       sp1 += 3*((X + dX) >> MLIB_SHIFT);
       sp2 += 3*((X + 2*dX) >> MLIB_SHIFT);
       sp3 += 3*((X + 3*dX) >> MLIB_SHIFT);

       s2 = vis_faligndata(LD_U16(sp3, 2), s2);
       s2 = vis_faligndata(LD_U16(sp3, 1), s2);
       s2 = vis_faligndata(LD_U16(sp3, 0), s2);
       s2 = vis_faligndata(LD_U16(sp2, 2), s2);
       s1 = vis_faligndata(LD_U16(sp2, 1), s1);
       s1 = vis_faligndata(LD_U16(sp2, 0), s1);
       s1 = vis_faligndata(LD_U16(sp1, 2), s1);
       s1 = vis_faligndata(LD_U16(sp1, 1), s1);
       s0 = vis_faligndata(LD_U16(sp1, 0), s0);
       s0 = vis_faligndata(LD_U16(sp0, 2), s0);
       s0 = vis_faligndata(LD_U16(sp0, 1), s0);
       s0 = vis_faligndata(LD_U16(sp0, 0), s0);

       ((mlib_d64*)dp)[0] = s0;
       ((mlib_d64*)dp)[1] = s1;
       ((mlib_d64*)dp)[2] = s2;

       dp += 12;
       X += 4*dX;
       Y += 4*dY;
     }

     for (i = 0; i < (size & 3); i++) {
       sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
       dp[0] = sp[0];
       dp[1] = sp[1];
       dp[2] = sp[2];
       dp += 3;
       X += dX;
       Y += dY;
     }
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
 #define AFFINE_S16_4ch                                          \
   sp = S_PTR(Y) + 4*(X >> MLIB_SHIFT);                          \
                                                                 \
   dd = vis_faligndata(LD_U16(sp, 3), dd);                       \
   dd = vis_faligndata(LD_U16(sp, 2), dd);                       \
   dd = vis_faligndata(LD_U16(sp, 1), dd);                       \
   dd = vis_faligndata(LD_U16(sp, 0), dd);                       \
                                                                 \
   X += dX;                                                      \
   Y += dY

 /***************************************************************/
 mlib_status mlib_ImageAffine_s16_4ch_nn(mlib_affine_param *param)
 {
   DECLAREVAR();
   DTYPE  *srcPixelPtr;
   mlib_s32 i, size, max_xsize = param -> max_xsize;
   mlib_d64 buff[BUFF_SIZE], *pbuff = buff;

   if (max_xsize > BUFF_SIZE) {
     pbuff = mlib_malloc(sizeof(mlib_d64)*max_xsize);
   }

   for (j = yStart; j <= yFinish; j++) {
     mlib_d64 *da, dd;

     vis_alignaddr((void*)0, 6);

     CLIP(4);
     size = xRight - xLeft + 1;

     if ((mlib_s32)dp & 7) {
       da = buff;
     } else {
       da = (mlib_d64*)dp;
     }

 #pragma pipeloop(0)
     for (i = 0; i < size; i++) {
       AFFINE_S16_4ch;
       da[i] = dd;
     }

     if ((mlib_s32)dp & 7) {
       mlib_ImageCopy_na((mlib_u8*)buff, (mlib_u8*)dp, 8*size);
     }
   }

   if (pbuff != buff) {
     mlib_free(pbuff);
   }

   return MLIB_SUCCESS;
 }

 /***************************************************************/
	/*
	* Copyright (c) 1998, 2003, Oracle and/or its affiliates. All rights reserved.
	* DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
	*
	* This code is free software; you can redistribute it and/or modify it
	* under the terms of the GNU General Public License version 2 only, as
	* published by the Free Software Foundation. Oracle designates this
	* particular file as subject to the "Classpath" exception as provided
	* by Oracle in the LICENSE file that accompanied this code.
	*
	* This code is distributed in the hope that it will be useful, but WITHOUT
	* ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
	* FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
	* version 2 for more details (a copy is included in the LICENSE file that
	* accompanied this code).
	*
	* You should have received a copy of the GNU General Public License version
	* 2 along with this work; if not, write to the Free Software Foundation,
	* Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
	*
	* Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
	* or visit www.oracle.com if you need additional information or have any
	* questions.
	*/



	/*
	* FUNCTION
	* mlib_ImageAffine_u8_1ch_nn
	* mlib_ImageAffine_u8_2ch_nn
	* mlib_ImageAffine_u8_3ch_nn
	* mlib_ImageAffine_u8_4ch_nn
	* mlib_ImageAffine_s16_1ch_nn
	* mlib_ImageAffine_s16_2ch_nn
	* mlib_ImageAffine_s16_3ch_nn
	* mlib_ImageAffine_s16_4ch_nn
	* - image affine transformation with Nearest Neighbor filtering
	*
	*/

	#include "vis_proto.h"
	#include "mlib_image.h"
	#include "mlib_ImageCopy.h"
	#include "mlib_ImageAffine.h"

	#define BUFF_SIZE 256

	/***************************************************************/
	#define sp srcPixelPtr
	#define dp dstPixelPtr

	/***************************************************************/
	#undef DTYPE
	#define DTYPE mlib_u8

	#define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, ((x) >> MLIB_SHIFT)))

	/***************************************************************/
	mlib_status mlib_ImageAffine_u8_1ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	mlib_s32 i, size;
	#ifndef _NO_LONGLONG
	mlib_s64 Y0, Y1, dYl;
	#endif /* _NO_LONGLONG */

	for (j = yStart; j <= yFinish; j++) {
	mlib_d64 s0, s1;

	CLIP(1);
	size = xRight - xLeft + 1;

	while (((mlib_s32)dp & 3) && (size > 0)) {
	dp = (S_PTR(Y) + (X >> MLIB_SHIFT));
	dp++;
	X += dX;
	Y += dY;
	size--;
	}

	#ifdef _NO_LONGLONG
	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	mlib_u8 sp0, sp1, sp2, sp3;

	sp0 = S_PTR(Y);
	sp1 = S_PTR(Y + dY);
	sp2 = S_PTR(Y + 2*dY);
	sp3 = S_PTR(Y + 3*dY);

	s0 = vis_fpmerge(LD_U8(sp0, X), LD_U8(sp2, X + 2*dX));
	s1 = vis_fpmerge(LD_U8(sp1, X + dX), LD_U8(sp3, X + 3*dX));
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));

	(mlib_f32)dp = vis_read_lo(s0);

	dp += 4;
	X += 4*dX;
	Y += 4*dY;
	}

	#else
	Y0 = ((mlib_s64)(Y + dY) << 32) \| Y;

	if (dY >= 0) {
	dYl = ((mlib_s64)dY << 33) \| (dY << 1);
	} else {
	dYl = -(((mlib_s64)(-dY) << 33) \| ((-dY) << 1));
	}

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	mlib_u8 sp0, sp1, sp2, sp3;

	Y1 = Y0 + dYl;
	sp0 = S_PTRl(Y0, 16);
	sp1 = S_PTRl(Y0, 48);
	sp2 = S_PTRl(Y1, 16);
	sp3 = S_PTRl(Y1, 48);

	s0 = vis_fpmerge(LD_U8(sp0, X), LD_U8(sp2, X + 2*dX));
	s1 = vis_fpmerge(LD_U8(sp1, X + dX), LD_U8(sp3, X + 3*dX));
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));

	(mlib_f32)dp = vis_read_lo(s0);

	dp += 4;
	X += 4*dX;
	Y0 += 2*dYl;
	}

	Y = Y0 & ((1u << 31) - 1);
	#endif /* _NO_LONGLONG */

	for (i = 0; i < (size & 3); i++) {
	dp[i] = *(S_PTR(Y) + (X >> MLIB_SHIFT));
	X += dX;
	Y += dY;
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#undef LD_U8
	#define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, x))

	/***************************************************************/
	#define GET_POINTERS_2CH \
	sp0 = S_PTR(Y) + 2*(X >> MLIB_SHIFT); \
	sp1 = S_PTR(Y + dY) + 2*((X + dX) >> MLIB_SHIFT); \
	sp2 = S_PTR(Y + 2dY) + 2((X + 2*dX) >> MLIB_SHIFT); \
	sp3 = S_PTR(Y + 3dY) + 2((X + 3*dX) >> MLIB_SHIFT); \
	X += 4*dX; \
	Y += 4*dY

	/***************************************************************/
	#define AFFINE_U8_2CH \
	s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp2, 0)); \
	s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp2, 1)); \
	s2 = vis_fpmerge(LD_U8(sp1, 0), LD_U8(sp3, 0)); \
	s3 = vis_fpmerge(LD_U8(sp1, 1), LD_U8(sp3, 1)); \
	\
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s2)); \
	s1 = vis_fpmerge(vis_read_lo(s1), vis_read_lo(s3)); \
	dd = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1))

	/***************************************************************/
	mlib_status mlib_ImageAffine_u8_2ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *dstLineEnd;
	mlib_s32 i, size;

	for (j = yStart; j <= yFinish; j++) {
	mlib_u8 sp0, sp1, sp2, sp3;
	mlib_d64 *da, s0, s1, s2, s3, dd, d_old;
	mlib_s32 emask;

	CLIP(2);
	dstLineEnd = (DTYPE)dstData + 2 xRight;
	size = xRight - xLeft + 1;
	dstLineEnd++;

	if (((mlib_s32)dp & 7) == 0) {
	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	GET_POINTERS_2CH;
	AFFINE_U8_2CH;
	(mlib_d64)dp = dd;
	dp += 8;
	}

	if (i < size) {
	sp0 = sp1 = sp2 = sp3 = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
	if (i + 1 < size) sp1 = S_PTR(Y + dY) + 2*((X + dX) >> MLIB_SHIFT);
	if (i + 2 < size) sp2 = S_PTR(Y + 2dY) + 2((X + 2*dX) >> MLIB_SHIFT);
	if (i + 3 < size) sp3 = S_PTR(Y + 3dY) + 2((X + 3*dX) >> MLIB_SHIFT);

	AFFINE_U8_2CH;
	emask = vis_edge8(dp, dstLineEnd);
	vis_pst_8(dd, dp, emask);
	}

	} else {
	da = vis_alignaddr(dp, 0);
	d_old = vis_faligndata(da[0], da[0]);
	vis_alignaddr((void)0, (mlib_u8)da - dp);

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	GET_POINTERS_2CH;
	AFFINE_U8_2CH;

	*da++ = vis_faligndata(d_old, dd);
	d_old = dd;
	}

	if (i < size) {
	sp0 = sp1 = sp2 = sp3 = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
	if (i + 1 < size) sp1 = S_PTR(Y + dY) + 2*((X + dX) >> MLIB_SHIFT);
	if (i + 2 < size) sp2 = S_PTR(Y + 2dY) + 2((X + 2*dX) >> MLIB_SHIFT);
	if (i + 3 < size) sp3 = S_PTR(Y + 3dY) + 2((X + 3*dX) >> MLIB_SHIFT);

	AFFINE_U8_2CH;
	}

	emask = vis_edge8(da, dstLineEnd);
	vis_pst_8(vis_faligndata(d_old, dd), da++, emask);

	if ((mlib_u8*)da <= dstLineEnd) {
	emask = vis_edge8(da, dstLineEnd);
	vis_pst_8(vis_faligndata(dd, dd), da, emask);
	}
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#undef LD_U8
	#define LD_U8(sp, x) vis_read_lo(vis_ld_u8(sp + x))

	/***************************************************************/
	mlib_status mlib_ImageAffine_u8_3ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *srcPixelPtr;
	mlib_s32 i, size;

	for (j = yStart; j <= yFinish; j++) {
	mlib_d64 s0, s1, s2, s3, s4, s5;

	CLIP(3);
	size = xRight - xLeft + 1;

	while (((mlib_s32)dp & 3) && (size > 0)) {
	sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
	dp[0] = sp[0];
	dp[1] = sp[1];
	dp[2] = sp[2];
	dp += 3;
	X += dX;
	Y += dY;
	size--;
	}

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	mlib_u8 sp0, sp1, sp2, sp3;

	sp0 = S_PTR(Y);
	sp1 = S_PTR(Y + dY);
	sp2 = S_PTR(Y + 2*dY);
	sp3 = S_PTR(Y + 3*dY);

	sp0 += 3*(X >> MLIB_SHIFT);
	sp1 += 3*((X + dX) >> MLIB_SHIFT);
	sp2 += 3((X + 2dX) >> MLIB_SHIFT);
	sp3 += 3((X + 3dX) >> MLIB_SHIFT);

	s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp0, 2));
	s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp1, 0));
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1));
	s2 = vis_fpmerge(LD_U8(sp1, 1), LD_U8(sp2, 0));
	s3 = vis_fpmerge(LD_U8(sp1, 2), LD_U8(sp2, 1));
	s2 = vis_fpmerge(vis_read_lo(s2), vis_read_lo(s3));
	s4 = vis_fpmerge(LD_U8(sp2, 2), LD_U8(sp3, 1));
	s5 = vis_fpmerge(LD_U8(sp3, 0), LD_U8(sp3, 2));
	s4 = vis_fpmerge(vis_read_lo(s4), vis_read_lo(s5));

	((mlib_f32*)dp)[0] = vis_read_lo(s0);
	((mlib_f32*)dp)[1] = vis_read_lo(s2);
	((mlib_f32*)dp)[2] = vis_read_lo(s4);

	dp += 12;
	X += 4*dX;
	Y += 4*dY;
	}

	for (i = 0; i < (size & 3); i++) {
	sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
	dp[0] = sp[0];
	dp[1] = sp[1];
	dp[2] = sp[2];
	dp += 3;
	X += dX;
	Y += dY;
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#undef LD_U8
	#define LD_U8(sp, x) vis_read_lo(vis_ld_u8_i(sp, x))

	/***************************************************************/
	#define AFFINE_U8_4x2 \
	sp0 = S_PTR(Y) + 4*(X >> MLIB_SHIFT); \
	sp1 = S_PTR(Y + dY) + 4*((X + dX) >> MLIB_SHIFT); \
	\
	s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp1, 0)); \
	s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp1, 1)); \
	s2 = vis_fpmerge(LD_U8(sp0, 2), LD_U8(sp1, 2)); \
	s3 = vis_fpmerge(LD_U8(sp0, 3), LD_U8(sp1, 3)); \
	\
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s2)); \
	s1 = vis_fpmerge(vis_read_lo(s1), vis_read_lo(s3)); \
	dd = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1)); \
	\
	X += 2*dX; \
	Y += 2*dY

	/***************************************************************/
	#define AFFINE_U8_4x1 \
	sp0 = S_PTR(Y) + 4*(X >> MLIB_SHIFT); \
	\
	s0 = vis_fpmerge(LD_U8(sp0, 0), LD_U8(sp0, 2)); \
	s1 = vis_fpmerge(LD_U8(sp0, 1), LD_U8(sp0, 3)); \
	s0 = vis_fpmerge(vis_read_lo(s0), vis_read_lo(s1)); \
	dd = vis_freg_pair(vis_read_lo(s0), vis_fzeros())

	/***************************************************************/
	mlib_status mlib_ImageAffine_u8_4ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *dstLineEnd;
	mlib_s32 i, size;

	for (j = yStart; j <= yFinish; j++) {
	mlib_u8 sp0, sp1;
	mlib_d64 *da, s0, s1, s2, s3, dd, d_old;
	mlib_s32 emask;

	CLIP(4);
	dstLineEnd = (DTYPE)dstData + 4 xRight;
	size = xRight - xLeft + 1;

	if (((mlib_s32)dp & 7) == 0) {
	#pragma pipeloop(0)
	for (i = 0; i <= (size - 2); i += 2) {
	AFFINE_U8_4x2;
	(mlib_d64)dp = dd;
	dp += 8;
	}

	if (i < size) {
	AFFINE_U8_4x1;
	(mlib_f32)dp = vis_read_hi(dd);
	}

	} else {
	da = vis_alignaddr(dp, 0);
	d_old = vis_faligndata(da[0], da[0]);
	vis_alignaddr((void)0, (mlib_u8)da - dp);

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 2); i += 2) {
	AFFINE_U8_4x2;

	*da++ = vis_faligndata(d_old, dd);
	d_old = dd;
	}

	if (i < size) {
	AFFINE_U8_4x1;
	}

	dstLineEnd += 3;
	emask = vis_edge8(da, dstLineEnd);
	vis_pst_8(vis_faligndata(d_old, dd), da++, emask);

	if ((mlib_u8*)da <= dstLineEnd) {
	emask = vis_edge8(da, dstLineEnd);
	vis_pst_8(vis_faligndata(dd, dd), da, emask);
	}
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#undef DTYPE
	#define DTYPE mlib_u16

	#define SHIFT1(x) (((x) >> (MLIB_SHIFT - 1)) &~ 1)

	/***************************************************************/
	mlib_status mlib_ImageAffine_s16_1ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	mlib_s32 i, size;

	vis_alignaddr((void*)0, 6);

	for (j = yStart; j <= yFinish; j++) {
	mlib_d64 ss;

	CLIP(1);
	size = xRight - xLeft + 1;

	while (((mlib_s32)dp & 7) && (size > 0)) {
	dp = (S_PTR(Y) + (X >> MLIB_SHIFT));
	dp++;
	X += dX;
	Y += dY;
	size--;
	}

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	mlib_u16 sp0, sp1, sp2, sp3;

	sp0 = S_PTR(Y);
	sp1 = S_PTR(Y + dY);
	sp2 = S_PTR(Y + 2*dY);
	sp3 = S_PTR(Y + 3*dY);

	ss = vis_faligndata(vis_ld_u16_i(sp3, SHIFT1(X + 3*dX)), ss);
	ss = vis_faligndata(vis_ld_u16_i(sp2, SHIFT1(X + 2*dX)), ss);
	ss = vis_faligndata(vis_ld_u16_i(sp1, SHIFT1(X + dX)), ss);
	ss = vis_faligndata(vis_ld_u16_i(sp0, SHIFT1(X)), ss);

	(mlib_d64)dp = ss;

	dp += 4;
	X += 4*dX;
	Y += 4*dY;
	}

	for (i = 0; i < (size & 3); i++) {
	dp[i] = *(S_PTR(Y) + (X >> MLIB_SHIFT));
	X += dX;
	Y += dY;
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	mlib_status mlib_ImageAffine_s16_2ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *srcPixelPtr;
	DTYPE *dstLineEnd;

	for (j = yStart; j <= yFinish; j++) {
	CLIP(2);
	dstLineEnd = (DTYPE)dstData + 2 xRight;

	#pragma pipeloop(0)
	for (; dp <= dstLineEnd; dp += 2) {
	sp = S_PTR(Y) + 2*(X >> MLIB_SHIFT);
	dp[0] = sp[0];
	dp[1] = sp[1];

	X += dX;
	Y += dY;
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#undef LD_U16
	#define LD_U16(sp, x) vis_ld_u16(sp + x)

	/***************************************************************/
	mlib_status mlib_ImageAffine_s16_3ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *srcPixelPtr;
	mlib_s32 i, size;

	vis_alignaddr((void*)0, 6);

	for (j = yStart; j <= yFinish; j++) {
	mlib_d64 s0, s1, s2;

	CLIP(3);
	size = xRight - xLeft + 1;

	while (((mlib_s32)dp & 7) && (size > 0)) {
	sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
	dp[0] = sp[0];
	dp[1] = sp[1];
	dp[2] = sp[2];
	dp += 3;
	X += dX;
	Y += dY;
	size--;
	}

	#pragma pipeloop(0)
	for (i = 0; i <= (size - 4); i += 4) {
	mlib_u16 sp0, sp1, sp2, sp3;

	sp0 = S_PTR(Y);
	sp1 = S_PTR(Y + dY);
	sp2 = S_PTR(Y + 2*dY);
	sp3 = S_PTR(Y + 3*dY);

	sp0 += 3*(X >> MLIB_SHIFT);
	sp1 += 3*((X + dX) >> MLIB_SHIFT);
	sp2 += 3((X + 2dX) >> MLIB_SHIFT);
	sp3 += 3((X + 3dX) >> MLIB_SHIFT);

	s2 = vis_faligndata(LD_U16(sp3, 2), s2);
	s2 = vis_faligndata(LD_U16(sp3, 1), s2);
	s2 = vis_faligndata(LD_U16(sp3, 0), s2);
	s2 = vis_faligndata(LD_U16(sp2, 2), s2);
	s1 = vis_faligndata(LD_U16(sp2, 1), s1);
	s1 = vis_faligndata(LD_U16(sp2, 0), s1);
	s1 = vis_faligndata(LD_U16(sp1, 2), s1);
	s1 = vis_faligndata(LD_U16(sp1, 1), s1);
	s0 = vis_faligndata(LD_U16(sp1, 0), s0);
	s0 = vis_faligndata(LD_U16(sp0, 2), s0);
	s0 = vis_faligndata(LD_U16(sp0, 1), s0);
	s0 = vis_faligndata(LD_U16(sp0, 0), s0);

	((mlib_d64*)dp)[0] = s0;
	((mlib_d64*)dp)[1] = s1;
	((mlib_d64*)dp)[2] = s2;

	dp += 12;
	X += 4*dX;
	Y += 4*dY;
	}

	for (i = 0; i < (size & 3); i++) {
	sp = S_PTR(Y) + 3*(X >> MLIB_SHIFT);
	dp[0] = sp[0];
	dp[1] = sp[1];
	dp[2] = sp[2];
	dp += 3;
	X += dX;
	Y += dY;
	}
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/
	#define AFFINE_S16_4ch \
	sp = S_PTR(Y) + 4*(X >> MLIB_SHIFT); \
	\
	dd = vis_faligndata(LD_U16(sp, 3), dd); \
	dd = vis_faligndata(LD_U16(sp, 2), dd); \
	dd = vis_faligndata(LD_U16(sp, 1), dd); \
	dd = vis_faligndata(LD_U16(sp, 0), dd); \
	\
	X += dX; \
	Y += dY

	/***************************************************************/
	mlib_status mlib_ImageAffine_s16_4ch_nn(mlib_affine_param *param)
	{
	DECLAREVAR();
	DTYPE *srcPixelPtr;
	mlib_s32 i, size, max_xsize = param -> max_xsize;
	mlib_d64 buff[BUFF_SIZE], *pbuff = buff;

	if (max_xsize > BUFF_SIZE) {
	pbuff = mlib_malloc(sizeof(mlib_d64)*max_xsize);
	}

	for (j = yStart; j <= yFinish; j++) {
	mlib_d64 *da, dd;

	vis_alignaddr((void*)0, 6);

	CLIP(4);
	size = xRight - xLeft + 1;

	if ((mlib_s32)dp & 7) {
	da = buff;
	} else {
	da = (mlib_d64*)dp;
	}

	#pragma pipeloop(0)
	for (i = 0; i < size; i++) {
	AFFINE_S16_4ch;
	da[i] = dd;
	}

	if ((mlib_s32)dp & 7) {
	mlib_ImageCopy_na((mlib_u8)buff, (mlib_u8)dp, 8*size);
	}
	}

	if (pbuff != buff) {
	mlib_free(pbuff);
	}

	return MLIB_SUCCESS;
	}

	/***************************************************************/