encoder/arm/ih264e_half_pel.s - platform/external/libavc - Git at Google

 @/******************************************************************************
 @ *
 @ * Copyright (C) 2015 The Android Open Source Project
 @ *
 @ * Licensed under the Apache License, Version 2.0 (the "License");
 @ * you may not use this file except in compliance with the License.
 @ * You may obtain a copy of the License at:
 @ *
 @ * http://www.apache.org/licenses/LICENSE-2.0
 @ *
 @ * Unless required by applicable law or agreed to in writing, software
 @ * distributed under the License is distributed on an "AS IS" BASIS,
 @ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 @ * See the License for the specific language governing permissions and
 @ * limitations under the License.
 @ *
 @ *****************************************************************************
 @ * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore
 @*/
 @/**
 @ *******************************************************************************
 @ * @file
 @ *  ih264e_half_pel.s
 @ *
 @ * @brief
 @ *
 @ *
 @ * @author
 @ *  Ittiam
 @ *
 @ * @par List of Functions:
 @ *  ih264e_sixtapfilter_horz
 @ *  ih264e_sixtap_filter_2dvh_vert
 @
 @ *
 @ * @remarks
 @ *  None
 @ *
 @ *******************************************************************************
 @ */


 .text
 .p2align 2

 @/*******************************************************************************
 @*
 @* @brief
 @*     Interprediction luma filter for horizontal input(Filter run for width = 17 and height =16)
 @*
 @* @par Description:
 @*    Applies a 6 tap horizontal filter .The output is  clipped to 8 bits
 @*    sec 8.4.2.2.1 titled "Luma sample interpolation process"
 @*
 @* @param[in] pu1_src
 @*  UWORD8 pointer to the source
 @*
 @* @param[out] pu1_dst
 @*  UWORD8 pointer to the destination
 @*
 @* @param[in] src_strd
 @*  integer source stride
 @*
 @* @param[in] dst_strd
 @*  integer destination stride
 @*
 @*
 @* @returns
 @*
 @* @remarks
 @*  None
 @*
 @*******************************************************************************
 @*/
 @void ih264e_sixtapfilter_horz(UWORD8 *pu1_src,
 @                                UWORD8 *pu1_dst,
 @                                WORD32 src_strd,
 @                                WORD32 dst_strd);


 .equ HALFPEL_WIDTH ,  17 + 1            @( make it even, two rows are processed at a time)


     .global ih264e_sixtapfilter_horz_a9q
 ih264e_sixtapfilter_horz_a9q:
     stmfd         sp!, {lr}

     vmov.i8       d0, #5
     sub           r0, r0, #2

     vmov.i8       d1, #20
     mov           r14, #HALFPEL_WIDTH
     vpush         {d8-d15}

 filter_horz_loop:


     vld1.8        {d2, d3, d4}, [r0], r2 @// Load row0
     vld1.8        {d5, d6, d7}, [r0], r2 @// Load row1

     @// Processing row0 and row1

     vext.8        d31, d2, d3, #5       @//extract a[5]                         (column1,row0)
     vext.8        d30, d3, d4, #5       @//extract a[5]                         (column2,row0)

     vaddl.u8      q4, d31, d2           @// a0 + a5                             (column1,row0)
     vext.8        d29, d4, d4, #5       @//extract a[5]                         (column3,row0)
     vaddl.u8      q5, d30, d3           @// a0 + a5                             (column2,row0)
     vext.8        d28, d5, d6, #5       @//extract a[5]                         (column1,row1)
     vaddl.u8      q6, d29, d4           @// a0 + a5                             (column3,row0)
     vext.8        d27, d6, d7, #5       @//extract a[5]                         (column2,row1)
     vaddl.u8      q7, d28, d5           @// a0 + a5                             (column1,row1)
     vext.8        d26, d7, d7, #5       @//extract a[5]                         (column3,row1)

     vaddl.u8      q8, d27, d6           @// a0 + a5                             (column2,row1)
     vext.8        d31, d2, d3, #2       @//extract a[2]                         (column1,row0)
     vaddl.u8      q9, d26, d7           @// a0 + a5                             (column3,row1)
     vext.8        d30, d3, d4, #2       @//extract a[2]                         (column2,row0)
     vmlal.u8      q4, d31, d1           @// a0 + a5 + 20a2                      (column1,row0)
     vext.8        d29, d4, d4, #2       @//extract a[2]                         (column3,row0)
     vmlal.u8      q5, d30, d1           @// a0 + a5 + 20a2                      (column2,row0)
     vext.8        d28, d5, d6, #2       @//extract a[2]                         (column1,row1)
     vmlal.u8      q6, d29, d1           @// a0 + a5 + 20a2                      (column3,row0)
     vext.8        d27, d6, d7, #2       @//extract a[2]                         (column2,row1)
     vmlal.u8      q7, d28, d1           @// a0 + a5 + 20a2                      (column1,row1)
     vext.8        d26, d7, d7, #2       @//extract a[2]                         (column3,row1)

     vmlal.u8      q8, d27, d1           @// a0 + a5 + 20a2                      (column2,row1)
     vext.8        d31, d2, d3, #3       @//extract a[3]                         (column1,row0)
     vmlal.u8      q9, d26, d1           @// a0 + a5 + 20a2                      (column3,row1)
     vext.8        d30, d3, d4, #3       @//extract a[3]                         (column2,row0)
     vmlal.u8      q4, d31, d1           @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vext.8        d29, d4, d4, #3       @//extract a[3]                         (column3,row0)
     vmlal.u8      q5, d30, d1           @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vext.8        d28, d5, d6, #3       @//extract a[3]                         (column1,row1)
     vmlal.u8      q6, d29, d1           @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vext.8        d27, d6, d7, #3       @//extract a[3]                         (column2,row1)
     vmlal.u8      q7, d28, d1           @// a0 + a5 + 20a2 + 20a3               (column1,row1)
     vext.8        d26, d7, d7, #3       @//extract a[3]                         (column3,row1)

     vmlal.u8      q8, d27, d1           @// a0 + a5 + 20a2 + 20a3               (column2,row1)
     vext.8        d31, d2, d3, #1       @//extract a[1]                         (column1,row0)
     vmlal.u8      q9, d26, d1           @// a0 + a5 + 20a2 + 20a3               (column3,row1)
     vext.8        d30, d3, d4, #1       @//extract a[1]                         (column2,row0)
     vmlsl.u8      q4, d31, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vext.8        d29, d4, d4, #1       @//extract a[1]                         (column3,row0)
     vmlsl.u8      q5, d30, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vext.8        d28, d5, d6, #1       @//extract a[1]                         (column1,row1)
     vmlsl.u8      q6, d29, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vext.8        d27, d6, d7, #1       @//extract a[1]                         (column2,row1)
     vmlsl.u8      q7, d28, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row1)
     vext.8        d26, d7, d7, #1       @//extract a[1]                         (column3,row1)

     vmlsl.u8      q8, d27, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row1)
     vext.8        d31, d2, d3, #4       @//extract a[4]                         (column1,row0)
     vmlsl.u8      q9, d26, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row1)
     vext.8        d30, d3, d4, #4       @//extract a[4]                         (column2,row0)
     vmlsl.u8      q4, d31, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)
     vext.8        d29, d4, d4, #4       @//extract a[4]                         (column3,row0)
     vmlsl.u8      q5, d30, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)
     vext.8        d28, d5, d6, #4       @//extract a[4]                         (column1,row1)
     vmlsl.u8      q6, d29, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)
     vext.8        d27, d6, d7, #4       @//extract a[4]                         (column2,row1)
     vmlsl.u8      q7, d28, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row1)
     vext.8        d26, d7, d7, #4       @//extract a[4]                         (column3,row1)

     vmlsl.u8      q8, d27, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row1)
     vmlsl.u8      q9, d26, d0           @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row1)

     vqrshrun.s16  d20, q4, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vqrshrun.s16  d21, q5, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vqrshrun.s16  d22, q6, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vqrshrun.s16  d23, q7, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row1)
     vqrshrun.s16  d24, q8, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row1)
     vqrshrun.s16  d25, q9, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row1)

     vst1.8        {d20, d21, d22}, [r1], r3 @//Store dest row0
     vst1.8        {d23, d24, d25}, [r1], r3 @//Store dest row1

     subs          r14, r14, #2          @   decrement counter

     bne           filter_horz_loop

     vpop          {d8-d15}
     ldmfd         sp!, {pc}


 @/**
 @*******************************************************************************
 @*
 @* @brief
 @*   This function implements a two stage cascaded six tap filter. It
 @*    applies the six tap filter in the vertical direction on the
 @*    predictor values, followed by applying the same filter in the
 @*    horizontal direction on the output of the first stage. The six tap
 @*    filtering operation is described in sec 8.4.2.2.1 titled "Luma sample
 @*    interpolation process"
 @*    (Filter run for width = 17 and height =17)
 @* @par Description:
 @*    The function interpolates
 @*    the predictors first in the vertical direction and then in the
 @*    horizontal direction to output the (1/2,1/2). The output of the first
 @*    stage of the filter is stored in the buffer pointed to by pi16_pred1(only in C)
 @*    in 16 bit precision.
 @*
 @*
 @* @param[in] pu1_src
 @*  UWORD8 pointer to the source
 @*
 @* @param[out] pu1_dst1
 @*  UWORD8 pointer to the destination(vertical filtered output)
 @*
 @* @param[out] pu1_dst2
 @*  UWORD8 pointer to the destination(out put after applying horizontal filter to the intermediate vertical output)
 @*
 @* @param[in] src_strd
 @*  integer source stride
 @*
 @* @param[in] dst_strd
 @*  integer destination stride of pu1_dst
 @*
 @* @param[in]pi16_pred1
 @*  Pointer to 16bit intermediate buffer(used only in c)
 @*
 @* @param[in] pi16_pred1_strd
 @*  integer destination stride of pi16_pred1
 @*
 @*
 @* @returns
 @*
 @* @remarks
 @*  None
 @*
 @*******************************************************************************
 @*/
 @void ih264e_sixtap_filter_2dvh_vert(UWORD8 *pu1_src,
 @                                UWORD8 *pu1_dst1,
 @                                UWORD8 *pu1_dst2,
 @                                WORD32 src_strd,
 @                                WORD32 dst_strd,
 @                                WORD32 *pi16_pred1,/* Pointer to 16bit intermmediate buffer (used only in c)*/
 @                                WORD32 pi16_pred1_strd)


     .global ih264e_sixtap_filter_2dvh_vert_a9q

 ih264e_sixtap_filter_2dvh_vert_a9q:
     stmfd         sp!, {r10, r11, r12, lr}

 @//r0 - pu1_ref
 @//r3 - u4_ref_width
     vpush         {d8-d15}
     @// Load six rows for vertical interpolation
     lsl           r12, r3, #1
     sub           r0, r0, r12
     sub           r0, r0, #2
     vld1.8        {d2, d3, d4}, [r0], r3
     vld1.8        {d5, d6, d7}, [r0], r3
     vld1.8        {d8, d9, d10}, [r0], r3
     mov           r12, #5
     vld1.8        {d11, d12, d13}, [r0], r3
     mov           r14, #20
     vld1.8        {d14, d15, d16}, [r0], r3
     vmov.16       d0[0], r12
     vmov.16       d0[1], r14
     vld1.8        {d17, d18, d19}, [r0], r3
     vmov.i8       d1, #20

 @// r12 - u2_buff1_width
 @// r14 - u2_buff2_width
     ldr           r12, [sp, #80]
     add           r11, r1, #6

     mov           r14, r12

     mov           r10, #3               @loop counter


 filter_2dvh_loop:

     @// ////////////// ROW 1 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vaddl.u8      q10, d2, d17          @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d8, d1           @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d11, d1          @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d5, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d14, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)


     vaddl.u8      q11, d3, d18          @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d9, d1           @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d12, d1          @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d6, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d15, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d4, d19          @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d10, d1          @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d13, d1          @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d7, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d16, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)

     vqrshrun.s16  d2, q10, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d3, q11, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d4, q12, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d2, d2, d3, #2
     vst1.8        {d3, d4}, [r11], r12  @// store row1 - 1,1/2 grid
     vst1.8        {d2}, [r1], r12       @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q1, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q1, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q1, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q1, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q1, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q1, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d2, d3, d4}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     @//VQRSHRUN.s16 D27,Q14,#2          ;// half,half gird set3,4
     @//VSHRN.s32        D28,Q11,#8          ;// shift by 8 and later we will shift by 2 more with rounding  (set5)

     @//VQRSHRUN.s16 D28,Q14,#2          ;// half,half gird set5

     @//VST1.8       {D26,D27,D28},[r2],r14  ;// store 1/2,1,2 grif values
     @// ////////////// ROW 2 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vaddl.u8      q10, d5, d2           @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d11, d1          @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d14, d1          @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d8, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d17, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vaddl.u8      q11, d6, d3           @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d12, d1          @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d15, d1          @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d9, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d18, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d7, d4           @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d13, d1          @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d16, d1          @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d10, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d19, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)
     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     vqrshrun.s16  d5, q10, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d6, q11, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d7, q12, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d5, d5, d6, #2
     vst1.8        {d6, d7}, [r11], r12  @// store row1 - 1,1/2 grid
     vst1.8        {d5}, [r1], r12       @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q3, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q3, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q3, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q3, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q3, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q3, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d5, d6, d7}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     @//VQRSHRUN.s16 D27,Q14,#2          ;// half,half gird set3,4
     @//VSHRN.s32        D28,Q11,#8          ;// shift by 8 and later we will shift by 2 more with rounding  (set5)

     @//VQRSHRUN.s16 D28,Q14,#2          ;// half,half gird set5

     @//VST1.8       {D26,D27,D28},[r2],r14  ;// store 1/2,1,2 grif values
     @// ////////////// ROW 3 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vaddl.u8      q10, d8, d5           @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d14, d1          @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d17, d1          @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d11, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d2, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vaddl.u8      q11, d9, d6           @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d15, d1          @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d18, d1          @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d12, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d3, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d10, d7          @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d16, d1          @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d19, d1          @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d13, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d4, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     vqrshrun.s16  d8, q10, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d9, q11, #5           @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d10, q12, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d8, d8, d9, #2
     vst1.8        {d9, d10}, [r11], r12 @// store row1 - 1,1/2 grid
     vst1.8        {d8}, [r1], r12       @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q4, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q4, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q4, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q4, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q4, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q4, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d8, d9, d10}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     @//VQRSHRUN.s16 D27,Q14,#2          ;// half,half gird set3,4
     @//VSHRN.s32        D28,Q11,#8          ;// shift by 8 and later we will shift by 2 more with rounding  (set5)

     @//VQRSHRUN.s16 D28,Q14,#2          ;// half,half gird set5

     @//VST1.8       {D26,D27,D28},[r2],r14  ;// store 1/2,1,2 grif values
     @// ////////////// ROW 4 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vaddl.u8      q10, d11, d8          @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d17, d1          @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d2, d1           @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d14, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d5, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vaddl.u8      q11, d12, d9          @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d18, d1          @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d3, d1           @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d15, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d6, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d13, d10         @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d19, d1          @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d4, d1           @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d16, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d7, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     vqrshrun.s16  d11, q10, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d12, q11, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d13, q12, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d11, d11, d12, #2
     vst1.8        {d12, d13}, [r11], r12 @// store row1 - 1,1/2 grid
     vst1.8        {d11}, [r1], r12      @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q6, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q6, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q6, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q6, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q6, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q6, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d11, d12, d13}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     @//VQRSHRUN.s16 D27,Q14,#2          ;// half,half gird set3,4
     @//VSHRN.s32        D28,Q11,#8          ;// shift by 8 and later we will shift by 2 more with rounding  (set5)

     @//VQRSHRUN.s16 D28,Q14,#2          ;// half,half gird set5

     @//VST1.8       {D26,D27,D28},[r2],r14  ;// store 1/2,1,2 grif values
     @// ////////////// ROW 5 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vaddl.u8      q10, d14, d11         @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d2, d1           @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d5, d1           @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d17, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d8, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vaddl.u8      q11, d15, d12         @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d3, d1           @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d6, d1           @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d18, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d9, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d16, d13         @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d4, d1           @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d7, d1           @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d19, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d10, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     vqrshrun.s16  d14, q10, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d15, q11, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d16, q12, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d14, d14, d15, #2
     vst1.8        {d15, d16}, [r11], r12 @// store row1 - 1,1/2 grid
     vst1.8        {d14}, [r1], r12      @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q7, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q7, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q7, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q7, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q7, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q7, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d14, d15, d16}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     @//VQRSHRUN.s16 D27,Q14,#2          ;// half,half gird set3,4
     @//VSHRN.s32        D28,Q11,#8          ;// shift by 8 and later we will shift by 2 more with rounding  (set5)

     @//VQRSHRUN.s16 D28,Q14,#2          ;// half,half gird set5

     @//VST1.8       {D26,D27,D28},[r2],r14  ;// store 1/2,1,2 grif values
     @// ////////////// ROW 6 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is

     cmp           r10, #1               @// if it 17 rows are complete skip
     beq           filter_2dvh_skip_row
     vaddl.u8      q10, d17, d14         @// a0 + a5                             (column1,row0)
     vmov.i8       d31, #5
     vmlal.u8      q10, d5, d1           @// a0 + a5 + 20a2                      (column1,row0)
     vmlal.u8      q10, d8, d1           @// a0 + a5 + 20a2 + 20a3               (column1,row0)
     vmlsl.u8      q10, d2, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column1,row0)
     vmlsl.u8      q10, d11, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column1,row0)

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vaddl.u8      q11, d18, d15         @// a0 + a5                             (column2,row0)
     vmlal.u8      q11, d6, d1           @// a0 + a5 + 20a2                      (column2,row0)
     vmlal.u8      q11, d9, d1           @// a0 + a5 + 20a2 + 20a3               (column2,row0)
     vmlsl.u8      q11, d3, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column2,row0)
     vmlsl.u8      q11, d12, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column2,row0)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5
     vext.16       d30, d20, d21, #2     @//extract a[2]                         (set1)

     vaddl.u8      q12, d19, d16         @// a0 + a5                             (column3,row0)
     vext.16       d29, d20, d21, #3     @//extract a[3]                         (set1)
     vmlal.u8      q12, d7, d1           @// a0 + a5 + 20a2                      (column3,row0)
     vmlal.u8      q12, d10, d1          @// a0 + a5 + 20a2 + 20a3               (column3,row0)
     vmlsl.u8      q12, d4, d31          @// a0 + a5 + 20a2 + 20a3 - 5a1         (column3,row0)
     vmlsl.u8      q12, d13, d31         @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (column3,row0)

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     vqrshrun.s16  d17, q10, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column1,row0)
     vext.16       d31, d21, d22, #1     @//extract a[5]                         (set1)
     vqrshrun.s16  d18, q11, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column2,row0)
     vext.16       d28, d20, d21, #1     @//extract a[1]                         (set1)

     vaddl.s16     q13, d31, d20         @// a0 + a5                             (set1)
     vext.16       d31, d22, d23, #1     @//extract a[5]                         (set2)
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set1)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set1)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set1)
     vmlsl.s16     q13, d21, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set1)
     vext.16       d30, d21, d22, #2     @//extract a[2]                         (set2)

     vqrshrun.s16  d19, q12, #5          @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5   (column3,row0)
     vext.16       d29, d21, d22, #3     @//extract a[3]                         (set2)

     vext.16       d28, d21, d22, #1     @//extract a[1]                         (set2)
     vaddl.s16     q10, d31, d21         @// a0 + a5                             (set2)
     vmlal.s16     q10, d30, d0[1]       @// a0 + a5 + 20a2                      (set2)
     vmlal.s16     q10, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set2)
     vmlsl.s16     q10, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set2)
     vmlsl.s16     q10, d22, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set2)
     vext.16       d31, d23, d24, #1     @//extract a[5]                         (set3)

     vext.8        d17, d17, d18, #2
     vst1.8        {d18, d19}, [r11], r12 @// store row1 - 1,1/2 grid
     vst1.8        {d17}, [r1], r12      @// store row1 - 1,1/2 grid

     vext.16       d30, d22, d23, #2     @//extract a[2]                         (set3)
     vext.16       d29, d22, d23, #3     @//extract a[3]                         (set3)

     vaddl.s16     q9, d31, d22          @// a0 + a5                             (set3)
     vext.16       d28, d22, d23, #1     @//extract a[1]                         (set3)
     vmlal.s16     q9, d30, d0[1]        @// a0 + a5 + 20a2                      (set3)
     vmlal.s16     q9, d29, d0[1]        @// a0 + a5 + 20a2 + 20a3               (set3)
     vmlsl.s16     q9, d28, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1         (set3)
     vmlsl.s16     q9, d23, d0[0]        @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set3)
     vext.16       d31, d24, d25, #1     @//extract a[5]                         (set4)

     vshrn.s32     d21, q10, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set2)
     vext.16       d30, d23, d24, #2     @//extract a[2]                         (set4)
     vshrn.s32     d20, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set1)
     vext.16       d29, d23, d24, #3     @//extract a[3]                         (set4)

     vaddl.s16     q13, d31, d23         @// a0 + a5                             (set4)
     vext.16       d28, d23, d24, #1     @//extract a[1]                         (set4)
     vext.16       d31, d25, d25, #1     @//extract a[5]                         (set5) ;//here only first element in the row is valid
     vmlal.s16     q13, d30, d0[1]       @// a0 + a5 + 20a2                      (set4)
     vmlal.s16     q13, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set4)
     vmlsl.s16     q13, d28, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set4)
     vmlsl.s16     q13, d24, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set4)
     vext.16       d30, d24, d25, #2     @//extract a[2]                         (set5)

     vaddl.s16     q11, d31, d24         @// a0 + a5                             (set5)
     vext.16       d29, d24, d25, #3     @//extract a[3]                         (set5)

     vext.16       d31, d24, d25, #1     @//extract a[1]                         (set5)
     vshrn.s32     d28, q9, #8           @// shift by 8 and later we will shift by 2 more with rounding  (set3)

     vld1.8        {d17, d18, d19}, [r0], r3 @// Load next Row data
     vmlal.s16     q11, d30, d0[1]       @// a0 + a5 + 20a2                      (set5)
     vmlal.s16     q11, d29, d0[1]       @// a0 + a5 + 20a2 + 20a3               (set5)
     vmlsl.s16     q11, d31, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1         (set5)
     vmlsl.s16     q11, d25, d0[0]       @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4   (set5)
     vshrn.s32     d29, q13, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set4)
     vqrshrun.s16  d26, q10, #2          @// half,half gird set1,2


     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values

     subs          r10, r10, #1          @//decrement loop counter

     bne           filter_2dvh_loop


 @// Process first vertical interpolated row
 @// each column is
     @// ////////////// ROW 13 ///////////////////////

 @// Process first vertical interpolated row
 @// each column is
     vpop          {d8-d15}
     ldmfd         sp!, {r10, r11, r12, pc}

 filter_2dvh_skip_row:

     vqrshrun.s16  d27, q14, #2          @// half,half gird set3,4
     vshrn.s32     d28, q11, #8          @// shift by 8 and later we will shift by 2 more with rounding  (set5)

     vqrshrun.s16  d28, q14, #2          @// half,half gird set5

     vst1.8        {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values
     vpop          {d8-d15}
     ldmfd         sp!, {r10, r11, r12, pc}