h264: miscellaneous micro-optimisations
[nihav.git] / nihav-itu / src / codecs / h264 / mb_recon.rs
index 0a63edf5d28b9b4f7cd307f9b947a459bef6b205..5a204f3b3c74ab0df6b9f8e7d8c540e093d47c67 100644 (file)
@@ -210,10 +210,8 @@ fn do_p_mc(frm: &mut NASimpleVideoFrame<u8>, xpos: usize, ypos: usize, w: usize,
         if !weight.is_weighted() {
             mc_dsp.do_mc(frm, buf, xpos, ypos, w, h, mv);
         } else {
-            let mut ytmp = [0; 16 * 16];
-            let mut utmp = [0; 16 * 16];
-            let mut vtmp = [0; 16 * 16];
-            mc_dsp.mc_blocks(&mut ytmp, &mut utmp, &mut vtmp, buf, xpos, ypos, w, h, mv);
+            let mut tmp = McBlock::new();
+            mc_dsp.mc_blocks(&mut tmp, buf, xpos, ypos, w, h, mv);
 
             let yoff = frm.offset[0] + xpos + ypos * frm.stride[0];
             let yw = if weight.luma_weighted {
@@ -227,7 +225,7 @@ fn do_p_mc(frm: &mut NASimpleVideoFrame<u8>, xpos: usize, ypos: usize, w: usize,
                     8 => 2,
                     _ => 3,
                 };
-            (mc_dsp.put_block_weighted[wmode])(&mut frm.data[yoff..], frm.stride[0], &ytmp, h, yw);
+            (mc_dsp.put_block_weighted[wmode])(&mut frm.data[yoff..], frm.stride[0], &tmp.y, h, yw);
 
             for chroma in 0..2 {
                 let cstride = frm.stride[chroma + 1];
@@ -237,7 +235,7 @@ fn do_p_mc(frm: &mut NASimpleVideoFrame<u8>, xpos: usize, ypos: usize, w: usize,
                     } else {
                         [1, 0, 0]
                     };
-                let csrc = if chroma == 0 { &utmp } else { &vtmp };
+                let csrc = if chroma == 0 { &tmp.u } else { &tmp.v };
                 (mc_dsp.put_block_weighted[wmode - 1])(&mut frm.data[coff..], cstride, csrc, h / 2, cw);
             }
         }
@@ -289,16 +287,12 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
             },
         };
     } else {
-        let mut ytmp0 = [0x80; 16 * 16];
-        let mut utmp0 = [0x80; 16 * 16];
-        let mut vtmp0 = [0x80; 16 * 16];
-        let mut ytmp1 = [0x80; 16 * 16];
-        let mut utmp1 = [0x80; 16 * 16];
-        let mut vtmp1 = [0x80; 16 * 16];
+        let mut tmp0 = McBlock::new();
+        let mut tmp1 = McBlock::new();
         match (mode, ref_pic0, ref_pic1) {
             (BMode::L0, Some(buf), _) | (BMode::L1, _, Some(buf)) => {
                 let (mv, weight) = if mode == BMode::L0 { (mv0, weight0) } else { (mv1, weight1) };
-                mc_dsp.mc_blocks(&mut ytmp0, &mut utmp0, &mut vtmp0, buf, xpos, ypos, w, h, mv);
+                mc_dsp.mc_blocks(&mut tmp0, buf, xpos, ypos, w, h, mv);
 
                 let yoff = frm.offset[0] + xpos + ypos * frm.stride[0];
                 let yw = if weight.luma_weighted {
@@ -312,7 +306,7 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
                         8 => 2,
                         _ => 3,
                     };
-                (mc_dsp.put_block_weighted[wmode])(&mut frm.data[yoff..], frm.stride[0], &ytmp0, h, yw);
+                (mc_dsp.put_block_weighted[wmode])(&mut frm.data[yoff..], frm.stride[0], &tmp0.y, h, yw);
 
                 for chroma in 0..2 {
                     let cstride = frm.stride[chroma + 1];
@@ -322,13 +316,13 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
                         } else {
                             [1, 0, 0]
                         };
-                    let csrc = if chroma == 0 { &utmp0 } else { &vtmp0 };
+                    let csrc = if chroma == 0 { &tmp0.u } else { &tmp0.v };
                     (mc_dsp.put_block_weighted[wmode - 1])(&mut frm.data[coff..], cstride, csrc, h / 2, cw);
                 }
             },
             (BMode::Bi, Some(buf0), Some(buf1)) => { // do both and avg
-                mc_dsp.mc_blocks(&mut ytmp0, &mut utmp0, &mut vtmp0, buf0, xpos, ypos, w, h, mv0);
-                mc_dsp.mc_blocks(&mut ytmp1, &mut utmp1, &mut vtmp1, buf1, xpos, ypos, w, h, mv1);
+                mc_dsp.mc_blocks(&mut tmp0, buf0, xpos, ypos, w, h, mv0);
+                mc_dsp.mc_blocks(&mut tmp1, buf1, xpos, ypos, w, h, mv1);
 
                 let yoff = frm.offset[0] + xpos + ypos * frm.stride[0];
                 let yw = match (weight0.luma_weighted, weight1.luma_weighted) {
@@ -343,7 +337,7 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
                         8 => 2,
                         _ => 3,
                     };
-                (mc_dsp.put_block_weighted2[wmode])(&mut frm.data[yoff..], frm.stride[0], &ytmp0, &ytmp1, h, yw);
+                (mc_dsp.put_block_weighted2[wmode])(&mut frm.data[yoff..], frm.stride[0], &tmp0.y, &tmp1.y, h, yw);
 
                 for chroma in 0..2 {
                     let cstride = frm.stride[chroma + 1];
@@ -358,8 +352,8 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
                             (false, true) => [1 << weight1.luma_shift, 0, cw1, co1, weight1.luma_shift as i8],
                             (false, false) => [1, 0, 1, 0, 0],
                         };
-                    let csrc0 = if chroma == 0 { &utmp0 } else { &vtmp0 };
-                    let csrc1 = if chroma == 0 { &utmp1 } else { &vtmp1 };
+                    let csrc0 = if chroma == 0 { &tmp0.u } else { &tmp0.v };
+                    let csrc1 = if chroma == 0 { &tmp1.u } else { &tmp1.v };
                     (mc_dsp.put_block_weighted2[wmode - 1])(&mut frm.data[coff..], cstride, csrc0, csrc1, h / 2, cw);
                 }
             },
@@ -370,6 +364,65 @@ fn do_b_mc(frm: &mut NASimpleVideoFrame<u8>, mode: BMode, xpos: usize, ypos: usi
     }
 }
 
+fn do_b_mc_4x4bi(frm: &mut NASimpleVideoFrame<u8>, xpos: usize, ypos: usize, mv: &[MV; 2], ref_pic0: Option<NAVideoBufferRef<u8>>, weight0: &WeightInfo, ref_pic1: Option<NAVideoBufferRef<u8>>, weight1: &WeightInfo, mc_dsp: &mut H264MC) {
+    if !weight0.is_weighted() || !weight1.is_weighted() {
+        match (ref_pic0, ref_pic1) {
+            (Some(buf0), Some(buf1)) => {
+                mc_dsp.do_mc(frm, buf0, xpos, ypos, 4, 4, mv[0]);
+                mc_dsp.do_mc_avg(frm, buf1, xpos, ypos, 4, 4, mv[1]);
+            },
+            (Some(buf0), None) => {
+                mc_dsp.do_mc(frm, buf0, xpos, ypos, 4, 4, mv[0]);
+            },
+            (None, Some(buf1)) => {
+                mc_dsp.do_mc(frm, buf1, xpos, ypos, 4, 4, mv[1]);
+            },
+            (None, None) => {
+                mc_dsp.gray_block(frm, xpos, ypos, 4, 4);
+            },
+        };
+    } else {
+        let mut tmp0 = McBlock::new();
+        let mut tmp1 = McBlock::new();
+        match (ref_pic0, ref_pic1) {
+            (Some(buf0), Some(buf1)) => { // do both and avg
+                mc_dsp.mc_blocks(&mut tmp0, buf0, xpos, ypos, 4, 4, mv[0]);
+                mc_dsp.mc_blocks(&mut tmp1, buf1, xpos, ypos, 4, 4, mv[1]);
+
+                let yoff = frm.offset[0] + xpos + ypos * frm.stride[0];
+                let yw = match (weight0.luma_weighted, weight1.luma_weighted) {
+                        (true, true) => [weight0.luma_weight, weight0.luma_offset, weight1.luma_weight, weight1.luma_offset, weight0.luma_shift as i8],
+                        (true, false) => [weight0.luma_weight, weight0.luma_offset, 1 << weight0.luma_shift, 0, weight0.luma_shift as i8],
+                        (false, true) => [1 << weight1.luma_shift, 0, weight1.luma_weight, weight1.luma_offset, weight1.luma_shift as i8],
+                        (false, false) => [1, 0, 1, 0, 0],
+                    };
+                (mc_dsp.put_block_weighted2[1])(&mut frm.data[yoff..], frm.stride[0], &tmp0.y, &tmp1.y, 4, yw);
+
+                for chroma in 0..2 {
+                    let cstride = frm.stride[chroma + 1];
+                    let coff = frm.offset[chroma + 1] + xpos / 2 + ypos / 2 * cstride;
+                    let cw0 = weight0.chroma_weight[chroma];
+                    let co0 = weight0.chroma_offset[chroma];
+                    let cw1 = weight1.chroma_weight[chroma];
+                    let co1 = weight1.chroma_offset[chroma];
+                    let cw = match (weight0.chroma_weighted, weight1.chroma_weighted) {
+                            (true, true) => [cw0, co0, cw1, co1, weight0.luma_shift as i8],
+                            (true, false) => [cw0, co0, 1 << weight0.luma_shift, 0, weight0.luma_shift as i8],
+                            (false, true) => [1 << weight1.luma_shift, 0, cw1, co1, weight1.luma_shift as i8],
+                            (false, false) => [1, 0, 1, 0, 0],
+                        };
+                    let csrc0 = if chroma == 0 { &tmp0.u } else { &tmp0.v };
+                    let csrc1 = if chroma == 0 { &tmp1.u } else { &tmp1.v };
+                    (mc_dsp.put_block_weighted2[0])(&mut frm.data[coff..], cstride, csrc0, csrc1, 2, cw);
+                }
+            },
+            _ => {
+                mc_dsp.gray_block(frm, xpos, ypos, 4, 4);
+            },
+        };
+    }
+}
+
 fn get_weights(slice_hdr: &SliceHeader, frame_refs: &SliceRefs, mode: BMode, weight_mode: u8, ref_l0: PicRef, ref_l1: PicRef) -> (WeightInfo, WeightInfo) {
     let idx_l0 = ref_l0.index();
     let idx_l1 = ref_l1.index();
@@ -532,12 +585,12 @@ pub fn recon_mb(frm: &mut NASimpleVideoFrame<u8>, slice_hdr: &SliceHeader, mb_in
                 do_b_mc(frm, BMode::Bi, xpos, ypos, 16, 16, mv[0], rpic0, &weight0, mv[1], rpic1, &weight1, mc_dsp);
             } else {
                 for blk4 in 0..16 {
-                    let mv = sstate.get_cur_blk4(blk4).mv;
                     let ref_idx = sstate.get_cur_blk8(blk4_to_blk8(blk4)).ref_idx;
                     let rpic0 = frame_refs.select_ref_pic(0, ref_idx[0].index());
                     let rpic1 = frame_refs.select_ref_pic(1, ref_idx[1].index());
                     let (weight0, weight1) = get_weights(slice_hdr, frame_refs, BMode::Bi, weight_mode, ref_idx[0], ref_idx[1]);
-                    do_b_mc(frm, BMode::Bi, xpos + (blk4 & 3) * 4, ypos + (blk4 >> 2) * 4, 4, 4, mv[0], rpic0, &weight0, mv[1], rpic1, &weight1, mc_dsp);
+                    let mv = &sstate.get_cur_blk4(blk4).mv;
+                    do_b_mc_4x4bi(frm, xpos + (blk4 & 3) * 4, ypos + (blk4 >> 2) * 4, mv, rpic0, &weight0, rpic1, &weight1, mc_dsp);
                 }
             }
             sstate.apply_to_blk8(|blk8| { blk8.ref_idx[0].set_direct(); blk8.ref_idx[1].set_direct(); });
@@ -554,12 +607,12 @@ pub fn recon_mb(frm: &mut NASimpleVideoFrame<u8>, slice_hdr: &SliceHeader, mb_in
                 match subtype {
                     SubMBType::Direct8x8 => {
                         for blk in 0..4 {
-                            let mv = sstate.get_cur_blk4(bx / 4 + (by / 4) * 4).mv;
                             let ref_idx = sstate.get_cur_blk8(bx / 8 + (by / 8) * 2).ref_idx;
                             let rpic0 = frame_refs.select_ref_pic(0, ref_idx[0].index());
                             let rpic1 = frame_refs.select_ref_pic(1, ref_idx[1].index());
                             let (weight0, weight1) = get_weights(slice_hdr, frame_refs, BMode::Bi, weight_mode, ref_idx[0], ref_idx[1]);
-                            do_b_mc(frm, BMode::Bi, xpos + bx, ypos + by, 4, 4, mv[0], rpic0, &weight0, mv[1], rpic1, &weight1, mc_dsp);
+                            let mv = &sstate.get_cur_blk4(bx / 4 + (by / 4) * 4).mv;
+                            do_b_mc_4x4bi(frm, xpos + bx, ypos + by, mv, rpic0, &weight0, rpic1, &weight1, mc_dsp);
                             bx += 4;
                             if blk == 1 {
                                 bx -= 8;